본문 바로가기

카테고리 없음

하둡(Hadoop) 2.7.3 버젼 설치법

1) Java 설치


apt(advanced package tool)를 이용한 SW설치

sudo add-apt-repository ppa:webupd8team/java


설치하려는 패키지가 저장되어 있는 저장소의 주소를 소스 리스트인 /etc/apt/sources.list에 추가하는 명령


 sudo apt-get update

패키지 저장소의 패키지 목록을 갱신하는 명령


 sudo apt-get install oracle-java8-installer

 패키지를 설치하는 명령



2) ssh, rsync 설치


$sudo apt-get install ssh rsync 




3) apache Hadoop 다운로드


$ mkdir Hadoop

$ cd Hadoop

$ sudo wget http://apache.mirror.cdnetworks.com/hadoop/common/hadoop-2.7.3/hadoop-2.7.3.tar.gz



$ tar xvf hadoop-2.7.3.tar.gz 

압축을 해제



4) ssh 공개키 생성



$ ssh-keygen -t dsa 

ssh 공개키,개인키 생성





$ cd ~/.ssh

$ ls 

키가 생성되었는지 확인.




$ ssh-copy-id 계정이름@아이피주소 

cat id_dsa.pub >> authorized_keys

공개키를 서버에 전송

공개키를 authorized_keys 파일로 복사





$ env | grep JAVA_HOME 

JAVA_HOME 위치 확인





vi etc/hadoop/hadoop-env.sh


export JAVA_HOME=/usr/lib/jvm/java-8-oracle

export HADOOP_HOME=/하둡설치한 위치 ( i.g.,/home/honey/Hadoop/hadoop-2.7.3)

export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop


$ source etc/hadoop/hadoop-env.sh

Hadoop 환경변수 변경 및 적용




5) Standalone Mode



$ mkdir input

$ cp etc/hadoop/*.xml input 

$ bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.1.jar wordcount input output 

$ cat output/*

input 디렉토리를 만들고 내용 복사.

실행결과 확인






6) Pseudo-Distributed Mode 



$vi etc/hadoop/core-site.xml 


<configuration>

     <property>

        <name>fs.defaultFS</name>

        <value>hdfs://localhost:9000</value>

    </property>

</configuration>

Namenode에 대한 서버 IP와 포트 정보 설정





$ vi etc/hadoop/hdfs-site.xml


<configuration>

    <property>

        <name>dfs.replication</name>

        <value>1</value>

    </property>

</configuration>


HDFS 환경설정

복제본(Replication) 의 기본값은 3





파일 시스템 포맷

$ bin/hdfs namenode –format 




NameNode 데몬과 DataNode 데몬 시작

$ sbin/start-dfs.sh

$ jps                    //java process확인





http://localhost:50070


Web에서 작동하는지 확인






$ bin/hdfs dfs -mkdir /user

$ bin/hdfs dfs –ls /

$ bin/hdfs dfs -mkdir /user/cjs

$ bin/hdfs dfs –mkdir /user/cjs/input 


MapReduce를 실행하기 위해서 HDFS디렉터리가 필요.

bin/hdfs dfs 명령으로 HDFS 관리





$ bin/hdfs dfs –put etc/hadoop/*.xml  /user/cjs/input

$ bin/hdfs dfs –ls /user/cjs/input 

분산시스템에 input 파일들을 복사





$ bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.1.jar wordcount /user/cjs/input /user/cjs/output 

제공된 몇몇의 예제를 실행






$bin/hdfs dfs –get /user/cjs/output output2

$cat output2/* 




$ bin/hdfs dfs –cat /user/cjs/output/* 





$ sbin/stop-dfs.sh