Study/Hadoop

Step 1~3. 하둡(Hadoop) 설치, 환경설정, 예제(WordCount) 테스트 까지.

빨간당무 2014. 4. 28. 00:04

본 문서는 하둡(Hadoop)과 자바(JAVA)을 설치하고 기본적인 설정(의사분산모드) 후 예제 테스트까지하는 방법을 기술하고 있다.

본 문서의 내용은 본 문서가 작성된 일자 이전 대해서 확인 된 방법으로써 이후 변경된 내용을 담고 있지 않거나 혹은 일부는 추후 업데이트할 예정이다.




common에 있는 것으로 다운로드 (차이점은 모르겠음)

wget http://archive.apache.org/dist/hadoop/common/hadoop-1.0.3/hadoop-1.0.3.tar.gz

--wget http://archive.apache.org/dist/hadoop/core/hadoop-1.0.3/hadoop-1.0.3.tar.gz


tar xvfz hadoop-1.0.3.tar.gz




root@ailab-hadoop:/home/ailab# ssh-keygen -t rsa
\Generating public/private rsa key pair.
Enter file in which to save the key (/root/.ssh/id_rsa):
Enter passphrase (empty for no passphrase):
Enter same passphrase again:
Your identification has been saved in \.
Your public key has been saved in \.pub.
The key fingerprint is:
1e:1d:d7:01:04:86:b3:d9:5b:78:6a:3c:5a:72:28:04 root@ailab-hadoop
The key's randomart image is:
+--[ RSA 2048]----+
|         .ooo..  |
|    E   o.   . . |
|     .   =... .  |
|      . o.ooo    |
|     .  So.=     |
|      ..o.O      |
|       ..* .     |
|        .        |
|                 |
+-----------------+


scp ~/.ssh/id_rsa.pub ailab@localhost:/home/ailab/

scp는 자신의 파일을 원격서버로 전송하거나 전송 받는 명령어인데. 위에서 생성한 id_rsa.pub을 localhost 서버의 ailab 계정의 /home/ailab/ 디렉토리로 복사라는 명령이고 복사한 후에 해당 서버에 접속해서

mv /home/ailab/id_rsa.pub ~/.ssh/authorized_keys 로 복사하면 자동로그인이 가능해 진다.

이건 앞서 http://redcarrot.tistory.com/103 에서 한 것과 같은 행위인데. 앞서는 로컬 컴퓨터에다 의사진행모드로 진행하기 위해 복사했던것이고, 이번 위의 방법은 실제 분산환경일 때 각 서버로 자동로그인이 가능하도록 하기 위한 방법이다.




vi $HADOOP_HOME/conf/core-site.xml


vi $HADOOP_HOME/conf/hdfs-site.xml


vi $HADOOP_HOME/conf/mapred-site.xml


scp /home/ailab/conf/* ailab@localhost:/home/ailab/hadoop-1.0.3/conf/

scp 명령을 통해 다른 모든 데이터노드 서버로 네임노드의 하둡 환경 설정 파일을 전송





네임노드 초기화
./bin/hadoop namenode -format


하둡 실행
./bin/start-all.sh


실행 여부 확인

jps


웹UI를 통한 실행 확인

localhost:50070

네임노드IP:50070으로 접속시 HDFS용량, 데이터노드 개수 등 기본적인 HDFS의 상태 정보와 네임노드에 적재된 하둡 로그, HDFS에 저장된 파일도 조회 가능





WordCount 예제


./bin/hadoop jar hadoop-examples-1.0.3.jar wordcount /input/README.txt README.txt.result2


결과 조회

./bin/hadoop fs -ls


./bin/hadoop fs -cat README.txt.result2/*




Reference :시작하세요! 하둡 프로그래밍  : 기초부터 실무까지 하둡의 모든 것, 위키북스, 정재화 지음


2014/04/08 - [Study/Hadoop] - Step1. 우분투(Ubuntu) 기초

2014/04/08 - [Study/Hadoop] - Step2. 하둡(Hadoop) 설치 및 독자 모드

2014/04/10 - [Study/Hadoop] - Step3. 의사 분산 모드 (Pseudo Distributed Mode)