해당 시리즈는 라즈베리파이 3개를 연결하고 하둡(Hadoop)과 스파크(spark)를 사용하여 빅데이터를 다루는 과정을 보여줍니다.
이번 글에서는 마스터 라즈베리 파이에서 하둡과 스파크를 다운받은 후 클러스터링을 진행할 것이다. 먼저 마스터로 지정한 라즈베리 파이에 접속한 후 아래의 순서대로 진행하자.
Hadoop 3.2.1 다운로드
먼저 아래의 코드를 입력하여 하둡을 다운받고 압축을 풀어준다. (마스터에서만 진행한다.)
1 2 3 4 5
| wget https://downloads.apache.org/hadoop/common/hadoop-3.2.1/hadoop-3.2.1.tar.gz
sudo tar -xvf hadoop-3.2.1.tar.gz -C /opt/
|
그 다음 압축 해제된 파일을 /opt/hadoop
으로 옮긴 후, 해당 디렉토리의 권한을 변경한다.
1 2 3
| cd opt sudo mv hadoop-3.2.1 hadoop sudo chown pi:pi -R /opt/hadoop
|
각각의 실행파일들의 경로를 지정해야 한다. ~/.bashrc
에 들어가서 아래의 코드를 가장 윗부분에 붙여넣는다.
1 2 3 4 5 6 7 8 9 10 11 12 13
| export JAVA_HOME=$(readlink –f /usr/bin/java | sed "s:bin/java::") export HADOOP_HOME=/opt/hadoop export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
export HADOOP_INSTALL=$HADOOP_HOME export HADOOP_MAPRED_HOME=$HADOOP_HOME export HADOOP_COMMON_HOME=$HADOOP_HOME export HADOOP_HDFS_HOME=$HADOOP_HOME export HADOOP_INSTALL=$HADOOP_HOME export YARN_HOME=$HADOOP_HOME export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop export HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib/native"
|
그 다음 해당 변경사항을 적용하자.
마지막으로 하둡 환경설정에도 자바 경로를 입력한다.
1
| vim /opt/hadoop/etc/hadoop/hadoop-env.sh
|
위 경로에 있는 스크립트 파일에서 아래의 코드를 추가해준다.
1
| export JAVA_HOME=$(readlink –f /usr/bin/java | sed "s:bin/java::")
|
다 끝난 후 아래의 명령어로 하둡이 잘 설치되었는지 확인해보자.
1
| hadoop version | grep Hadoop
|
Spark 2.4.7 다운로드
Sparkd도 Hadoop과 동일하게 진행하면 된다. 먼저 스파크를 다운받고 압축을 푼다.
1 2 3 4 5
| wget https://downloads.apache.org/spark/spark-2.4.7/spark-2.4.7-bin-hadoop2.7.tgz
sudo tar -xvf spark-2.4.7-bin-hadoop2.7.tgz -C /opt/
|
그 다음 압축 해제된 파일을 /opt/spark
으로 옮긴 후, 해당 디렉토리의 권한을 변경한다.
1 2 3
| cd opt sudo mv spark-2.4.7-bin-hadoop2.7 spark sudo chown pi:pi -R /opt/spark
|
하둡과 동일하게 각각의 실행파일들의 경로를 지정해야 한다. ~/.bashrc
에 들어가서 아래의 코드를 붙여넣는다.
1 2 3
| export SPARK_HOME=/opt/spark export PATH=$PATH:$SPARK_HOME/bin export YARN_CONF_DIR=$HADOOP_HOME/etc/hadoop
|
변경사항을 적용해준 뒤 스파크가 잘 작동하는지 확인해보자.
1 2
| source ~/.bashrc spark-shell --version
|
이렇게 하둡과 스파크 설치는 끝났다. 다음 글에서는 분산처리 설정하는 방법에 대해서 살펴볼 것이다.