Hadoop과 Spark 설치하기

해당 시리즈는 라즈베리파이 3개를 연결하고 하둡(Hadoop)과 스파크(spark)를 사용하여 빅데이터를 다루는 과정을 보여줍니다.


이번 글에서는 마스터 라즈베리 파이에서 하둡과 스파크를 다운받은 후 클러스터링을 진행할 것이다. 먼저 마스터로 지정한 라즈베리 파이에 접속한 후 아래의 순서대로 진행하자.

Hadoop 3.2.1 다운로드

먼저 아래의 코드를 입력하여 하둡을 다운받고 압축을 풀어준다. (마스터에서만 진행한다.)

1
2
3
4
5
# 다운
wget https://downloads.apache.org/hadoop/common/hadoop-3.2.1/hadoop-3.2.1.tar.gz

# 압축 해제
sudo tar -xvf hadoop-3.2.1.tar.gz -C /opt/

그 다음 압축 해제된 파일을 /opt/hadoop으로 옮긴 후, 해당 디렉토리의 권한을 변경한다.

1
2
3
cd opt
sudo mv hadoop-3.2.1 hadoop
sudo chown pi:pi -R /opt/hadoop

각각의 실행파일들의 경로를 지정해야 한다. ~/.bashrc에 들어가서 아래의 코드를 가장 윗부분에 붙여넣는다.

1
2
3
4
5
6
7
8
9
10
11
12
13
export JAVA_HOME=$(readlink –f /usr/bin/java | sed "s:bin/java::")
export HADOOP_HOME=/opt/hadoop
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

export HADOOP_INSTALL=$HADOOP_HOME
export HADOOP_MAPRED_HOME=$HADOOP_HOME
export HADOOP_COMMON_HOME=$HADOOP_HOME
export HADOOP_HDFS_HOME=$HADOOP_HOME
export HADOOP_INSTALL=$HADOOP_HOME
export YARN_HOME=$HADOOP_HOME
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
export HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib/native"

그 다음 해당 변경사항을 적용하자.

1
source ~/.bashrc

마지막으로 하둡 환경설정에도 자바 경로를 입력한다.

1
vim /opt/hadoop/etc/hadoop/hadoop-env.sh

위 경로에 있는 스크립트 파일에서 아래의 코드를 추가해준다.

1
export JAVA_HOME=$(readlink –f /usr/bin/java | sed "s:bin/java::")

다 끝난 후 아래의 명령어로 하둡이 잘 설치되었는지 확인해보자.

1
hadoop version | grep Hadoop

Spark 2.4.7 다운로드

Sparkd도 Hadoop과 동일하게 진행하면 된다. 먼저 스파크를 다운받고 압축을 푼다.

1
2
3
4
5
# 다운
wget https://downloads.apache.org/spark/spark-2.4.7/spark-2.4.7-bin-hadoop2.7.tgz

# 압축 해제
sudo tar -xvf spark-2.4.7-bin-hadoop2.7.tgz -C /opt/

그 다음 압축 해제된 파일을 /opt/spark으로 옮긴 후, 해당 디렉토리의 권한을 변경한다.

1
2
3
cd opt
sudo mv spark-2.4.7-bin-hadoop2.7 spark
sudo chown pi:pi -R /opt/spark

하둡과 동일하게 각각의 실행파일들의 경로를 지정해야 한다. ~/.bashrc에 들어가서 아래의 코드를 붙여넣는다.

1
2
3
export SPARK_HOME=/opt/spark
export PATH=$PATH:$SPARK_HOME/bin
export YARN_CONF_DIR=$HADOOP_HOME/etc/hadoop

변경사항을 적용해준 뒤 스파크가 잘 작동하는지 확인해보자.

1
2
source ~/.bashrc
spark-shell --version

이렇게 하둡과 스파크 설치는 끝났다. 다음 글에서는 분산처리 설정하는 방법에 대해서 살펴볼 것이다.


Hadoop과 Spark 설치하기
https://dev-bearabbit.github.io/ko/Hadoop/hadoop-3/
Author
Jess
Posted on
2020년 11월 10일
Licensed under