ubuntu20.04에서 Spark 설치하기

Data engineering/spark

amelia-suyeon 2023. 9. 19. 10:37

필자는 airflow에서 spark를 함께 사용하려고 한다.

전제 조건 -> spark가 설치되어 있어야 한다.

따라서 ubuntu20.04에서 Spark를 설치해보도록 하겠다.

(sudo) apt-get update -y

설치 명령어는 아래와 같으며, 진행 후 java --version을 통해 설치가 되었는지 확인 한다.

apt-get install default-jdk -y

Apache Spark는 Scala를 사용하여 개발되었다 -> 따라서 시스템에 scala 설치 필수

apt-get install scala -y

scala -version 으로 설치 확인

이 후, scala 인터페이스에 진입하여, scala > printlen("hello scala") 을 통하여, 출력 되는지 확인 한다.

버전에 맞도록 설치하면 되는데, 본인의 경우 spark-3.2.4.tgz 로 진행했다. 설치 명령어는 아래와 같다.

하지만, 필자의 경우, certificate 관련 오류가 났었기 때문에, 아래 명령어로 진행 했다.

이후, 압축을 풀어 준다.

tar -xvzf spark-3.2.4.tgz

다음으로는 추출된 디렉토리의 이름을 spark로 변경해준다.

mv spark-3.2.4-bin-hadoop3.2 spark

다음, spark 명령을 쉽게 할 수 있도록 spark 환경을 구성한다 -> .bashrc 파일을 편집하여 구성함.

vi ~/.bashrc

파일 끝에 다음 줄을 추가 한다.

export SPARK_HOME=/home/sychung/spark
export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin

파일을 저장하고, 닫은 후, 명여ㅕㅇ을 사용하여 환경을 활성화 한다.

source ~/.bashrc

이 과정을 거쳤다면, Apache-spark 가 설치 되고 구성된다. 이제 spark 마스터 서버를 시작하자!!!

시작 명령어는 아래와 같다. -> 반대로 끝내고 싶다면, stop-master.sh

start-master.sh

실행 후, 아래와 같이 나온다면 시작 된 것으로, [본인ip]:8080 혹은 localhost:8080으로 진입한다.

그리고 worker 노드를 붙이고 싶다면, master의 url을 복사 한 후

start-worker.sh spark://DESKTOP-BD5NKTM.:7077

명령어를 입력하면, 아래와 같이 worker가 추가 된 것을 볼 수 있다.

환경구성은 이렇게 되었고, 본격적으로 spark를 사용해보도록 하겠다.