Data engineering/spark

ubuntu20.04에서 Spark 설치하기

amelia-suyeon 2023. 9. 19. 10:37

필자는 airflow에서 spark를 함께 사용하려고 한다.

전제 조건 -> spark가 설치되어 있어야 한다.

 

따라서 ubuntu20.04에서 Spark를 설치해보도록 하겠다. 

 


1. 시스템 패키지를 최신 버전으로 업데이트 한다.

 

(sudo) apt-get update -y

 

2. 자바 설치 ->  Apache Spark는 Java 기반 어플리케이션이기 때문에 java 설치 필요

 

설치 명령어는 아래와 같으며, 진행 후 java --version을 통해 설치가 되었는지 확인 한다.

apt-get install default-jdk -y

 

3. Scala 설치

 

Apache Spark는 Scala를 사용하여 개발되었다 -> 따라서 시스템에 scala 설치 필수 

 

apt-get install scala -y

 

scala -version 으로 설치 확인 

 

 

이 후, scala 인터페이스에 진입하여, scala > printlen("hello scala") 을 통하여, 출력 되는지 확인 한다.

 

 

4. Apache Spark 설치 및 실행 

 

버전에 맞도록 설치하면 되는데, 본인의 경우 spark-3.2.4.tgz 로 진행했다. 설치 명령어는 아래와 같다.

 

wget https://dlcdn.apache.org/spark/spark-3.2.4/spark-3.2.4.tgz 

 

하지만, 필자의 경우, certificate 관련 오류가 났었기 때문에,  아래 명령어로 진행 했다.

 

wget https://dlcdn.apache.org/spark/spark-3.2.4/spark-3.2.4-bin-hadoop3.2.tgz --no-check-certificate

 

이후,  압축을 풀어 준다.

 

tar -xvzf spark-3.2.4.tgz

 

다음으로는 추출된 디렉토리의 이름을 spark로 변경해준다.

 

mv spark-3.2.4-bin-hadoop3.2 spark

 

다음, spark 명령을 쉽게 할 수 있도록  spark 환경을 구성한다 -> .bashrc 파일을 편집하여 구성함.

 

vi ~/.bashrc 

파일 끝에 다음 줄을 추가 한다.

 

export SPARK_HOME=/home/sychung/spark
export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin

 

파일을 저장하고, 닫은 후, 명여ㅕㅇ을 사용하여 환경을 활성화 한다.

 

source ~/.bashrc 

 

이 과정을 거쳤다면, Apache-spark 가 설치 되고 구성된다. 이제 spark 마스터 서버를 시작하자!!!

 

시작 명령어는 아래와 같다. -> 반대로 끝내고 싶다면, stop-master.sh

start-master.sh

실행 후, 아래와 같이 나온다면 시작 된 것으로, [본인ip]:8080 혹은 localhost:8080으로 진입한다. 

 

 

요렇게 화면이 보인다면 성공이다.

 

그리고 worker 노드를 붙이고 싶다면, master의 url을 복사 한 후

 

start-worker.sh spark://DESKTOP-BD5NKTM.:7077 

 

명령어를 입력하면, 아래와 같이 worker가 추가 된 것을 볼 수 있다. 

환경구성은 이렇게 되었고, 본격적으로 spark를 사용해보도록 하겠다.