ubuntu20.04에서 Spark 설치하기
필자는 airflow에서 spark를 함께 사용하려고 한다.
전제 조건 -> spark가 설치되어 있어야 한다.
따라서 ubuntu20.04에서 Spark를 설치해보도록 하겠다.
1. 시스템 패키지를 최신 버전으로 업데이트 한다.
(sudo) apt-get update -y
2. 자바 설치 -> Apache Spark는 Java 기반 어플리케이션이기 때문에 java 설치 필요
설치 명령어는 아래와 같으며, 진행 후 java --version을 통해 설치가 되었는지 확인 한다.
apt-get install default-jdk -y
3. Scala 설치
Apache Spark는 Scala를 사용하여 개발되었다 -> 따라서 시스템에 scala 설치 필수
apt-get install scala -y
scala -version 으로 설치 확인
이 후, scala 인터페이스에 진입하여, scala > printlen("hello scala") 을 통하여, 출력 되는지 확인 한다.
4. Apache Spark 설치 및 실행
버전에 맞도록 설치하면 되는데, 본인의 경우 spark-3.2.4.tgz 로 진행했다. 설치 명령어는 아래와 같다.
wget https://dlcdn.apache.org/spark/spark-3.2.4/spark-3.2.4.tgz
하지만, 필자의 경우, certificate 관련 오류가 났었기 때문에, 아래 명령어로 진행 했다.
wget https://dlcdn.apache.org/spark/spark-3.2.4/spark-3.2.4-bin-hadoop3.2.tgz --no-check-certificate
이후, 압축을 풀어 준다.
tar -xvzf spark-3.2.4.tgz
다음으로는 추출된 디렉토리의 이름을 spark로 변경해준다.
mv spark-3.2.4-bin-hadoop3.2 spark
다음, spark 명령을 쉽게 할 수 있도록 spark 환경을 구성한다 -> .bashrc 파일을 편집하여 구성함.
vi ~/.bashrc
파일 끝에 다음 줄을 추가 한다.
export SPARK_HOME=/home/sychung/spark
export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin
파일을 저장하고, 닫은 후, 명여ㅕㅇ을 사용하여 환경을 활성화 한다.
source ~/.bashrc
이 과정을 거쳤다면, Apache-spark 가 설치 되고 구성된다. 이제 spark 마스터 서버를 시작하자!!!
시작 명령어는 아래와 같다. -> 반대로 끝내고 싶다면, stop-master.sh
start-master.sh
실행 후, 아래와 같이 나온다면 시작 된 것으로, [본인ip]:8080 혹은 localhost:8080으로 진입한다.
그리고 worker 노드를 붙이고 싶다면, master의 url을 복사 한 후
start-worker.sh spark://DESKTOP-BD5NKTM.:7077
명령어를 입력하면, 아래와 같이 worker가 추가 된 것을 볼 수 있다.
환경구성은 이렇게 되었고, 본격적으로 spark를 사용해보도록 하겠다.