What is Spark?
아파치 스파크 (Apache Spark)는 고성능 분산 데이터 처리 및 분석 프레임워크로, 대규모 데이터 집합을 처리하고 복잡한 데이터 분석 작업을 수행하는 데 사용됩니다. 아파치 스파크는 오픈 소스로 개발되었으며, 다양한 언어로 API를 제공하여 사용자가 Java, Scala, Python, R 등에서 사용할 수 있습니다.
이번 시간에는 가볍게 로컬 환경에서 스파크를 다운받고, 실행해보겠습니다 😗
Installing Spark
다운로드
cd ~
wget https://www.apache.org/dyn/closer.lua/spark/spark-3.5.0/spark-3.5.0-bin-hadoop3.tgz
아니면 공식사이트에서 직접 다운받을 수도 있습니다.
https://spark.apache.org/downloads.html
압축 해제
tar -xvf spark-3.5.0-bin-hadoop3.tgz
Create Soft Link (Optional)
ln -s /home/xxx/spark-3.5.0-bin-hadoop3.tgz /home/xxx/spark
Add SPARK_HOME entry to bashrc/zshrc
#set spark related environment varibales
SPARK_HOME="/home/xxx/spark"
export PATH=$SPARK_HOME/bin:$PATH
export PATH=$SPARK_HOME/sbin:$PATH
Run Spark
spark-master.sh
start-worker.sh spark://{machineName}:7077
Spark-master and Spark-worker pid 확인해보기
jps
Spark-master and Spark-worker network status 확인해보기
netstat -antup | grep LISTEN | sort -n
Master | Worker | |||
Description | Spark Master Port | Master Web UI | Worker Port | Worker Web UI |
port | 7077 | 8080 | {RANDOM_PORT} | 8081 |
link | http://localhost:8080 | http://localhost:8081 | ||
parameter | SPARK_MASTER_PORT | SPARK_MASTER_WEBUI_PORT | SPARK_WORKER_PORT | SPARK_WORKER_WEBUI_PORT |
반응형
'Data Engineer > spark' 카테고리의 다른 글
[Spark] 클러스터 구축 docker swarm, standalone (3/5) (0) | 2023.08.27 |
---|---|
[Spark] 클러스터 구축 docker-compose, standalone (2/5) (0) | 2023.08.23 |