이번 시간에는 multi-node로 이루어진 kubernetes 환경에서 apache airflow 를 설치하는 과정을 공유하려 합니다. 필자는 on-premise 환경에 구성된 kubernetes 에 설치를 진행하였습니다. 원활한 진행을 위해서는 kubernetes 의 default storage class 가 있어야합니다. helm init helm 설치 curl -fsSL -o get_helm.sh https://raw.githubusercontent.com/helm/helm/main/scripts/get-helm-3 chmod 700 get_helm.sh ./get_helm.sh https://helm.sh/ko/docs/intro/install/ 헬름 설치하기 헬름 설치하고 작동하는 방법 배우기..
Data Engineer
이론 (ETL 과 DAG) 이 글을 클릭한 당신...! 😀 어디선가 들어보았을 이 Airflow 라는 단어가 호기심을 자극했을 것이다! 이번 기회에 airflow 에 대해 배우고 지식을 든든하게 채워보자 Airflow 공식 페이지의 소개하는 글은 이렇다. (https://airflow.apache.org/) Airflow는 workflow를 만들고(author), 스케쥴링하고(schedule), 감독한다(monitor) 🤔 알 것 같지만 와닿지는 않는다! (적어도 나는 그랬다... 😥) 그래서! 우리는 실습을 통하여 이 Airflow에 대해 더 알아볼 것이다! 그 전에, 한가지 알아야 할 단어가 있다 -> DAG Directed Acyclic Graph (DAG) 는 우리가 data engineering..
What is Spark? 아파치 스파크 (Apache Spark)는 고성능 분산 데이터 처리 및 분석 프레임워크로, 대규모 데이터 집합을 처리하고 복잡한 데이터 분석 작업을 수행하는 데 사용됩니다. 아파치 스파크는 오픈 소스로 개발되었으며, 다양한 언어로 API를 제공하여 사용자가 Java, Scala, Python, R 등에서 사용할 수 있습니다. 이번 시간에는 가볍게 로컬 환경에서 스파크를 다운받고, 실행해보겠습니다 😗 Installing Spark 다운로드 cd ~ wget https://www.apache.org/dyn/closer.lua/spark/spark-3.5.0/spark-3.5.0-bin-hadoop3.tgz 아니면 공식사이트에서 직접 다운받을 수도 있습니다. https://spark..