0. prerequisite 컴퓨터 총 세대를 준비하였다. name node * 1 data node * 2 ubuntu hadoop java version 20.04 3.3.1 11 1. hadoop source code 다운로드 wget https://dlcdn.apache.org/hadoop/common/hadoop-3.3.1/hadoop-3.3.1.tar.gz tar xzf hadoop-3.3.1.tar.gz 2. /etc/hosts 수정 sudo vim /etc/hosts 10.12.168.200 hadoop-master-00 10.12.168.201 hadoop-slave-00 10.12.168.202 hadoop-slave-01 3. ssh key 생성 및 복제 ssh-keygen -t rs..
Data Engineer
0. 배경 이번에는 Spark Cluster를 docker swarm을 사용하여 구축했던 과정을 기록하려 합니다. Spark Cluster를 왜 도커 스웜 위..? 🤔 라고 묻는다면... 난처하다! 이 환경을 구축하였을 때의 상황은, Spark 도입이 필요함 (User): 운영자님! 지금 프로그램이 계속 에러가 납니다. 고쳐주세요! (Me): (dmesg 로그 확인 후) 음... Out Of Memory Killer (OOM) 이 프로그램을 강제 종료하였네요 ! 파일이 200GB를 넘어가서 그러네요.. 대용량의 데이터를 처리하는 프로그램이 있었는데, 처음에는 60GB 이내의 데이터를 처리할 것을 예상하고 개발을 하였었다. 하지만 데이터가 점점 커지면서 한대의 컴퓨터에서 multi-threading 혹은 ..
이번에는 Spark Cluster를 하나의 머신에서 간편하게 구축하는 과정을 기록하려 합니다. 아래 표는 사용 환경입니다. 하지만 docker 와 docker-compose 그리고 os 버젼은 컨테이너화 과정이기 때문에 큰 영향은 없을 것입니다. type version OS Ubuntu 20.04 docker Docker version 23.0.1 docker-compose version 1.27.4 앞서 언급했듯이 docker-compose를 통하여 간편히 하나의 머신에서 spark master와 worker 두개를 띄울 것입니다. 이 환경은 production, 즉 운영에서 쓰이기에는 무리가 있습니다. spark의 concept부터가 여러 대의 머신의 memory를 사용하여 대용량의 데이터를 처리하는..
Computing resource 준비하기 개발용 Linux 서버 3대와(k8s-master, k8s-slave01, k8s-slave02) 내 데스크탑 Linux 서버 1대(desktop)로 시작하였다. 모두 ubuntu 20.04로 초기화를 해주었다. OS: Ubuntu 20.04 Rancher 설치 (desktop) Rancher는 컨테이너 오케스트레이션 플랫폼이다. 다시 말해 Kubernetes나 다른 컨테이너 관리 시스템을 쉽게 배포하고 관리할 수 있게 도와주는 도구이다. Rancher를 활용하면 개발자와 운영팀은 복잡한 에플리케이션을 컨테이너화하고 배포하는 작업을 편하게 할 수 있다. 아래 사이트에 가면 Rancher를 쉽게 설치할 수 있다 :) https://www.rancher.com/qu..