-
Notifications
You must be signed in to change notification settings - Fork 0
Description
요건 파악
*DE 요청관리에 있는 내용 기반으로 요청 담당자와 커뮤니케이션을 통해 자세히 요건 파악을 진행해주세요.
Local Spark 활용을 위한 Docker 구축
: local 환경에서 개인이 spark를 사용해 데이터를 다뤄볼 수 있도록 docker desktop 사용하여 docker container로 패키징된 spark application, jupyter notebook, aws등 인프라에 연결 가능한 환경 개발
- spark+jupyter
- AWS Configure 설정
- Extension 기본 설정
- 이 외에 본인이 생각했을 때, 필요하다고 생각되는 부분
정리
A. (Local mode) Notebook에서 스파크를 이용한 데이터 처리 코드를 interactive하게 실행하고 실습하기 위한 환경
B. (Cluster mode - standalone) spark-submit으로 스크립트 제출하여 spark job을 실행시키는 환경
환경 분리 context
기존 컴포즈 파일 의 경우 master, worker spark-cluster와 jupyter 컨테이너를 띄워서 주피터 상에서 spark-cluster 내의 스파크 엔진을 standalone cluster mode로 사용하게끔 설정이 되어있습니다.
하지만 jupyterlab 컨테이너 자체에도 spark 가 설치되어있기 때문에, 노트북으로 실습하는 용도로 환경을 구성하는데에 spark-master, spark-worker도 함께 빌드하는게 불필요하다고 판단했습니다. 따라서 단순 pyspark 코드가 실행되는지 실습할때에는 (A)jupyterlab 컨테이너만 띄워 local mode(no cluster manager) 로 학습 및 개발이 진행되고, (B)클러스터의 경우 별도로(docker-compose_prod_test.yml) 띄울 수 있게끔 분리해두면 작업이 더 가벼워질 것이라 생각했습니다.
추가적으로 해당 컴포즈 파일이 실제 작업에 사용하는 pc의 사양에서 사용하기에 메모리 점유가 높아 작업이 실패한다는 케이스가 있었습니다. jupyter 작업 환경을 최대한 가볍게 가져간다면 해당 문제 또한 해결될 것이라 기대합니다.
🔗 관련 링크
📌 진행상황
*진행상황에 예상 마감 일정까지 함께 기재해주세요!!
- A 환경 개발
- A 환경 테스트
- B 환경 개발 (~6/19)
- B 환경 테스트 (~6/21)