[NEW] local spark 작업 환경 setup infra

## 요건 파악

> *DE 요청관리에 있는 내용 기반으로 요청 담당자와 커뮤니케이션을 통해 자세히 요건 파악을 진행해주세요.

Local Spark 활용을 위한 Docker 구축 
: local 환경에서 개인이 spark를 사용해 데이터를 다뤄볼 수 있도록 docker desktop 사용하여 docker container로 패키징된 spark application, jupyter notebook, aws등 인프라에 연결 가능한 환경 개발

- spark+jupyter
- AWS Configure 설정
- Extension 기본 설정
- 이 외에 본인이 생각했을 때, 필요하다고 생각되는 부분

 

## 정리

A. (Local mode) Notebook에서 스파크를 이용한 데이터 처리 코드를 interactive하게 실행하고 실습하기 위한 환경 
B. (Cluster mode - standalone) spark-submit으로 스크립트 제출하여 spark job을 실행시키는 환경

환경 분리 context

[기존 컴포즈 파일](https://github.com/brickstudy/infra-docs/blob/main/spark/docker-compose.yaml) 의 경우 `master`, `worker` spark-cluster와 `jupyter` 컨테이너를 띄워서 주피터 상에서 spark-cluster 내의 스파크 엔진을 `standalone cluster mode`로 사용하게끔 설정이 되어있습니다. 

하지만 jupyterlab 컨테이너 자체에도 spark 가 설치되어있기 때문에, 노트북으로 실습하는 용도로 환경을 구성하는데에 spark-master, spark-worker도 함께 빌드하는게 불필요하다고 판단했습니다. 따라서 단순 pyspark 코드가 실행되는지 실습할때에는 (A)jupyterlab 컨테이너만 띄워 local mode(no cluster manager) 로 학습 및 개발이 진행되고, (B)클러스터의 경우 별도로(docker-compose_prod_test.yml) 띄울 수 있게끔 분리해두면 작업이 더 가벼워질 것이라 생각했습니다. 

추가적으로 [해당 컴포즈 파일](https://github.com/brickstudy/infra-docs/blob/main/spark/docker-compose.yaml)이 실제 작업에 사용하는 pc의 사양에서 사용하기에 메모리 점유가 높아 작업이 실패한다는 케이스가 있었습니다. jupyter 작업 환경을 최대한 가볍게 가져간다면 해당 문제 또한 해결될 것이라 기대합니다.

 

## 🔗 관련 링크

- 

 

## 📌 진행상황

> *진행상황에 예상 마감 일정까지 함께 기재해주세요!!

- [X] A 환경 개발
- [X] A 환경 테스트
- [ ] B 환경 개발 (~6/19)
- [ ] B 환경 테스트 (~6/21)

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

[NEW] local spark 작업 환경 setup infra #3

요건 파악

정리

🔗 관련 링크

📌 진행상황

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

[NEW] local spark 작업 환경 setup infra #3

Description

요건 파악

정리

🔗 관련 링크

📌 진행상황

Metadata

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

Issue actions