Youtube Crawling 작업 재개 시 중복 제거

**Describe**
- Youtube Crawling 작업 재개 시, 이미 작성된 data/post/youtube_*.csv 에 URL link 를 기준으로 set() 처리하여 이미 수집된 데이터는 넘어가도록 함.
- 이 때, 다른 검색 키워드에서 같은 URL link 가 있는 경우, 다른 키워드임에도 불구하고 해당 데이터가 제거됨을 발견
- 데이터 저장 주기 지정, 에러 발생 시 driver 종료 기능 추가 요망

**To Do**
- [x] link 뿐 아니라 keyword, title, link 총 3가지로 이미 수집된 데이터인지를 파악하도록 함.
- [x] 추가적으로 OS 마다 `pandas.read_csv` 에 `lineterminator` 인자 효과가 달라지는데, 이를 없애는 것으로 통일
- [x] try, finally 구문으로 프로세스 내 driver 활동을 완전 종료하여 리소스 보존
- [x] 현재 데이터를 한 개씩 csv 에 최신화하고 있는데, 나중에 데이터가 많아질 경우 자원 낭비가 심할 것 같아 batch 단위로 저장할 수 있는 batch argument 추가
- [x] error log 를 저장하여 에러난 URL 과 그 내용을 담은 txt 파일을 저장


Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Youtube Crawling 작업 재개 시 중복 제거 #4

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

Youtube Crawling 작업 재개 시 중복 제거 #4

Description

Metadata

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

Issue actions