**Describe** - Youtube Crawling 작업 재개 시, 이미 작성된 data/post/youtube_*.csv 에 URL link 를 기준으로 set() 처리하여 이미 수집된 데이터는 넘어가도록 함. - 이 때, 다른 검색 키워드에서 같은 URL link 가 있는 경우, 다른 키워드임에도 불구하고 해당 데이터가 제거됨을 발견 - 데이터 저장 주기 지정, 에러 발생 시 driver 종료 기능 추가 요망 **To Do** - [x] link 뿐 아니라 keyword, title, link 총 3가지로 이미 수집된 데이터인지를 파악하도록 함. - [x] 추가적으로 OS 마다 `pandas.read_csv` 에 `lineterminator` 인자 효과가 달라지는데, 이를 없애는 것으로 통일 - [x] try, finally 구문으로 프로세스 내 driver 활동을 완전 종료하여 리소스 보존 - [x] 현재 데이터를 한 개씩 csv 에 최신화하고 있는데, 나중에 데이터가 많아질 경우 자원 낭비가 심할 것 같아 batch 단위로 저장할 수 있는 batch argument 추가 - [x] error log 를 저장하여 에러난 URL 과 그 내용을 담은 txt 파일을 저장
Describe
To Do
pandas.read_csv에lineterminator인자 효과가 달라지는데, 이를 없애는 것으로 통일