Skip to content

Youtube Crawling 작업 재개 시 중복 제거 #4

@bkkhyunn

Description

@bkkhyunn

Describe

  • Youtube Crawling 작업 재개 시, 이미 작성된 data/post/youtube_*.csv 에 URL link 를 기준으로 set() 처리하여 이미 수집된 데이터는 넘어가도록 함.
  • 이 때, 다른 검색 키워드에서 같은 URL link 가 있는 경우, 다른 키워드임에도 불구하고 해당 데이터가 제거됨을 발견
  • 데이터 저장 주기 지정, 에러 발생 시 driver 종료 기능 추가 요망

To Do

  • link 뿐 아니라 keyword, title, link 총 3가지로 이미 수집된 데이터인지를 파악하도록 함.
  • 추가적으로 OS 마다 pandas.read_csvlineterminator 인자 효과가 달라지는데, 이를 없애는 것으로 통일
  • try, finally 구문으로 프로세스 내 driver 활동을 완전 종료하여 리소스 보존
  • 현재 데이터를 한 개씩 csv 에 최신화하고 있는데, 나중에 데이터가 많아질 경우 자원 낭비가 심할 것 같아 batch 단위로 저장할 수 있는 batch argument 추가
  • error log 를 저장하여 에러난 URL 과 그 내용을 담은 txt 파일을 저장

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Type

    No type

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions