프로젝트 주제 : 뉴스 데이터로부터 최신 이슈 추출 및 이와 관련된 코스피/코스닥 상장 주식 종목 매핑
프로젝트 진행 기간 : 2021.09 - 2021.12
프로젝트 멤버 : 이진모(27기, 팀장), 이은서(27기), 임주은(27기), 박지민(28기), 장이준(28기)
-
네이버 뉴스 Web Crawling을 통해 특정 기간 동안 publish된 특정 탭의 기사의 제목과 본문, 날짜 등의 데이터를 수집하였습니다.
-
네이버 금융 Web Crawling을 통해 KOSPI/KOSDAQ 상장 주식 종목의 뉴스 공시 데이터를 수집하였습니다.
-
수집한 뉴스 데이터에 대한 자연어 전처리를 진행하였습니다.
특수기호 삭제,토큰화(OKT),불용어 사전 업데이트,불용어 제거,형태소 태그
-
수집한 상장 주식 뉴스 공시 데이터에 대한 자연어 전처리를 진행하였습니다.
특수기호 삭제,토큰화(OKT),불용어 사전 업데이트,불용어 제거,형태소 태그
-
전처리 된 뉴스 데이터를 활용해 토픽 모델링을 통한 이슈 추출을 시도하였습니다.
-
이슈 추출을 수행한 큰 범주는 다음의 세 가지입니다.
경제/사회,문화,IT/기술
-
Perplexity와 Topic Coherence를 기준으로 최적의 n_topics를 찾아 이슈를 추출했습니다.
-
추출 된 이슈는 다음과 같습니다.
경제/사회: 비트코인 ETF 상장, 탄소중립, ADEX 엑스포, 가계 대출 규제, 에디슨 모터스 쌍용차 인수 등문화: 영화 '듄' 개봉, 방탄소년단 이터널즈 OST 수록, 부흐빈더 내한 공연, 김선호 논란 등IT/기술: 누리호 발사, 구글 인 앱 결제, 네이버 카카오 국정감사, 애플 맥북 프로 신모델 발표 등
-
네이버 기사에 특화 된 감정 분류 모델을 만들기 위해 hand-labeling을 통한 데이터셋을 구축했습니다.
-
완성된 Dataset은 2,110개 기사, 총 1,766개 문장이 긍/부정에 따라 1 또는 0으로 라벨링 되어 있습니다.
-
분류 모델은 다국어 BERT 모델에 파인튜닝하는 방식으로 만들었습니다.
-
파인 튜닝을 위해 긍부정 라벨링 한 문장 데이터 셋을 BERT에 적합한 input의 형태로 전처리 해주었습니다.
P-SAT 카페 업로드
- 필요할 경우 메일 부탁드립니다.
-
🥑데마의 모든것🥑.ipynb 파일이 최종 이슈 - 종목 매핑 코드입니다.
-
해당 코드에서는
- 전처리와 매핑 준비가 끝난 뉴스 데이터 셋과 상장 주식 뉴스공시 데이터 셋 사이의 TF-IDF 유사도를 측정합니다.
- 매핑된 종목과 관련된 뉴스기사만을 추출합니다.
- 해당 뉴스 기사를 사전 학습한 BERT 감정 분류 모델로 감정 분석하여 긍부정 기사를 분류합니다.
- 전처리와 매핑 준비가 끝난 뉴스 데이터 셋과 상장 주식 뉴스공시 데이터 셋 사이의 TF-IDF 유사도를 측정합니다.
-
데이터셋의 용량이 대용량인 이유로 업로드하지 않습니다.
-
코드 구현을 위해 필요하신 경우 이메일로 연락 부탁드립니다.
-
CPU: M1 MacBook Air
-
RAM: 16.0 GB
-
GPU: Colab basic GPU
