NH 투자증권 빅데이터 경진대회
- 프로젝트명: E분이의 EVEN한 ETF 추천
- 팀명: 문성원 | 서정윤 | 성지수
- 목표: 생성형 AI를 활용하여 투자자의 성향과 군중심리를 반영한 ETF 추천 시스템 개발
- 핵심 개념: 군중심리 분석, 트렌드 지수, 투자심리 지표를 활용한 맞춤형 ETF 추천
- 기술 스택: Python, OpenAI API, Scikit-learn, FastAPI, Airflow, SQL
-
군중심리와 투자 행동 분석
- 투자자들은 뉴스와 커뮤니티에서 화제가 되는 종목에 반응하여 매수하는 경향이 있음.
- 이는 시장 변동성과 거래량 증가로 이어지며, 투자자들에게 불리한 결과를 초래할 수 있음.
-
기존 ETF 추천의 한계
- 단순한 과거 성과 기반 추천이 아니라 트렌드 지수 및 투자심리지수를 반영한 새로운 방식 필요.
- 생성형 AI를 활용하여 개인화된 투자 정보를 제공.
-
서비스 목표
- 투자자들의 성향을 분석하여 트렌드에 휩쓸리지 않고 더 나은 결정을 내릴 수 있도록 지원.
- ETF 구성 종목 및 트렌드 데이터를 활용한 맞춤형 추천 시스템 개발.
| 데이터 유형 | 출처 |
|---|---|
| 주식 정보 데이터 | Yahoo Finance, Stock Scan |
| 해외 뉴스 데이터 | Naver, Reddit 크롤링 |
| ETF 관련 데이터 | ETF Holdings, 배당 내역, 점수 정보 |
| 고객 투자 정보 | NH 고객보유정보 |
-
데이터 정제
- 액면분할 및 주식병합 보정
- 결측값 대체 (섹터 분류, 시가총액)
- ETF의 GISC 산업 분류 코드 생성
-
파생 변수 생성
- 트렌드 지수: 뉴스 감성 분석 + 종목 조회수 변화율
- 투자심리지수: RSI, BSI(매수/매도 비율) 기반 정규화
- 수익률 표준편차 & 베타계수: 변동성과 시장 민감도 평가
- 금융투자법(적합성 원칙)에 따라 고객 성향을 분석하여 맞춤형 ETF 추천
- Elbow 방법을 활용한 K-means 군집화 (4개 그룹)
- 부기: 안정형 투자자 (낮은 화제성, 낮은 변동성)
- 랑이: 고위험 투자자 (낮은 화제성, 높은 변동성)
- 아웅이: 트렌드 분석형 투자자 (높은 화제성, 낮은 변동성)
- 숭이: 성장 기회 탐색형 (높은 화제성, 높은 변동성)
-
로그인 및 포트폴리오 입력
- 투자자의 기존 보유 종목 입력
- 투자 성향 분석 후 추천 과정 진행
-
ETF 추천 알고리즘
- 코사인 유사도를 활용한 유사 ETF 추천
- 트렌드 지수 + 수익률 표준편차 + 베타계수 기반 매칭
-
추가 기능
- ETF 관련 뉴스 & 커뮤니티 데이터 분석
- 투자자 성향별 맞춤형 어투 변환 (예의/자신감/활발 등)
- DB-정확도: 추천된 ETF와 기존 데이터 유사도 비교
- 답변 완성도: AI의 추천 답변 품질 검증
- 할루시네이션 방지: AI가 잘못된 정보를 생성하지 않도록 제어
-
Airflow 기반 실시간 뉴스 크롤링
- ETF 및 종목별 트렌드 분석을 실시간으로 수행
-
데이터 기반 구독 서비스
- 과거 뉴스 + 주가 추이를 비교하여 제공
- 커뮤니티 데이터와 결합하여 AI 기반 데일리 리포트 제공
-
유저 참여형 시스템
- 고객 맞춤형 캐릭터 성장 요소 추가
- 사용자 유지 및 참여율 향상
| 카테고리 | 기술 |
|---|---|
| 언어 | Python, SQL |
| 데이터 분석 | Pandas, NumPy, Scikit-learn |
| AI 모델 | OpenAI API |
| ETL & 자동화 | Airflow, BeautifulSoup, Selenium |
| 데이터베이스 | SQLite3, MS SQL DB |
- 문성원: moonjmmm@naver.com
⭐ 프로젝트가 유용하다면 리포지토리에 스타를 남겨주세요! ⭐