Skip to content
/ NI-HCM Public

Analýza článků z dezinformačních webů ve volebním období - semestrální práce z předmětu NI-HCM na ČVUT FIT

Notifications You must be signed in to change notification settings

Hackrrr/NI-HCM

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

1 Commit
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

NI-HCM - Analýza článků z dezinformačních webů ve volebním období

Tento repozitář obsahuje kód, data a prezentaci z mé semestrální práce z předmětu NI-HCM na ČVUT FIT.

TL;DR semestrální práce:

  1. Stáhnout články z vybraných webů (z volebního období pro volby do PS ČR 2025)
  2. Analyzovat jejich obsah (AI/LLM) - na co mají články pozitiní názor a na co naopak negativní
  3. Udělat statistiku

Kód

Celý kód je ve složce src/ + ve skriptu main.py. Kód (main.py) spustí scrapery, které extrahují články z vybraných webů (a z vybraného časového úseku), pomocí Google AI ananalyzuje narativy ze stažených článků, pročistí získaná data a zapíše do souboru. S finálními daty je pak pracováno uvnitř graphs.ipynb.

Jedna z užitečných funkcí kódu je cachování - vzhledem k množství dat je cachování prakticky nutnost. Kód téměř všechny výsledky (data ze scraperů a z LLM analýz) ukládá průběžně na disk a při dotazu na stejný objekt vrátí již v minulosti získané výsledky.

Pro použití kódu v budoucnu / na jiné učely bude nejspíše potřeba:

  • Přidat scraper:
  • Upravit prompt:
    • Upravit proměnnou SYSTEM_PROMPT a třídu SingleArticleAnalysisOutput v src/analyzer.py
    • V závislosti na velikosti úprav bude možná potřeba mírně upravit i ostatní funkce v souboru
    • Pozor na vhodnost promptu - osobně jsem tuto část pokazil a je dobré LLMku mnohem přesněji říct, co má být výstupem (např. jazyk výstupu)
  • Nastavit API_KEY v src/analyzer.py
  • Vylepšit/Upravit slučování klíčů, viz src/key_normalization.py

Data

Data získaná v rámci semestrální práce jsou poskytunuta v archivu data.zip. Archiv obsahuje jak "cache" (tzn. data extrahováná přes scrapery (~125MB) a nezpracované výsledky analýz), tak i výsledná profiltrovaná a zpracovaná data (processed.json (<1MB)).

Prezentace

Zdrojový kód prezentace je ve složce presentation/. Prezentaci možno zobrazit online zde.

About

Analýza článků z dezinformačních webů ve volebním období - semestrální práce z předmětu NI-HCM na ČVUT FIT

Resources

Stars

Watchers

Forks