NI-HCM - Analýza článků z dezinformačních webů ve volebním období

Tento repozitář obsahuje kód, data a prezentaci z mé semestrální práce z předmětu NI-HCM na ČVUT FIT.

TL;DR semestrální práce:

Stáhnout články z vybraných webů (z volebního období pro volby do PS ČR 2025)
Analyzovat jejich obsah (AI/LLM) - na co mají články pozitiní názor a na co naopak negativní
Udělat statistiku

Kód

Celý kód je ve složce src/ + ve skriptu main.py. Kód (main.py) spustí scrapery, které extrahují články z vybraných webů (a z vybraného časového úseku), pomocí Google AI ananalyzuje narativy ze stažených článků, pročistí získaná data a zapíše do souboru. S finálními daty je pak pracováno uvnitř graphs.ipynb.

Jedna z užitečných funkcí kódu je cachování - vzhledem k množství dat je cachování prakticky nutnost. Kód téměř všechny výsledky (data ze scraperů a z LLM analýz) ukládá průběžně na disk a při dotazu na stejný objekt vrátí již v minulosti získané výsledky.

Pro použití kódu v budoucnu / na jiné učely bude nejspíše potřeba:

Přidat scraper:
- Vytvořit novou podtřídu Scraper (viz existující scrapery ve složce src/scrapers)
- Případně přidat scraper do funkce get_all_scrapers() v src/scrapers/__init__.py
Upravit prompt:
- Upravit proměnnou SYSTEM_PROMPT a třídu SingleArticleAnalysisOutput v src/analyzer.py
- V závislosti na velikosti úprav bude možná potřeba mírně upravit i ostatní funkce v souboru
- Pozor na vhodnost promptu - osobně jsem tuto část pokazil a je dobré LLMku mnohem přesněji říct, co má být výstupem (např. jazyk výstupu)
Nastavit API_KEY v src/analyzer.py
- Google má free-tier verze, viz https://aistudio.google.com/api-keys
Vylepšit/Upravit slučování klíčů, viz src/key_normalization.py

Data

Data získaná v rámci semestrální práce jsou poskytunuta v archivu data.zip. Archiv obsahuje jak "cache" (tzn. data extrahováná přes scrapery (~125MB) a nezpracované výsledky analýz), tak i výsledná profiltrovaná a zpracovaná data (processed.json (<1MB)).

Prezentace

Zdrojový kód prezentace je ve složce presentation/. Prezentaci možno zobrazit online zde.

Name		Name	Last commit message	Last commit date
Latest commit History 1 Commit
presentation		presentation
src		src
.gitattributes		.gitattributes
.gitignore		.gitignore
README.md		README.md
data.zip		data.zip
graphs.ipynb		graphs.ipynb
main.py		main.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

NI-HCM - Analýza článků z dezinformačních webů ve volebním období

Kód

Data

Prezentace

About

Uh oh!

Languages

Hackrrr/NI-HCM

Folders and files

Latest commit

History

Repository files navigation

NI-HCM - Analýza článků z dezinformačních webů ve volebním období

Kód

Data

Prezentace

About

Resources

Uh oh!

Stars

Watchers

Forks

Languages