Projekt w Pythonie do wyciągania, czyszczenia i przetwarzania danych z rozmaitych raportów Excel, które mają:
- scalone komórki
- pominięte wiersze
- nieuporządkowane kolumny
- ogólny bałagan w strukturze danych
Program automatyzuje:
📌 wczytywanie trudnych plików Excel
📌 czyszczenie i normalizację danych
📌 generowanie estetycznych raportów PDF
Wiele narzędzi generuje dobre raporty wizualne w Excelu, ale są one trudne do analizy programowej, np.:
- nagłówki w losowych miejscach
- scalone/połączone komórki
- brak logicznej struktury tabelarycznej
Ten skrypt to naprawia i produkuje gotowe raporty PDF, bez ręcznego czyszczenia.
- Python 3.12
- pandas — manipulacja danymi
- reportlab — generowanie PDF
- openpyxl — obsługa
.xlsx - xlrd — obsługa starych Exceli
.xls
## 📁 Struktura projektu
violations_parser/
├── raport_pdf.py
├── skrypt.py
├── requirements.txt
├── README.md
├── .gitignore
└── images/
└── example_report.png
