Nilaigizi.com Nutrition Data Scraper

Sistem web scraping otomatis untuk mengekstrak data nilai gizi dari nilaigizi.com.

🎯 Version 1.1 - Updated Parsing Logic

✨ Baru! Logika parsing yang lebih akurat berdasarkan struktur HTML aktual dari nilaigizi.com

📋 Fitur

Two-Phase Scraping: Crawling URLs kemudian ekstraksi data detail
Accurate HTML Parsing: Ekstraksi data dari tabel HTML menggunakan BeautifulSoup
CSV Export: Output data dalam format CSV yang mudah dianalisis
Rate Limiting: Penundaan otomatis untuk menghindari overload server
Error Handling: Penanganan error yang robust untuk koneksi dan parsing
Tested & Validated: Sudah ditest dengan data real dari website

📊 Data yang Diambil

Untuk setiap produk, scraper mengekstrak:

Nama Produk
URL Produk
Energi (kkal)
Protein (g)
Karbohidrat Total (g)
Lemak Total (g)

🛠️ Teknologi

Python 3.x
requests - HTTP client
BeautifulSoup4 - HTML parsing
pandas - Data manipulation & CSV export
re - Regular expressions untuk text extraction

📁 Struktur Proyek

nilaigizi/
├── src/
│   ├── __init__.py
│   ├── scraper.py       # Main scraping logic
│   └── config.py        # Configuration settings
├── data/                # Output CSV files
│   └── .gitkeep
├── requirements.txt     # Python dependencies
├── README.md           # Dokumentasi
└── .gitignore          # Git ignore rules

🚀 Instalasi

1. Clone atau Download Repository

cd /path/to/nilaigizi

2. Buat Virtual Environment (Opsional tapi Disarankan)

python -m venv venv

# Aktivasi virtual environment
# Linux/Mac:
source venv/bin/activate

# Windows:
venv\Scripts\activate

3. Install Dependencies

pip install -r requirements.txt

💻 Cara Penggunaan

Basic Usage

python -m src.scraper

Kustomisasi

Edit file src/config.py untuk mengubah pengaturan:

# Jumlah halaman yang akan di-scrape
TOTAL_PAGES = 5  # Ubah ke 149 untuk full scrape

# Lokasi output file
OUTPUT_FILENAME = "data/data_nilai_gizi.csv"

# Delay antara request (detik)
MIN_DELAY = 0.5
MAX_DELAY = 1.5

Penggunaan Programmatic

from src.scraper import NilaigizScraper

# Initialize scraper
scraper = NilaigizScraper(max_pages=10)

# Run full pipeline
scraper.run()

# Atau jalankan step-by-step
urls = scraper.get_product_urls()
data = scraper.scrape_product_details(urls)
scraper.save_to_csv("custom_output.csv")

📈 Optimasi Performa

Rekomendasi untuk Full Scrape (149 halaman)

Jika ingin scrape semua data:

Ubah TOTAL_PAGES di config.py menjadi 149
Pertimbangkan optimasi:
- Data gizi sudah tersedia di halaman pencarian (list view)
- Ekstrak langsung dari list view untuk menghindari 3000+ requests
- Total request: 149 (list pages) vs 149 + ~3000 (detail pages)

Estimasi Waktu

5 halaman (default): ~2-5 menit
149 halaman (crawl only): ~2-3 jam
149 halaman + detail pages: ~10-15 jam

⚠️ Catatan Penting

Legal & Ethical Considerations

✅ Gunakan untuk tujuan penelitian atau personal
✅ Respect robots.txt dari website
✅ Rate limiting sudah diimplementasikan
❌ Jangan overload server target
❌ Jangan untuk tujuan komersial tanpa izin

Error Handling

Jika menemukan error:

Connection Error: Periksa koneksi internet
HTTP 403/429: Server memblokir request, tingkatkan delay
Parsing Error: Struktur HTML website mungkin berubah
Empty Data: Verifikasi selector CSS di scraper.py

🔧 Troubleshooting

Data kosong atau tidak lengkap?

Jalankan test parser terlebih dahulu:
```
python test_parser.py
```
Ini akan memvalidasi logika parsing dengan sample HTML
Buka URL di browser dan periksa HTML structure
Update selector CSS di method scrape_product_details() jika struktur berubah
Verifikasi selector di src/scraper.py:
- Nama produk: span.h5
- Tabel gizi: tbody.f11

Request ditolak server?

Tingkatkan MIN_DELAY dan MAX_DELAY di src/config.py
Update User-Agent header di config
Gunakan proxy atau VPN

Testing Parsing Logic

Untuk memverifikasi parsing bekerja dengan benar:

# Run test dengan sample HTML
python test_parser.py

# Expected output:
# ✓ Nama Produk: Adem sari herbal lemon
# ✓ Energi: 60.0 kkal
# ✓ Protein: 0.0 g
# ✓ Karbohidrat: 16.0 g
# ✓ Lemak: 0.0 g
# 🎉 SEMUA TEST PASSED!

📝 Contoh Output

File CSV yang dihasilkan:

Nama Produk	URL	Energi	Protein	Karbohidrat	Lemak
Apel Merah	https://...	52.00	0.30	13.80	0.20
Nasi Putih	https://...	130.00	2.70	28.20	0.30

🤝 Kontribusi

Contributions are welcome! Silakan buat pull request atau buka issue untuk bug reports dan feature requests.

📄 License

This project is provided as-is for educational purposes.

🔗 Resources

Disclaimer: Proyek ini dibuat untuk tujuan edukasi. Pastikan untuk mematuhi Terms of Service dari website target.

Name		Name	Last commit message	Last commit date
Latest commit History 3 Commits
.github		.github
data		data
src		src
test		test
.gitignore		.gitignore
CHANGELOG.md		CHANGELOG.md
CODE_OF_CONDUCT.md		CODE_OF_CONDUCT.md
CONTRIBUTING.md		CONTRIBUTING.md
GITHUB_SETUP.md		GITHUB_SETUP.md
LICENSE		LICENSE
README.md		README.md
SECURITY.md		SECURITY.md
requirements.txt		requirements.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Nilaigizi.com Nutrition Data Scraper

🎯 Version 1.1 - Updated Parsing Logic

📋 Fitur

📊 Data yang Diambil

🛠️ Teknologi

📁 Struktur Proyek

🚀 Instalasi

1. Clone atau Download Repository

2. Buat Virtual Environment (Opsional tapi Disarankan)

3. Install Dependencies

💻 Cara Penggunaan

Basic Usage

Kustomisasi

Penggunaan Programmatic

📈 Optimasi Performa

Rekomendasi untuk Full Scrape (149 halaman)

Estimasi Waktu

⚠️ Catatan Penting

Legal & Ethical Considerations

Error Handling

🔧 Troubleshooting

Data kosong atau tidak lengkap?

Request ditolak server?

Testing Parsing Logic

📝 Contoh Output

🤝 Kontribusi

📄 License

🔗 Resources

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

Nilaigizi.com Nutrition Data Scraper

🎯 Version 1.1 - Updated Parsing Logic

📋 Fitur

📊 Data yang Diambil

🛠️ Teknologi

📁 Struktur Proyek

🚀 Instalasi

1. Clone atau Download Repository

2. Buat Virtual Environment (Opsional tapi Disarankan)

3. Install Dependencies

💻 Cara Penggunaan

Basic Usage

Kustomisasi

Penggunaan Programmatic

📈 Optimasi Performa

Rekomendasi untuk Full Scrape (149 halaman)

Estimasi Waktu

⚠️ Catatan Penting

Legal & Ethical Considerations

Error Handling

🔧 Troubleshooting

Data kosong atau tidak lengkap?

Request ditolak server?

Testing Parsing Logic

📝 Contoh Output

🤝 Kontribusi

📄 License

🔗 Resources

About

Topics

Resources

License

Code of conduct

Contributing

Security policy

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages