Esta la Práctica 1 de la asignatura Tipología y ciclo de vida de los datos, que se trata de realizar un caso práctico de web scraping.
Integrantes:
- P. Eduardo Paredes Brito
- Carlos Eduardo Hurtado Vega
.
├── README.md
├── requirements.txt
├── .gitignore
└── src
├── __init__.py
├── settings.py
├── scrapy.cfg
├── middleware.py
├── spiders
│ ├── __init__.py
│ └── chollopider.py
├── cholloscrapy_2023_11_13_23_28_16.csv
└── items.py
README.md: Este archivo contiene información sobre el proyecto e instrucciones sobre cómo instalarlo y ejecutarlo.requirements.txt: Este archivo enumera las dependencias de Python que deben instalarse..gitignore: Este archivo le dice a Git qué archivos o directorios debe ignorar en el proyecto.src: Este directorio contiene el código fuente del proyecto.__init__.py: Este archivo es necesario para que Python trate los directorios como paquetes.settings.py: Este archivo contiene la configuración para el proyecto Scrapy.settings.cfg: Este archivo contiene la configuración para el proyecto Scrapy.middleware: Este archivo contiene la configuración del middleware para añadir cabezar simuladas a las peticionesspiders:Este directorio contiene todos los archivos de spider.chollopider.py: Este es un archivo de spider.
items.py: Este archivo define los modelos para los elementos scrapeados.cholloscrapy_XXX_XXX.csv: Fichero de salida cada vez que se ejecuta el scraper.
Las dependencias de este proyecto se encuentran en el fichero requirements.txt
En este proyecto se ha utilizado python3.7
pip install -r requirements.txt
Los comandos para utilizar son los siguientes:
cd /source
scrapy runspider spiders/chollopider.py