CholloScrapy

Descripción

Esta la Práctica 1 de la asignatura Tipología y ciclo de vida de los datos, que se trata de realizar un caso práctico de web scraping.

Integrantes:

P. Eduardo Paredes Brito
Carlos Eduardo Hurtado Vega

Estructura

.
├── README.md
├── requirements.txt
├── .gitignore
└── src
    ├── __init__.py
    ├── settings.py
    ├── scrapy.cfg
    ├── middleware.py
    ├── spiders
    │   ├── __init__.py
    │   └── chollopider.py
    ├── cholloscrapy_2023_11_13_23_28_16.csv
    └── items.py

README.md: Este archivo contiene información sobre el proyecto e instrucciones sobre cómo instalarlo y ejecutarlo.
requirements.txt: Este archivo enumera las dependencias de Python que deben instalarse.
.gitignore: Este archivo le dice a Git qué archivos o directorios debe ignorar en el proyecto.
src: Este directorio contiene el código fuente del proyecto.
- __init__.py: Este archivo es necesario para que Python trate los directorios como paquetes.
- settings.py: Este archivo contiene la configuración para el proyecto Scrapy.
- settings.cfg: Este archivo contiene la configuración para el proyecto Scrapy.
- middleware: Este archivo contiene la configuración del middleware para añadir cabezar simuladas a las peticiones
- spiders: Este directorio contiene todos los archivos de spider.
  - chollopider.py: Este es un archivo de spider.
- items.py: Este archivo define los modelos para los elementos scrapeados.
- cholloscrapy_XXX_XXX.csv: Fichero de salida cada vez que se ejecuta el scraper.

Instalación

Las dependencias de este proyecto se encuentran en el fichero requirements.txt En este proyecto se ha utilizado python3.7

pip install -r requirements.txt

Uso

Los comandos para utilizar son los siguientes:

cd /source
scrapy runspider spiders/chollopider.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

CholloScrapy

Descripción

Estructura

Instalación

Uso

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Name		Name	Last commit message	Last commit date
Latest commit History 7 Commits
dataset		dataset
source		source
.gitignore		.gitignore
README.md		README.md
requirements.txt		requirements.txt

Folders and files

Latest commit

History

Repository files navigation

CholloScrapy

Descripción

Estructura

Instalación

Uso

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages