Skip to content

Latest commit

 

History

History
44 lines (28 loc) · 1.43 KB

File metadata and controls

44 lines (28 loc) · 1.43 KB

URLToMD

Herramienta para extraer información de sitios web y convertirla a formato Markdown. Ideal para alimentar LLMs o crear bases de conocimiento.

Instalación

  1. Clona este repositorio.
  2. Instala las dependencias:
pip install -r requirements.txt

Uso

El script extract_docs.py permite rastrear un sitio web y extraer su contenido.

Sintaxis

python extract_docs.py URL [--output DIRECTORIO] [--delay SEGUNDOS]

Argumentos

  • URL (Requerido): La URL base desde donde comenzar el rastreo. El script se limitará al dominio de esta URL.
  • --output (Opcional): El nombre del directorio donde se guardarán los archivos Markdown generados. Por defecto es extracted_docs.
  • --delay (Opcional): Tiempo de espera en segundos entre peticiones para respetar al servidor. Por defecto es 1.0.

Ejemplos

Extraer documentación de un sitio con delay de 2 segundos:

python extract_docs.py https://docs.ejemplo.com --output docs_ejemplo --delay 2

Funcionamiento

El script funciona siguiendo esta lógica:

  • Estructura de Clases: Utiliza DocumentationCrawler para un código más modular y mantenible.
  • Extracción Eficiente: Usa trafilatura para obtener el contenido principal y reutiliza la descarga para descubrir nuevos enlaces, minimizando las peticiones HTTP.
  • Respetuoso: Implementa un sistema de delay configurable para no saturar los servidores objetivo.