URLToMD

Herramienta para extraer información de sitios web y convertirla a formato Markdown. Ideal para alimentar LLMs o crear bases de conocimiento.

Instalación

pip install -r requirements.txt

El script extract_docs.py permite rastrear un sitio web y extraer su contenido.

python extract_docs.py URL [--output DIRECTORIO] [--delay SEGUNDOS]

URL (Requerido): La URL base desde donde comenzar el rastreo. El script se limitará al dominio de esta URL.
--output (Opcional): El nombre del directorio donde se guardarán los archivos Markdown generados. Por defecto es extracted_docs.
--delay (Opcional): Tiempo de espera en segundos entre peticiones para respetar al servidor. Por defecto es 1.0.

Extraer documentación de un sitio con delay de 2 segundos:

python extract_docs.py https://docs.ejemplo.com --output docs_ejemplo --delay 2

El script funciona siguiendo esta lógica:

Estructura de Clases: Utiliza DocumentationCrawler para un código más modular y mantenible.
Extracción Eficiente: Usa trafilatura para obtener el contenido principal y reutiliza la descarga para descubrir nuevos enlaces, minimizando las peticiones HTTP.
Respetuoso: Implementa un sistema de delay configurable para no saturar los servidores objetivo.