Herramienta técnica diseñada para la recuperación de imágenes originales desde archivos PDF generados a partir de sitios web (impresión a PDF). Está optimizada para extraer y filtrar imágenes basándose en dimensiones de píxeles o peso en kilobytes.
Esta herramienta está diseñada específicamente para PDFs generados por impresión web (cuando imprimes una página web a PDF). Si el PDF no contiene imágenes o son PDFs escaneados sin imágenes embebidas, esta herramienta no funcionará como se espera.
El script localiza automáticamente el primer PDF en su directorio y realiza lo siguiente:
- Organización: Crea una carpeta con el mismo nombre del archivo PDF
- Extracción: Guarda las imágenes originales extraídas directamente en esa carpeta
- Ubicación: Todo el proceso se ejecuta de forma local en la ruta del archivo
.py
Interfaz del menú interactivo para seleccionar filtros de extracción.
Ejemplo de la estructura de carpetas e imágenes recuperadas.
Se incluyen archivos por lotes (.bat) para simplificar el flujo de trabajo en Windows:
- extraer 100k.bat: Ejecución rápida con un filtro predeterminado de 100 KB
- extraer100kmenu.bat: Interfaz con menú para elegir entre diversos filtros de píxeles (100px a 300px) o peso (60KB a 200KB)
El archivo extraer100kmenu.bat utiliza PowerShell para modificar dinámicamente la variable FILTRO dentro de extract_pdf_images.py:
- Inyección de parámetros: Usa expresiones regulares (
-replace) para actualizar el código de Python en tiempo real - Flujo sin intervención: Permite cambiar la lógica de filtrado desde la consola de Windows sin necesidad de editar manualmente el script
- Python 3.x
- Dependencias:
pip install -r requirements.txt- PyMuPDF (>=1.23.0)
- Pillow (>=10.0.0)
- Clona o descarga este repositorio
- Instala las dependencias:
pip install -r requirements.txt
extraer100kmenu.batextraer 100k.batpython extract_pdf_images.py| Opción | Tipo | Valor |
|---|---|---|
| 1 | Sin filtro | Todas las imágenes |
| 2-6 | Dimensión | 100px, 150px, 200px, 250px, 300px |
| 7-10 | Peso | 60KB, 100KB, 150KB, 200KB |
Este proyecto está bajo la licencia MIT. Ver archivo LICENSE para más detalles.
- ✅ Agregado manejo de excepciones para PDFs corruptos o inválidos
- ✅ Especificadas versiones mínimas en
requirements.txt - ✅ Creado archivo
.gitignorepara excluir archivos innecesarios - ✅ Aclaración en documentación: herramienta específica para PDFs de impresión web
- ✅ Agregada tabla de filtros disponibles
- 🚀 Primera versión publicada
- Extracción de imágenes de PDFs con filtros por tamaño y peso
- Scripts batch para automatización en Windows