data-ingester

Repositorio para la ingestión automatizada de datasets obtenidos mediante un API hacia Azure Data Lake Storage Gen2, utilizando scripts en Python ejecutados a través de GitHub Actions. Incluyendo la automatización vía Azure Function y notebooks de Databricks para transformación.

Descripción

Este proyecto permite descargar datasets de Kaggle, procesarlos (incluyendo conversión a CSV cuando es necesario) y cargarlos automáticamente en contenedores de Azure Data Lake Storage (ADLS Gen2). La autenticación y parámetros se gestionan de manera segura mediante Azure Key Vault y Managed Identity.

Incluye:

Notebooks para ingestión, montaje de almacenamiento y análisis exploratorio en Databricks.
Script Python y Azure Function para automatizar la descarga, procesamiento y subida de archivos a ADLS.
Ejemplo de integración con Azure Data Factory.

Estructura del repositorio

FunctionApp/: Azure Function para ingestión desde Kaggle a ADLS.
kaggle-ingester/: Script Python CLI para ingestión programática.
Notebooks/: Notebooks para Databricks (incluye ejemplos de uso y configuración).
AzureDataFactory/: Pipeline de Azure Data Factory.

Instalación

Clona el repositorio:

git clone https://github.com/gquintal/data-ingester.git
cd data-ingester

Instala los requisitos en tu entorno:

pip install -r requirements.txt
# O instala manualmente: kaggle, azure-identity, azure-storage-blob, azure-keyvault-secrets, pandas, etc.

Configura las variables de entorno requeridas:
- KEY_VAULT_URI
- KAGGLE_DATASET
- DATALAKE_URI
- CONTAINER_NAME

Uso rápido

Usar Azure Function (endpoint HTTP)

Despliega la función incluida en FunctionApp/ en tu Azure Subscription.
Realiza una petición HTTP al endpoint /api/kaggleingest con las variables de entorno configuradas.
El dataset será descargado, procesado y subido al contenedor ADLS configurado.

Usar notebook en Databricks

Abre Notebooks/kaggle-ingester.ipynb en tu entorno Databricks.
Sigue las instrucciones para instalar la librería kaggle, configurar secretos y ejecutar la ingestión.
Se monta el contenedor ADLS y se procesan los datos automáticamente para análisis.

Usar script de línea de comandos

Ejecuta kaggle-ingester/kaggle-ingester.py con los argumentos necesarios para dataset, almacenamiento y Key Vault.

Ejemplo de flujo de trabajo

Se autentica contra Azure Key Vault y recupera las credenciales de Kaggle y ADLS.
Descarga y descomprime el dataset de Kaggle.
Convierte los archivos a CSV si es necesario.
Sube los archivos procesados al contenedor de Azure Data Lake Storage.
Deja un marcador de éxito (_SUCCESS.txt) tras la carga.

Diagramas

Notas

Requiere permisos para acceder a Key Vault y ADLS.
El notebook de montaje (Mount Storage.ipynb) contiene ejemplos para montar el contenedor en Databricks usando OAuth.

Contribuciones

Las contribuciones son bienvenidas. Abre un issue o pull request para sugerencias o mejoras.

Licencia

See the LICENSE file for details.

Name		Name	Last commit message	Last commit date
Latest commit History 36 Commits
.github/workflows		.github/workflows
AzureDataFactory		AzureDataFactory
FunctionApp		FunctionApp
Notebooks		Notebooks
img		img
kaggle-ingester		kaggle-ingester
.gitignore		.gitignore
README.md		README.md
flight_booking_report.pdf		flight_booking_report.pdf

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

data-ingester

Descripción

Estructura del repositorio

Instalación

Uso rápido

Usar Azure Function (endpoint HTTP)

Usar notebook en Databricks

Usar script de línea de comandos

Ejemplo de flujo de trabajo

Diagramas

Notas

Contribuciones

Licencia

About

Uh oh!

Releases

Packages

Contributors 2

Uh oh!

Languages

gquintal/data-ingester

Folders and files

Latest commit

History

Repository files navigation

data-ingester

Descripción

Estructura del repositorio

Instalación

Uso rápido

Usar Azure Function (endpoint HTTP)

Usar notebook en Databricks

Usar script de línea de comandos

Ejemplo de flujo de trabajo

Diagramas

Notas

Contribuciones

Licencia

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Contributors 2

Uh oh!

Languages

Packages