Este proyecto busca entender algo muy real: por qué tener internet no siempre significa mejores resultados académicos.
A partir de datos del ICFES, conectividad y condiciones socioeconómicas, se analiza cómo diferentes factores influyen en el desempeño de estudiantes en las pruebas Saber 11, especialmente en municipios con mayor vulnerabilidad.
En Colombia hay una brecha clara entre estudiantes urbanos y rurales. Aunque se ha invertido en conectividad, los resultados académicos no siempre mejoran como se esperaría.
La pregunta central es: ¿realmente el acceso a internet está ayudando a mejorar la educación?
O hay algo más detrás (spoiler: sí hay).
Se trabaja bajo la metodología CRISP-DM, con una lógica clara:
- Entender el problema (contexto real del país)
- Entender los datos
- Explorar, limpiar y transformar
- Plantear preguntas de negocio
- (Siguiente fase) modelar y generar soluciones
Se integraron varias fuentes para tener una visión completa:
- Resultados Saber 11 (ICFES)
- Acceso a internet por municipio (MinTIC)
- Datos socioeconómicos (Sisbén / pobreza)
- Información educativa (MEN)
La idea fue no ver el problema solo desde lo académico, sino desde todo el contexto.
- Python
- PySpark (procesamiento distribuido)
- Apache Spark
- Jupyter Notebook
(Varios notebooks fueron desarrollados o probados en entornos tipo Databricks; puedes adaptar rutas y credenciales si ejecutas en local.)
Los notebooks viven en la carpeta notebooks/. Resumen de qué hace cada uno:
| Notebook | Qué hace |
|---|---|
icfes.ipynb |
Análisis exploratorio del dataset de Saber 11: estructura, variables relevantes y relaciones preliminares entre desempeño y factores socioeconómicos. (El dataset era grande; en el trabajo original se partió en dos para cumplir límites de plataforma.) |
estadisticas-municipio-eda-notebook.ipynb |
EDA de estadísticas de educación preescolar, básica y media por municipio (MEN, datos.gov.co): cobertura temporal 2011–2023, indicadores como cobertura, deserción y aprobación, con conversiones a porcentaje y visualizaciones. |
Exploración de Datos Internet-4.ipynb |
EDA del dataset de accesos a internet fijo por tecnología y segmento (MinTIC): evolución anual 2016–2023, distribución territorial por departamento y municipio, análisis por tecnología (Cable, HFC, XDSL, FTTH) y por segmento (residencial vs. corporativo). Incluye limpieza de duplicados exactos y estandarización de variables categóricas. |
Exploración de Datos Sisben-3.ipynb |
EDA del dataset de personas registradas en Sisbén: caracterización socioeconómica y demográfica, análisis de privaciones IPM (I1–I15), distribución por grupo y clasificación Sisbén, vulnerabilidad territorial por municipio y zona (cabecera vs. rural). Dataset con 4,465,955 registros sin valores nulos en variables clave. |
bono_scraper_saber11.ipynb |
Bono: consumo de la SODA API de Socrata sobre Resultados únicos Saber 11 en datos.gov.co, con PySpark y visualizaciones (alternativa más estable que parsear HTML). |
scraper_clima_colombia.ipynb |
Bono: pronóstico climático 5 días vía OpenWeatherMap API para ciudades de Colombia, procesado con PySpark y requests. Requiere API key propia. |
- Se integraron múltiples datasets en Spark
- Se exploraron los datos (estadísticas, gráficos, relaciones)
- Se revisó calidad de datos (nulos, inconsistencias, outliers)
- Se hicieron transformaciones básicas para analizarlos mejor
- Se identificaron primeras relaciones entre variables
Hallazgos iniciales:
- Sí hay relación entre internet y desempeño
- Pero la pobreza pesa mucho más de lo que parece
- La conectividad sola no explica todo
Preguntas que guían el proyecto (la siguiente fase las responde con más rigor):
- ¿Qué tanto influye tener internet en casa en los resultados de Saber 11?
- ¿Cómo cambia el rendimiento entre zonas rurales y urbanas según la conectividad?
- ¿La pobreza afecta más que el acceso a internet?
- ¿Qué diferencia hay entre municipios con alta vs baja conectividad?
- ¿Qué variables explican mejor el desempeño: lo económico o lo digital?
- ¿Cómo se relaciona la cobertura educativa con la conectividad?
- ¿Tener computador en casa realmente hace diferencia?
- ¿Existen municipios con buen internet pero malos resultados? ¿qué está pasando ahí?
- Consumo de API / datos abiertos (Saber 11 vía Socrata) y clima (OpenWeatherMap)
- Visualizaciones con matplotlib
- Uso de Zotero para referencias
Proyecto del curso Procesamiento de Datos a Gran Escala, Grupo REST pAPIs
- Juan Pablo Cañón
- Juan Camilo Carvajal
- Juan David Rincón
- Tatiana Vivas Pontificia Universidad Javeriana.