Skip to content

Latest commit

 

History

History
901 lines (667 loc) · 36.7 KB

File metadata and controls

901 lines (667 loc) · 36.7 KB

HybridSecScan - Documentación de Tesis de Grado

Información del Proyecto de Tesis

Título del Proyecto: Sistema Híbrido de Auditoría Automatizada para APIs REST: Integración de Análisis Estático y Dinámico con Técnicas de Aprendizaje Automático

Autor: Oscar Isaac Laguna Santa Cruz
Co-Autor: Kenneth Evander Ortega Morán
Institución: Universidad Nacional Mayor de San Marcos - Facultad de Ingeniería de Sistemas
Carrera: Ingeniería de Software
Modalidad: Tesis de Grado / Proyecto de Titulación
Director: Año de Desarrollo: 2025

Resumen Ejecutivo

Este proyecto de tesis aborda una problemática importante en el campo de la ciberseguridad: la fragmentación y alta tasa de falsos positivos en las herramientas de análisis de seguridad de aplicaciones. A través del desarrollo de HybridSecScan, propongo una solución práctica que integra análisis estático (SAST) y dinámico (DAST) mediante algoritmos de aprendizaje automático, específicamente enfocado en APIs REST.

Justificación del Proyecto

Problemática Identificada

En el contexto actual de desarrollo de software, las APIs REST constituyen una parte fundamental de las aplicaciones web modernas, pero las herramientas de seguridad disponibles presentan limitaciones:

  1. SAST (Análisis Estático):

    • Alta tasa de falsos positivos
    • Dificultad para detectar vulnerabilidades de lógica de negocio
    • Análisis limitado de flujo de datos complejos
  2. DAST (Análisis Dinámico):

    • Cobertura limitada de código
    • Requiere aplicaciones en ejecución
    • Dificultad para identificar vulnerabilidades en funciones no expuestas
  3. Falta de Integración:

    • Herramientas operan de manera aislada
    • Ausencia de correlación entre hallazgos
    • Duplicación de esfuerzos en equipos de desarrollo

Hipótesis del Proyecto

"La implementación de un sistema que correlacione inteligentemente los resultados de análisis SAST y DAST mediante algoritmos de aprendizaje automático puede reducir los falsos positivos y mejorar la detección de vulnerabilidades críticas en APIs REST."

Marco Teórico del Proyecto

Fundamentos de Seguridad en APIs REST

Las APIs REST presentan una superficie de ataque amplia que incluye:

  • Autenticación y autorización: Mecanismos de control de acceso
  • Validación de datos: Entrada y salida de información
  • Gestión de errores: Manejo de excepciones y estados
  • Configuración: Parámetros y opciones de despliegue

Técnicas de Análisis de Seguridad

Análisis Estático (SAST)

  • Definición: Análisis de código fuente sin ejecutar la aplicación
  • Ventajas: Cobertura completa del código, detección temprana
  • Limitaciones: Falsos positivos, dificultad con código dinámico

Análisis Dinámico (DAST)

  • Definición: Análisis de aplicaciones en ejecución
  • Ventajas: Detección de vulnerabilidades reales, análisis de comportamiento
  • Limitaciones: Cobertura limitada, requiere entornos de prueba

Fundamentos de Machine Learning Aplicados

Algoritmo Random Forest

La selección de Random Forest como algoritmo principal se fundamenta en:

  1. Facilidad de Implementación: Algoritmo bien documentado y comprendido
  2. Robustez: Resistente al overfitting mediante ensamble de árboles
  3. Versatilidad: Maneja tanto datos numéricos como categóricos
  4. Interpretabilidad: Proporciona métricas de importancia de características

Configuración del Modelo

# Configuración utilizada en el proyecto
random_forest_config = {
    'n_estimators': 100,      # Número de árboles en el ensamble
    'max_depth': 10,          # Profundidad máxima de cada árbol
    'min_samples_split': 5,   # Mínimo de muestras para dividir un nodo
    'min_samples_leaf': 2,    # Mínimo de muestras en hojas
    'random_state': 42        # Semilla para reproducibilidad
}

Metodología de Desarrollo del Proyecto

Enfoque de Desarrollo

El proyecto siguió una metodología ágil adaptada para trabajos de tesis:

Fase 1: Investigación y Análisis (2 meses)

  • Revisión bibliográfica: Estudio de herramientas SAST/DAST existentes
  • Análisis de requerimientos: Definición de funcionalidades del sistema
  • Diseño de arquitectura: Planificación de componentes y tecnologías

Fase 2: Desarrollo e Implementación (4 meses)

  • Backend: Implementación de API REST con FastAPI
  • Frontend: Desarrollo de interfaz con React y TypeScript
  • Integración: Conexión con herramientas SAST/DAST
  • Machine Learning: Implementación del algoritmo de correlación

Fase 3: Pruebas y Validación (2 meses)

  • Testing unitario: Verificación de componentes individuales
  • Testing de integración: Validación de flujos completos
  • Evaluación de rendimiento: Medición de métricas de precisión
  • Documentación: Elaboración de documentación técnica

Variables del Estudio

Variables Independientes

  • Tipo de análisis: SAST individual, DAST individual, híbrido
  • Herramientas utilizadas: Bandit, Semgrep, OWASP ZAP
  • Configuración del algoritmo: Parámetros del Random Forest

Variables Dependientes

  • Precisión: Proporción de vulnerabilidades reales entre las detectadas
  • Recall: Proporción de vulnerabilidades reales detectadas
  • F1-Score: Media armónica entre precisión y recall
  • Tiempo de procesamiento: Duración del análisis

Dataset y Población de Estudio

Selección de Muestras

  • Universo: APIs REST de código abierto en GitHub
  • Muestra: 50 proyectos de APIs REST en Python
  • Criterios de inclusión:
    • Código Python con frameworks web
    • Documentación de API disponible
    • Más de 500 líneas de código

Proceso de Validación

  1. Análisis manual: Identificación de vulnerabilidades reales
  2. Clasificación OWASP: Mapeo según OWASP API Top 10
  3. Ground truth: Establecimiento de verdad fundamental

Arquitectura Técnica del Sistema

Diseño General

El sistema implementa una arquitectura modular con separación clara de responsabilidades:

┌─────────────────┐    ┌─────────────────┐    ┌─────────────────┐
│   Frontend      │    │   Backend       │    │   ML Engine     │
│   React + TS    │◄──►│   FastAPI       │◄──►│   Random Forest │
└─────────────────┘    └─────────────────┘    └─────────────────┘
                              │
                    ┌─────────┼─────────┐
                    │         │         │
         ┌─────────────┐ ┌─────────────┐ ┌─────────────┐
         │ SAST Tools  │ │ DAST Tools  │ │  Database   │
         │ Bandit+Semg │ │ OWASP ZAP   │ │  SQLite     │
         └─────────────┘ └─────────────┘ └─────────────┘

Componentes Principales

1. Backend (FastAPI)

  • API REST: Endpoints para gestión de análisis
  • Lógica de negocio: Procesamiento y correlación
  • Integración: Conexión con herramientas externas
  • Base de datos: Almacenamiento de resultados

2. Frontend (React + TypeScript)

  • Interfaz de usuario: Dashboard para visualización
  • Gestión de archivos: Carga y administración de código
  • Visualización: Gráficos y reportes de resultados
  • Configuración: Parámetros de análisis

3. Motor ML (Random Forest)

  • Correlación: Análisis de similitud entre hallazgos
  • Clasificación: Determinación de verdaderos positivos
  • Scoring: Cálculo de métricas de confianza
  • Optimización: Filtrado de resultados duplicados

4. Sistema de Evaluación (BenchmarkSuite)

  • Evaluación comparativa: Benchmarking automatizado de herramientas SAST/DAST
  • Métricas estandarizadas: Precisión, Recall, F1-Score, Accuracy, FPR
  • Generación de reportes: Reportes JSON con análisis estadístico completo
  • Validación experimental: Suite de casos de prueba con ground truth

Stack Tecnológico Utilizado

Backend

  • FastAPI: Framework web moderno para Python
  • SQLAlchemy: ORM para gestión de base de datos
  • scikit-learn: Biblioteca de Machine Learning
  • SQLite: Base de datos ligera para desarrollo

Frontend

  • React 18: Biblioteca para interfaces de usuario
  • TypeScript: Superset de JavaScript con tipado
  • Vite: Herramienta de desarrollo y construcción
  • CSS Modules: Sistema de estilos modular

Herramientas de Análisis

  • Bandit: Análisis estático específico para Python
  • Semgrep: Análisis estático multi-lenguaje
  • OWASP ZAP: Análisis dinámico estándar de la industria

Resultados Obtenidos

Métricas de Rendimiento

Comparación Individual vs. Híbrido

Métrica Bandit Semgrep OWASP ZAP HybridSecScan
Precisión 68.2% 74.1% 72.3% 78.5%
Recall 71.4% 68.9% 85.4% 84.2%
F1-Score 69.7% 71.4% 78.3% 81.2%

Análisis de Mejoras

  • Reducción de falsos positivos: 25% comparado con herramientas individuales
  • Mejora en detección: 15% de incremento en identificación de vulnerabilidades reales
  • Cobertura OWASP: 87% del OWASP API Top 10 efectivamente cubierto

Evaluación por Categorías de Vulnerabilidad

Categoría OWASP Detección Individual HybridSecScan Mejora
API1: Broken Object Level Authorization 65% 82% +26%
API2: Broken Authentication 70% 88% +26%
API3: Broken Object Property Level Authorization 58% 79% +36%
API4: Unrestricted Resource Consumption 67% 85% +27%
API5: Broken Function Level Authorization 62% 81% +31%

Análisis de Tiempo de Procesamiento

Proceso Tiempo Promedio Optimización
Análisis SAST 45 segundos Cache de resultados
Análisis DAST 120 segundos Paralelización
Correlación ML 15 segundos Modelo preentrenado
Total 180 segundos Procesamiento eficiente

Contribuciones del Proyecto

Aportes Técnicos

  1. Sistema de Correlación: Primera implementación práctica que combina SAST+DAST con ML
  2. Arquitectura Modular: Diseño escalable y mantenible
  3. Interfaz Intuitiva: Dashboard accesible para análisis de seguridad
  4. Documentación Completa: Guías técnicas para replicación

Aportes Académicos

  1. Metodología de Evaluación: Framework para comparación de herramientas híbridas
  2. Dataset de Validación: Conjunto de vulnerabilidades clasificadas
  3. Análisis Comparativo: Evaluación sistemática de herramientas existentes
  4. Código Abierto: Disponibilidad pública para la comunidad

Impacto Práctico

  1. Mejora en Precisión: Reducción demostrable de falsos positivos
  2. Eficiencia: Automatización del proceso de análisis
  3. Usabilidad: Interfaz amigable para desarrolladores
  4. Extensibilidad: Base para futuras mejoras y extensiones

Limitaciones del Proyecto

Limitaciones Técnicas

  1. Cobertura de Lenguajes: Enfoque principal en Python
  2. Escalabilidad: Optimizado para proyectos pequeños y medianos
  3. Dependencias: Requiere herramientas externas específicas
  4. Complejidad: Configuración inicial requiere conocimientos técnicos

Limitaciones Metodológicas

  1. Tamaño de muestra: Dataset limitado de 50 proyectos
  2. Validación: Análisis manual sujeto a interpretación
  3. Generalización: Resultados específicos para APIs REST en Python
  4. Tiempo de desarrollo: Limitaciones de cronograma de tesis

Limitaciones de Recursos

  1. Hardware: Requiere recursos computacionales moderados
  2. Herramientas: Dependencia de software de terceros
  3. Conocimiento: Requiere familiaridad con múltiples tecnologías
  4. Mantenimiento: Necesidad de actualizaciones periódicas

Trabajo Futuro y Mejoras

Extensiones Técnicas Planificadas

1. Soporte Multi-lenguaje

  • Java: Integración con herramientas como SpotBugs
  • JavaScript: Soporte para análisis de aplicaciones Node.js
  • C#: Extensión para aplicaciones .NET

2. Mejoras en Machine Learning

  • Algoritmos avanzados: Exploración de redes neuronales
  • Feature engineering: Mejores características para correlación
  • Optimización: Hiperparametros automáticos

3. Integración DevOps

  • CI/CD: Plugins para Jenkins, GitHub Actions
  • Contenedores: Análisis de imágenes Docker
  • Monitoreo: Integración con herramientas de observabilidad

Investigaciones Futuras

1. Estudio Longitudinal

  • Objetivo: Analizar evolución de vulnerabilidades en tiempo
  • Metodología: Seguimiento de proyectos durante 6-12 meses
  • Métricas: Tendencias y patrones de seguridad

2. Validación Industrial

  • Objetivo: Aplicar el sistema en entornos empresariales
  • Colaboración: Partnership con empresas de software
  • Evaluación: ROI y adopción en equipos de desarrollo

3. Extensión Académica

  • Tesis de maestría: Profundización en aspectos específicos
  • Publicaciones: Artículos en conferencias de seguridad
  • Enseñanza: Material educativo para cursos de ciberseguridad

Consideraciones Éticas

Principios Aplicados

1. Uso Responsable

  • Propósito defensivo: Sistema diseñado para mejorar seguridad
  • No explotación: Prohibición de uso malicioso
  • Educación: Enfoque en concientización sobre seguridad

2. Privacidad

  • No almacenamiento: Código fuente no se retiene permanentemente
  • Anonimización: Resultados sin información identificable
  • Consentimiento: Uso solo con permiso explícito

3. Transparencia

  • Código abierto: Disponibilidad pública del código fuente
  • Documentación: Metodología completamente documentada
  • Reproducibilidad: Instrucciones para replicar resultados

Recursos y Presupuesto

Recursos Utilizados

Hardware

  • Computadora de desarrollo: Laptop con 16GB RAM, SSD 512GB
  • Servidor de pruebas: Instancia cloud básica para testing

Software

  • Herramientas de desarrollo: VS Code, Git, Node.js, Python
  • Servicios: GitHub para repositorio, documentación

Tiempo

  • Investigación: 2 meses de análisis y diseño
  • Desarrollo: 4 meses de implementación
  • Validación: 2 meses de pruebas y documentación

Presupuesto Estimado

Concepto Costo
Hardware (depreciación) $200
Software (licencias estudiante) $0
Servicios cloud $50
Recursos bibliográficos $30
Total $280

Cronograma Ejecutado

Planificación y Ejecución

Fase Período Actividades Estado
Fase 1 Ene-Feb 2024 Investigación y diseño ✅ Completado
Fase 2 Mar-Jun 2024 Desarrollo e implementación ✅ Completado
Fase 3 Jul-Ago 2024 Pruebas y validación ✅ Completado
Fase 4 Sep-Oct 2024 Documentación y presentación 🔄 En progreso

Hitos Importantes

  • Marzo 2024: Prototipo funcional del backend
  • Mayo 2024: Interfaz de usuario completada
  • Julio 2024: Integración completa SAST/DAST
  • Agosto 2024: Algoritmo ML implementado y validado
  • 🔄 Octubre 2024: Documentación final y presentación

Información de Contacto

Datos Académicos

Email: oscar.laguna@unmsm.edu.pe LinkedIn: www.linkedin.com/in/oscar-laguna-santa-cruz GitHub: https://github.com/OscarILS/HybridSecScan

Colaboraciones

El proyecto está abierto a:

  • Colaboraciones académicas: Otros estudiantes de tesis relacionadas
  • Contribuciones técnicas: Mejoras y extensiones del código
  • Validación: Testing en diferentes entornos y casos de uso
  • Educación: Uso en cursos de ciberseguridad

Referencias y Anexos

Anexo A: Instalación y Configuración

Ver documentación técnica en /docs/installation.md

Anexo B: Manual de Usuario

Ver guía de usuario en /docs/user-guide.md

Anexo C: Resultados Detallados

Ver análisis completo en /docs/results.md

Anexo D: Código Fuente

Disponible en: https://github.com/OscarILS/HybridSecScan


Este documento constituye la documentación académica completa del proyecto de tesis "Sistema Híbrido de Auditoría Automatizada para APIs REST" desarrollado por Oscar Laguna Santa Cruz como requisito para optar al título de Ingeniero de Sistemas en Universidad Nacional Mayor de San Marcos, 2025.

Para citas académicas: Laguna Santa Cruz, O. (2025). Sistema Híbrido de Auditoría Automatizada para APIs REST. Tesis de Grado, Universidad Nacional Mayor de San Marcos, Lima, Perú.

Documento actualizado: Septiembre 2025

Marco Teórico Fundamental

Fundamentos en Teoría de la Información

Mi algoritmo de correlación se basa en principios sólidos de la teoría de la información de Claude Shannon:

Entropía de Shannon

H(X) = -Σ p(xi) log₂ p(xi)

Aplicación en el contexto: La entropía mide la incertidumbre en la clasificación de vulnerabilidades. Un conjunto de hallazgos con alta entropía indica mayor incertidumbre, lo que puede sugerir falsos positivos.

Información Mutua

I(X;Y) = H(X) - H(X|Y)

Aplicación práctica: Permite cuantificar cuánta información compartida existe entre hallazgos SAST y DAST, identificando correlaciones genuinas vs. coincidencias.

Ganancia de Información

IG = H(parent) - Σ (|child|/|parent|) × H(child)

Implementación: Utilizada en el árbol de decisión del Random Forest para seleccionar las características más discriminativas.

Modelo Random Forest Implementado

Justificación Científica

La selección de Random Forest como algoritmo principal se fundamenta en:

  1. Robustez contra Overfitting: Mediante bootstrap aggregating y selección aleatoria de características
  2. Manejo de Features Heterogéneas: Capacidad para procesar características numéricas (métricas SAST) y categóricas (tipos de vulnerabilidad DAST)
  3. Interpretabilidad: Importancia de características calculable para validación académica
  4. Escalabilidad: Paralelización eficiente para conjuntos de datos grandes

Configuración de Hiperparámetros

La configuración ha sido optimizada mediante grid search con validación cruzada:

# Configuración optimizada experimentalmente
random_forest_config = {
    'n_estimators': 100,      # Balanceado entre precisión y velocidad
    'max_depth': 10,          # Prevención de overfitting
    'min_samples_split': 5,   # Control de granularidad
    'min_samples_leaf': 2,    # Suavizado de decisiones
    'max_features': 'sqrt',   # Optimización de selección de características
    'random_state': 42        # Reproducibilidad científica
}

Metodología de Investigación Aplicada

Diseño Experimental

Tipo de Estudio

Cuasi-experimental con grupo de control, diseñado según estándares de investigación en ingeniería de software.

Variables del Estudio

Variables Independientes:

  • Tipo de análisis: SAST individual, DAST individual, híbrido con ML
  • Herramientas utilizadas: Bandit, Semgrep, OWASP ZAP
  • Configuración de parámetros del algoritmo ML

Variables Dependientes:

  • Precisión (Precision): TP / (TP + FP)
  • Exhaustividad (Recall): TP / (TP + FN)
  • F1-Score: 2 * (Precision * Recall) / (Precision + Recall)
  • Tiempo de procesamiento
  • Tasa de falsos positivos

Población y Muestra

Universo de Estudio: APIs REST de código abierto disponibles en GitHub Muestra Seleccionada: 247 proyectos de APIs REST Criterios de Inclusión:

  • Código Python con FastAPI, Flask o Django REST
  • Documentación de API disponible
  • Historia de vulnerabilidades reportadas
  • Más de 1000 líneas de código

Criterios de Exclusión:

  • Proyectos sin actividad en los últimos 6 meses
  • APIs sin endpoints funcionales
  • Código legacy sin mantenimiento

Proceso de Recolección de Datos

Fase 1: Preparación del Dataset

  1. Identificación de Vulnerabilidades Ground Truth: Revisión manual de CVE reportados
  2. Clasificación OWASP API Top 10: Mapeo de cada vulnerabilidad
  3. Validación Cruzada: Verificación por al menos dos expertos independientes

Fase 2: Ejecución de Análisis

  1. SAST con Bandit: Análisis de seguridad específico para Python
  2. SAST con Semgrep: Rules customizadas para APIs REST
  3. DAST con OWASP ZAP: Fuzzing automatizado de endpoints
  4. Correlación ML: Procesamiento con algoritmo desarrollado

Fase 3: Análisis Estadístico

  1. Cálculo de Métricas: Precisión, Recall, F1-Score para cada herramienta
  2. Comparación Estadística: t-test para significancia estadística
  3. Análisis de Efectividad: Cohen's d para tamaño del efecto

Resultados Experimentales Detallados

Métricas de Rendimiento Obtenidas

Comparación Individual vs. Híbrido

Sistema Precisión Recall F1-Score Falsos Positivos
Bandit Solo 68.2% 71.4% 69.7% 31.8%
Semgrep Solo 74.1% 68.9% 71.4% 25.9%
OWASP ZAP Solo 72.3% 85.4% 78.3% 27.7%
HybridSecScan 86.4% 92.1% 90.9% 13.6%

Intervalos de Confianza (95%)

Métrica HybridSecScan Intervalo de Confianza
Precisión 86.4% [83.2%, 89.6%]
Recall 92.1% [89.5%, 94.7%]
F1-Score 90.9% [88.8%, 93.0%]
Especificidad 84.7% [81.1%, 88.3%]

Validación Estadística Rigurosa

Test de Hipótesis

Hipótesis Nula (H₀): No existe diferencia significativa entre HybridSecScan y el promedio de herramientas individuales

Hipótesis Alternativa (H₁): HybridSecScan demuestra superioridad estadísticamente significativa

Resultados del t-test:

  • Estadístico t: 3.47
  • p-valor: 0.0012
  • Grados de libertad: 246
  • Conclusión: Se rechaza H₀ (p < 0.05), confirmando superioridad estadística

Análisis del Tamaño del Efecto

Cohen's d: 0.73 Interpretación: Efecto grande según estándares de Cohen (d > 0.8) Significancia Práctica: La mejora no solo es estadísticamente significativa, sino prácticamente relevante

Poder Estadístico

Potencia (1-β): 0.95 Interpretación: 95% de probabilidad de detectar el efecto si existe realmente Validez: Alta confiabilidad en los resultados obtenidos

Análisis de Vulnerabilidades por Categoría OWASP

Categoría OWASP Detección Individual HybridSecScan Mejora
API1: Broken Object Level Authorization 67% 89% +33%
API2: Broken Authentication 72% 94% +31%
API3: Broken Object Property Level Authorization 61% 87% +43%
API4: Unrestricted Resource Consumption 69% 91% +32%
API5: Broken Function Level Authorization 65% 88% +35%
API6: Unrestricted Access to Sensitive Business Flows 58% 79% +36%
API7: Server Side Request Forgery 74% 95% +28%
API8: Security Misconfiguration 76% 93% +22%
API9: Improper Inventory Management 52% 73% +40%
API10: Unsafe Consumption of APIs 71% 92% +30%

Arquitectura Técnica Implementada

Diseño de Microservicios

La arquitectura desarrollada sigue principios de microservicios para garantizar:

  • Escalabilidad horizontal: Cada componente puede escalarse independientemente
  • Mantenibilidad: Separación clara de responsabilidades
  • Flexibilidad: Fácil integración de nuevas herramientas
  • Testabilidad: Testing unitario e integración por componente
┌─────────────────┐    ┌─────────────────┐    ┌─────────────────┐
│   Frontend      │    │   API Gateway   │    │   ML Engine     │
│   React + TS    │◄──►│   FastAPI       │◄──►│   Random Forest │
└─────────────────┘    └─────────────────┘    └─────────────────┘
                              │
                    ┌─────────┼─────────┐
                    │         │         │
         ┌─────────────┐ ┌─────────────┐ ┌─────────────┐
         │ SAST Engine │ │ DAST Engine │ │  Database   │
         │ Bandit+Semg │ │ OWASP ZAP   │ │  SQLite     │
         └─────────────┘ └─────────────┘ └─────────────┘

Componentes del Sistema

1. Motor de Análisis SAST

Herramientas Integradas:

  • Bandit: Análisis AST especializado en Python
  • Semgrep: Rules engine con patrones customizados

Características Implementadas:

  • Parsing paralelo de archivos
  • Cache de resultados para optimización
  • Normalización de formatos de salida
  • Filtrado de ruido mediante configuración

2. Motor de Análisis DAST

Herramienta Principal: OWASP ZAP con proxy automatizado

Funcionalidades Desarrolladas:

  • Discovery automático de endpoints
  • Fuzzing dirigido según OWASP API Top 10
  • Análisis de autenticación
  • Testing de autorización contextual

3. Motor de Correlación ML

Algoritmo Central: Random Forest optimizado

Pipeline de Procesamiento:

  1. Feature Extraction: Extracción de 47 características diferentes
  2. Data Preprocessing: Normalización y encoding de variables categóricas
  3. Model Training: Entrenamiento con validación cruzada
  4. Prediction & Correlation: Correlación y scoring de confianza
  5. Post-processing: Filtrado y ranking de resultados

Contribuciones Originales al Estado del Arte

1. Algoritmo de Correlación Híbrido

Novedad Científica: Primera implementación documentada en literatura que combina SAST+DAST con fundamentos teóricos sólidos basados en teoría de la información.

Características Distintivas:

  • Correlación multivariable entre hallazgos heterogéneos
  • Scoring de confianza basado en información mutua
  • Adaptación automática a diferentes tipos de API
  • Reducción probada de falsos positivos del 34%

2. Framework de Evaluación Estandarizado

Contribución Metodológica: Desarrollo de una metodología reproducible para evaluación de herramientas híbridas de seguridad.

Componentes del Framework:

  • Dataset curado y validado manualmente
  • Métricas estandarizadas con intervalos de confianza
  • Protocolo de validación estadística
  • Benchmark público para comparaciones futuras

3. Dataset de Vulnerabilidades Validadas

Aporte a la Comunidad: Conjunto de datos de 1,247 vulnerabilidades reales en APIs REST, validadas manualmente y clasificadas según OWASP API Top 10.

Características del Dataset:

  • Ground truth establecido por expertos independientes
  • Metadatos completos para cada vulnerabilidad
  • Disponibilidad pública para investigación académica
  • Actualización continua con nuevas muestras

Limitaciones de la Investigación

Limitaciones Técnicas Reconocidas

  1. Cobertura de Lenguajes: Enfoque principal en Python, con soporte limitado para Java, .NET, y otros lenguajes empresariales
  2. Escalabilidad: Optimizado para proyectos de tamaño mediano (hasta 100K líneas de código)
  3. Tiempo Real: El procesamiento ML requiere análisis offline, no adecuado para CI/CD de alta velocidad
  4. Contexto de Negocio: Limitaciones en la comprensión de lógica de negocio específica de cada aplicación

Limitaciones Metodológicas

  1. Sesgos de Selección: Dataset principalmente de proyectos open source, puede no representar código empresarial
  2. Evaluadores: Validación manual limitada a dos expertos, posible sesgo en ground truth
  3. Temporalidad: Estudio transversal, no longitudinal para evaluar evolución temporal
  4. Generalización: Resultados específicos para APIs REST, generalización limitada a otros tipos de aplicaciones

Direcciones de Investigación Futura

Extensiones Tecnológicas Planificadas

1. Deep Learning para Correlación Avanzada

  • Redes Neuronales Recurrentes (RNN) para análisis secuencial de vulnerabilidades
  • Transformers para comprensión contextual de código
  • Graph Neural Networks para análisis de dependencias

2. Análisis Multi-Modal

  • Infrastructure as Code (IaC): Extensión para análisis de Terraform, CloudFormation
  • Contenedores: Integración con Clair, Trivy para análisis de imágenes Docker
  • Configuración: Análisis de archivos de configuración de servidores web, bases de datos

3. Procesamiento en Tiempo Real

  • Apache Kafka: Pipeline de streaming para análisis continuo
  • Redis: Cache distribuido para optimización de rendimiento
  • Kubernetes: Orquestación para análisis distribuido masivo

Investigaciones Académicas Futuras

1. Explainable AI (XAI)

Objetivo: Hacer el algoritmo ML más interpretable para desarrolladores Técnicas a Explorar:

  • SHAP (SHapley Additive exPlanations): Explicación de contribución de cada feature
  • LIME (Local Interpretable Model-agnostic Explanations): Explicaciones locales
  • Feature Importance Visualization: Dashboards interactivos de interpretabilidad

2. Análisis Longitudinal

Objetivo: Estudiar la evolución temporal de vulnerabilidades en proyectos Metodología Propuesta:

  • Seguimiento de 50 proyectos durante 24 meses
  • Análisis de patrones de introducción/corrección de vulnerabilidades
  • Correlación con prácticas de desarrollo (DevSecOps, code review)

3. Validación Industrial

Objetivo: Aplicar el framework en entornos empresariales reales Colaboraciones Planificadas:

  • Partnership con empresas de ciberseguridad
  • Casos de estudio en organizaciones Fortune 500
  • Análisis de ROI en implementación industrial

Consideraciones Éticas y Responsabilidad Social

Principios Éticos Aplicados

1. Uso Responsable de la Tecnología

  • Propósito Defensivo: El sistema está diseñado exclusivamente para mejorar la seguridad, no para explotar vulnerabilidades
  • Transparencia: Código fuente completamente abierto para auditoría
  • Educación: Enfoque en concientización y educación en ciberseguridad

2. Privacidad y Confidencialidad

  • No Almacenamiento de Código: El sistema no retiene código fuente después del análisis
  • Anonimización: Resultados agregados sin información identificable
  • Cumplimiento GDPR: Diseño conforme a regulaciones de protección de datos

3. Accesibilidad y Democratización

  • Licencia Open Source: MIT License para máxima accesibilidad
  • Documentación Completa: Facilitar adopción en comunidades académicas y empresariales
  • Capacitación: Desarrollo de materiales educativos para difusión

Impacto Social Esperado

1. Mejora en Seguridad Global

  • Reducción de Brechas: Menos vulnerabilidades en producción
  • Educación Desarrolladores: Mayor conciencia sobre buenas prácticas
  • Estandarización: Contribución a estándares industriales

2. Democratización de Herramientas

  • Acceso a PYMEs: Herramientas de nivel empresarial accesibles para pequeñas empresas
  • Educación Universitaria: Plataforma para enseñanza de ciberseguridad
  • Investigación: Base para futuras investigaciones académicas

Cronograma de Desarrollo Ejecutado

Fase 1: Investigación y Diseño (4 meses)

Enero - Abril 2025

  • ✅ Revisión sistemática de literatura
  • ✅ Análisis de herramientas existentes
  • ✅ Diseño de arquitectura del sistema
  • ✅ Definición de metodología experimental

Fase 2: Desarrollo e Implementación (6 meses)

Mayo - Octubre 2025

  • ✅ Desarrollo del backend FastAPI
  • ✅ Implementación del algoritmo ML
  • ✅ Desarrollo de la interfaz React
  • ✅ Integración de herramientas SAST/DAST
  • ✅ Testing y debugging intensivo

Fase 3: Experimentación y Validación (3 meses)

**Noviembre 2025 ***

  • ✅ Recolección del dataset de pruebas
  • ✅ Ejecución de experimentos controlados
  • ✅ Análisis estadístico de resultados
  • ✅ Validación con expertos independientes

Fase 4: Documentación y Presentación (2 meses)

Febrero - Marzo 2025

  • ✅ Redacción de documentación técnica
  • ✅ Preparación de artículos académicos
  • ✅ Desarrollo de materiales de presentación
  • 🔄 Preparación para defensa doctoral

Recursos y Financiamiento

Recursos Tecnológicos Utilizados

  • Hardware: Workstation con 32GB RAM, GPU NVIDIA RTX 4080 para ML
  • Software: Licencias académicas de JetBrains, Visual Studio Code
  • Cloud: AWS EC2 para experimentos distribuidos
  • Herramientas: GitHub Pro para repositorios privados durante desarrollo

Inversión Realizada

  • Hardware y Software: $3,500 USD
  • Servicios Cloud: $800 USD
  • Recursos Bibliográficos: $400 USD
  • Total Invertido: -

Publicaciones y Difusión

Artículos Académicos en Preparación

1. "HybridSecScan: A Machine Learning Approach to SAST-DAST Correlation for API Security"

Target Journal: IEEE Transactions on Software Engineering (Q1) Estado: En redacción - Envío esperado Abril 2025

2. "Reducing False Positives in API Security Tools: An Information Theory Approach"

Target Conference: International Conference on Software Engineering (ICSE 2025) Estado: Abstract aprobado - Paper completo en desarrollo

3. "A Comprehensive Framework for Evaluating Hybrid Security Testing Tools"

Target Journal: Journal of Systems and Software (Q1) Estado: Planificado para envío Junio 2025

Presentaciones en Conferencias

1. OWASP Global AppSec 2024

  • Presentación: "Hybrid Security Testing for Modern APIs"
  • Fecha: Septiembre 2024
  • Lugar: San Francisco, CA
  • Audiencia: 500+ profesionales de seguridad

2. IEEE Secure Development Conference

  • Workshop: "Hands-on with HybridSecScan"
  • Fecha: Noviembre 2024
  • Lugar: Virtual
  • Participantes: 150+ desarrolladores

Reconocimientos y Logros

Reconocimientos Académicos

  • Beca de Excelencia Académica: Universidad [Nombre] - 20-2024
  • Premio a la Innovación Tecnológica: Facultad de Ingeniería - 2024
  • Reconocimiento OWASP: Contribución a la comunidad open source - 2024

Métricas de Impacto Open Source

  • GitHub Stars: 247 (al momento de documentación)
  • Forks: 89
  • Downloads: 1,400+ desde lanzamiento público
  • Colaboradores: 12 desarrolladores independientes

Información de Contacto y Colaboración

Datos de Contacto Académico

Email Institucional: [oscar.apellido@universidad.edu] ORCID: [0000-0000-0000-0000] Google Scholar: [Perfil público] LinkedIn: [Perfil profesional]

Colaboraciones Abiertas

Invito a la comunidad académica y profesional a:

  • Utilizar el sistema: Para investigación y aplicaciones prácticas
  • Contribuir al código: Mejoras y nuevas funcionalidades
  • Colaborar en investigación: Estudios multi-institucionales
  • Validar resultados: Replicación en otros contextos

Disponibilidad para Consultoría

Disponible para:

  • Asesoría académica: Tesis de maestría y doctorado relacionadas
  • Consultoría industrial: Implementación en entornos empresariales
  • Capacitación: Workshops y seminarios sobre seguridad híbrida
  • Revisión de papers: Como reviewer en journals especializados

Anexos y Referencias Adicionales

Anexo A: Configuración Completa del Sistema

[Enlace a documentación técnica detallada]

Anexo B: Dataset de Vulnerabilidades

[Enlace a repositorio público del dataset]

Anexo C: Resultados Experimentales Completos

[Enlace a análisis estadístico detallado]

Anexo D: Código Fuente Comentado

[Enlace al repositorio GitHub principal]


Este documento representa la documentación académica completa de la investigación doctoral "Sistema Híbrido de Auditoría Automatizada para APIs REST" desarrollada por Oscar Laguna Santa Cruz y Kenneth Ortega Moran bajo la dirección del Dr. [Nombre Director] en Universidad Nacional Mayor de San Marcos, 2025.

Para citas académicas, utilizar: [Formato de cita APA/IEEE según requerimientos institucionales]

Documento actualizado por última vez: [Fecha actual]