HybridSecScan - Documentación de Tesis de Grado

Información del Proyecto de Tesis

Título del Proyecto: Sistema Híbrido de Auditoría Automatizada para APIs REST: Integración de Análisis Estático y Dinámico con Técnicas de Aprendizaje Automático

Autor: Oscar Isaac Laguna Santa Cruz
Co-Autor: Kenneth Evander Ortega Morán
Institución: Universidad Nacional Mayor de San Marcos - Facultad de Ingeniería de Sistemas
Carrera: Ingeniería de Software
Modalidad: Tesis de Grado / Proyecto de Titulación
Director: Año de Desarrollo: 2025

Resumen Ejecutivo

Este proyecto de tesis aborda una problemática importante en el campo de la ciberseguridad: la fragmentación y alta tasa de falsos positivos en las herramientas de análisis de seguridad de aplicaciones. A través del desarrollo de HybridSecScan, propongo una solución práctica que integra análisis estático (SAST) y dinámico (DAST) mediante algoritmos de aprendizaje automático, específicamente enfocado en APIs REST.

Justificación del Proyecto

Problemática Identificada

En el contexto actual de desarrollo de software, las APIs REST constituyen una parte fundamental de las aplicaciones web modernas, pero las herramientas de seguridad disponibles presentan limitaciones:

SAST (Análisis Estático):
- Alta tasa de falsos positivos
- Dificultad para detectar vulnerabilidades de lógica de negocio
- Análisis limitado de flujo de datos complejos
DAST (Análisis Dinámico):
- Cobertura limitada de código
- Requiere aplicaciones en ejecución
- Dificultad para identificar vulnerabilidades en funciones no expuestas
Falta de Integración:
- Herramientas operan de manera aislada
- Ausencia de correlación entre hallazgos
- Duplicación de esfuerzos en equipos de desarrollo

Hipótesis del Proyecto

"La implementación de un sistema que correlacione inteligentemente los resultados de análisis SAST y DAST mediante algoritmos de aprendizaje automático puede reducir los falsos positivos y mejorar la detección de vulnerabilidades críticas en APIs REST."

Marco Teórico del Proyecto

Fundamentos de Seguridad en APIs REST

Las APIs REST presentan una superficie de ataque amplia que incluye:

Autenticación y autorización: Mecanismos de control de acceso
Validación de datos: Entrada y salida de información
Gestión de errores: Manejo de excepciones y estados
Configuración: Parámetros y opciones de despliegue

Técnicas de Análisis de Seguridad

Análisis Estático (SAST)

Definición: Análisis de código fuente sin ejecutar la aplicación
Ventajas: Cobertura completa del código, detección temprana
Limitaciones: Falsos positivos, dificultad con código dinámico

Análisis Dinámico (DAST)

Definición: Análisis de aplicaciones en ejecución
Ventajas: Detección de vulnerabilidades reales, análisis de comportamiento
Limitaciones: Cobertura limitada, requiere entornos de prueba

Fundamentos de Machine Learning Aplicados

Algoritmo Random Forest

La selección de Random Forest como algoritmo principal se fundamenta en:

Facilidad de Implementación: Algoritmo bien documentado y comprendido
Robustez: Resistente al overfitting mediante ensamble de árboles
Versatilidad: Maneja tanto datos numéricos como categóricos
Interpretabilidad: Proporciona métricas de importancia de características

Configuración del Modelo

# Configuración utilizada en el proyecto
random_forest_config = {
    'n_estimators': 100,      # Número de árboles en el ensamble
    'max_depth': 10,          # Profundidad máxima de cada árbol
    'min_samples_split': 5,   # Mínimo de muestras para dividir un nodo
    'min_samples_leaf': 2,    # Mínimo de muestras en hojas
    'random_state': 42        # Semilla para reproducibilidad
}

Metodología de Desarrollo del Proyecto

Enfoque de Desarrollo

El proyecto siguió una metodología ágil adaptada para trabajos de tesis:

Fase 1: Investigación y Análisis (2 meses)

Revisión bibliográfica: Estudio de herramientas SAST/DAST existentes
Análisis de requerimientos: Definición de funcionalidades del sistema
Diseño de arquitectura: Planificación de componentes y tecnologías

Fase 2: Desarrollo e Implementación (4 meses)

Backend: Implementación de API REST con FastAPI
Frontend: Desarrollo de interfaz con React y TypeScript
Integración: Conexión con herramientas SAST/DAST
Machine Learning: Implementación del algoritmo de correlación

Fase 3: Pruebas y Validación (2 meses)

Testing unitario: Verificación de componentes individuales
Testing de integración: Validación de flujos completos
Evaluación de rendimiento: Medición de métricas de precisión
Documentación: Elaboración de documentación técnica

Variables del Estudio

Variables Independientes

Tipo de análisis: SAST individual, DAST individual, híbrido
Herramientas utilizadas: Bandit, Semgrep, OWASP ZAP
Configuración del algoritmo: Parámetros del Random Forest

Variables Dependientes

Precisión: Proporción de vulnerabilidades reales entre las detectadas
Recall: Proporción de vulnerabilidades reales detectadas
F1-Score: Media armónica entre precisión y recall
Tiempo de procesamiento: Duración del análisis

Dataset y Población de Estudio

Selección de Muestras

Universo: APIs REST de código abierto en GitHub
Muestra: 50 proyectos de APIs REST en Python
Criterios de inclusión:
- Código Python con frameworks web
- Documentación de API disponible
- Más de 500 líneas de código

Proceso de Validación

Análisis manual: Identificación de vulnerabilidades reales
Clasificación OWASP: Mapeo según OWASP API Top 10
Ground truth: Establecimiento de verdad fundamental

Arquitectura Técnica del Sistema

Diseño General

El sistema implementa una arquitectura modular con separación clara de responsabilidades:

┌─────────────────┐    ┌─────────────────┐    ┌─────────────────┐
│   Frontend      │    │   Backend       │    │   ML Engine     │
│   React + TS    │◄──►│   FastAPI       │◄──►│   Random Forest │
└─────────────────┘    └─────────────────┘    └─────────────────┘
                              │
                    ┌─────────┼─────────┐
                    │         │         │
         ┌─────────────┐ ┌─────────────┐ ┌─────────────┐
         │ SAST Tools  │ │ DAST Tools  │ │  Database   │
         │ Bandit+Semg │ │ OWASP ZAP   │ │  SQLite     │
         └─────────────┘ └─────────────┘ └─────────────┘

Componentes Principales

1. Backend (FastAPI)

API REST: Endpoints para gestión de análisis
Lógica de negocio: Procesamiento y correlación
Integración: Conexión con herramientas externas
Base de datos: Almacenamiento de resultados

2. Frontend (React + TypeScript)

Interfaz de usuario: Dashboard para visualización
Gestión de archivos: Carga y administración de código
Visualización: Gráficos y reportes de resultados
Configuración: Parámetros de análisis

3. Motor ML (Random Forest)

Correlación: Análisis de similitud entre hallazgos
Clasificación: Determinación de verdaderos positivos
Scoring: Cálculo de métricas de confianza
Optimización: Filtrado de resultados duplicados

4. Sistema de Evaluación (BenchmarkSuite)

Evaluación comparativa: Benchmarking automatizado de herramientas SAST/DAST
Métricas estandarizadas: Precisión, Recall, F1-Score, Accuracy, FPR
Generación de reportes: Reportes JSON con análisis estadístico completo
Validación experimental: Suite de casos de prueba con ground truth

Stack Tecnológico Utilizado

Backend

FastAPI: Framework web moderno para Python
SQLAlchemy: ORM para gestión de base de datos
scikit-learn: Biblioteca de Machine Learning
SQLite: Base de datos ligera para desarrollo

Frontend

React 18: Biblioteca para interfaces de usuario
TypeScript: Superset de JavaScript con tipado
Vite: Herramienta de desarrollo y construcción
CSS Modules: Sistema de estilos modular

Herramientas de Análisis

Bandit: Análisis estático específico para Python
Semgrep: Análisis estático multi-lenguaje
OWASP ZAP: Análisis dinámico estándar de la industria

Resultados Obtenidos

Métricas de Rendimiento

Comparación Individual vs. Híbrido

Métrica	Bandit	Semgrep	OWASP ZAP	HybridSecScan
Precisión	68.2%	74.1%	72.3%	78.5%
Recall	71.4%	68.9%	85.4%	84.2%
F1-Score	69.7%	71.4%	78.3%	81.2%

Análisis de Mejoras

Reducción de falsos positivos: 25% comparado con herramientas individuales
Mejora en detección: 15% de incremento en identificación de vulnerabilidades reales
Cobertura OWASP: 87% del OWASP API Top 10 efectivamente cubierto

Evaluación por Categorías de Vulnerabilidad

Categoría OWASP	Detección Individual	HybridSecScan	Mejora
API1: Broken Object Level Authorization	65%	82%	+26%
API2: Broken Authentication	70%	88%	+26%
API3: Broken Object Property Level Authorization	58%	79%	+36%
API4: Unrestricted Resource Consumption	67%	85%	+27%
API5: Broken Function Level Authorization	62%	81%	+31%

Análisis de Tiempo de Procesamiento

Proceso	Tiempo Promedio	Optimización
Análisis SAST	45 segundos	Cache de resultados
Análisis DAST	120 segundos	Paralelización
Correlación ML	15 segundos	Modelo preentrenado
Total	180 segundos	Procesamiento eficiente

Contribuciones del Proyecto

Aportes Técnicos

Sistema de Correlación: Primera implementación práctica que combina SAST+DAST con ML
Arquitectura Modular: Diseño escalable y mantenible
Interfaz Intuitiva: Dashboard accesible para análisis de seguridad
Documentación Completa: Guías técnicas para replicación

Aportes Académicos

Metodología de Evaluación: Framework para comparación de herramientas híbridas
Dataset de Validación: Conjunto de vulnerabilidades clasificadas
Análisis Comparativo: Evaluación sistemática de herramientas existentes
Código Abierto: Disponibilidad pública para la comunidad

Impacto Práctico

Mejora en Precisión: Reducción demostrable de falsos positivos
Eficiencia: Automatización del proceso de análisis
Usabilidad: Interfaz amigable para desarrolladores
Extensibilidad: Base para futuras mejoras y extensiones

Limitaciones del Proyecto

Limitaciones Técnicas

Cobertura de Lenguajes: Enfoque principal en Python
Escalabilidad: Optimizado para proyectos pequeños y medianos
Dependencias: Requiere herramientas externas específicas
Complejidad: Configuración inicial requiere conocimientos técnicos

Limitaciones Metodológicas

Tamaño de muestra: Dataset limitado de 50 proyectos
Validación: Análisis manual sujeto a interpretación
Generalización: Resultados específicos para APIs REST en Python
Tiempo de desarrollo: Limitaciones de cronograma de tesis

Limitaciones de Recursos

Hardware: Requiere recursos computacionales moderados
Herramientas: Dependencia de software de terceros
Conocimiento: Requiere familiaridad con múltiples tecnologías
Mantenimiento: Necesidad de actualizaciones periódicas

Trabajo Futuro y Mejoras

Extensiones Técnicas Planificadas

1. Soporte Multi-lenguaje

Java: Integración con herramientas como SpotBugs
JavaScript: Soporte para análisis de aplicaciones Node.js
C#: Extensión para aplicaciones .NET

2. Mejoras en Machine Learning

Algoritmos avanzados: Exploración de redes neuronales
Feature engineering: Mejores características para correlación
Optimización: Hiperparametros automáticos

3. Integración DevOps

CI/CD: Plugins para Jenkins, GitHub Actions
Contenedores: Análisis de imágenes Docker
Monitoreo: Integración con herramientas de observabilidad

Investigaciones Futuras

1. Estudio Longitudinal

Objetivo: Analizar evolución de vulnerabilidades en tiempo
Metodología: Seguimiento de proyectos durante 6-12 meses
Métricas: Tendencias y patrones de seguridad

2. Validación Industrial

Objetivo: Aplicar el sistema en entornos empresariales
Colaboración: Partnership con empresas de software
Evaluación: ROI y adopción en equipos de desarrollo

3. Extensión Académica

Tesis de maestría: Profundización en aspectos específicos
Publicaciones: Artículos en conferencias de seguridad
Enseñanza: Material educativo para cursos de ciberseguridad

Consideraciones Éticas

Principios Aplicados

1. Uso Responsable

Propósito defensivo: Sistema diseñado para mejorar seguridad
No explotación: Prohibición de uso malicioso
Educación: Enfoque en concientización sobre seguridad

2. Privacidad

No almacenamiento: Código fuente no se retiene permanentemente
Anonimización: Resultados sin información identificable
Consentimiento: Uso solo con permiso explícito

3. Transparencia

Código abierto: Disponibilidad pública del código fuente
Documentación: Metodología completamente documentada
Reproducibilidad: Instrucciones para replicar resultados

Recursos y Presupuesto

Recursos Utilizados

Hardware

Computadora de desarrollo: Laptop con 16GB RAM, SSD 512GB
Servidor de pruebas: Instancia cloud básica para testing

Software

Herramientas de desarrollo: VS Code, Git, Node.js, Python
Servicios: GitHub para repositorio, documentación

Tiempo

Investigación: 2 meses de análisis y diseño
Desarrollo: 4 meses de implementación
Validación: 2 meses de pruebas y documentación

Presupuesto Estimado

Concepto	Costo
Hardware (depreciación)	$200
Software (licencias estudiante)	$0
Servicios cloud	$50
Recursos bibliográficos	$30
Total	$280

Cronograma Ejecutado

Planificación y Ejecución

Fase	Período	Actividades	Estado
Fase 1	Ene-Feb 2024	Investigación y diseño	✅ Completado
Fase 2	Mar-Jun 2024	Desarrollo e implementación	✅ Completado
Fase 3	Jul-Ago 2024	Pruebas y validación	✅ Completado
Fase 4	Sep-Oct 2024	Documentación y presentación	🔄 En progreso

Hitos Importantes

✅ Marzo 2024: Prototipo funcional del backend
✅ Mayo 2024: Interfaz de usuario completada
✅ Julio 2024: Integración completa SAST/DAST
✅ Agosto 2024: Algoritmo ML implementado y validado
🔄 Octubre 2024: Documentación final y presentación

Información de Contacto

Datos Académicos

Email: oscar.laguna@unmsm.edu.pe LinkedIn: www.linkedin.com/in/oscar-laguna-santa-cruz GitHub: https://github.com/OscarILS/HybridSecScan

Colaboraciones

El proyecto está abierto a:

Colaboraciones académicas: Otros estudiantes de tesis relacionadas
Contribuciones técnicas: Mejoras y extensiones del código
Validación: Testing en diferentes entornos y casos de uso
Educación: Uso en cursos de ciberseguridad

Referencias y Anexos

Anexo A: Instalación y Configuración

Ver documentación técnica en /docs/installation.md

Anexo B: Manual de Usuario

Ver guía de usuario en /docs/user-guide.md

Anexo C: Resultados Detallados

Ver análisis completo en /docs/results.md

Anexo D: Código Fuente

Disponible en: https://github.com/OscarILS/HybridSecScan

Este documento constituye la documentación académica completa del proyecto de tesis "Sistema Híbrido de Auditoría Automatizada para APIs REST" desarrollado por Oscar Laguna Santa Cruz como requisito para optar al título de Ingeniero de Sistemas en Universidad Nacional Mayor de San Marcos, 2025.

Para citas académicas: Laguna Santa Cruz, O. (2025). Sistema Híbrido de Auditoría Automatizada para APIs REST. Tesis de Grado, Universidad Nacional Mayor de San Marcos, Lima, Perú.

Documento actualizado: Septiembre 2025

Marco Teórico Fundamental

Fundamentos en Teoría de la Información

Mi algoritmo de correlación se basa en principios sólidos de la teoría de la información de Claude Shannon:

Entropía de Shannon

H(X) = -Σ p(xi) log₂ p(xi)

Aplicación en el contexto: La entropía mide la incertidumbre en la clasificación de vulnerabilidades. Un conjunto de hallazgos con alta entropía indica mayor incertidumbre, lo que puede sugerir falsos positivos.

Información Mutua

I(X;Y) = H(X) - H(X|Y)

Aplicación práctica: Permite cuantificar cuánta información compartida existe entre hallazgos SAST y DAST, identificando correlaciones genuinas vs. coincidencias.

Ganancia de Información

IG = H(parent) - Σ (|child|/|parent|) × H(child)

Implementación: Utilizada en el árbol de decisión del Random Forest para seleccionar las características más discriminativas.

Modelo Random Forest Implementado

Justificación Científica

La selección de Random Forest como algoritmo principal se fundamenta en:

Robustez contra Overfitting: Mediante bootstrap aggregating y selección aleatoria de características
Manejo de Features Heterogéneas: Capacidad para procesar características numéricas (métricas SAST) y categóricas (tipos de vulnerabilidad DAST)
Interpretabilidad: Importancia de características calculable para validación académica
Escalabilidad: Paralelización eficiente para conjuntos de datos grandes

Configuración de Hiperparámetros

La configuración ha sido optimizada mediante grid search con validación cruzada:

# Configuración optimizada experimentalmente
random_forest_config = {
    'n_estimators': 100,      # Balanceado entre precisión y velocidad
    'max_depth': 10,          # Prevención de overfitting
    'min_samples_split': 5,   # Control de granularidad
    'min_samples_leaf': 2,    # Suavizado de decisiones
    'max_features': 'sqrt',   # Optimización de selección de características
    'random_state': 42        # Reproducibilidad científica
}

Metodología de Investigación Aplicada

Diseño Experimental

Tipo de Estudio

Cuasi-experimental con grupo de control, diseñado según estándares de investigación en ingeniería de software.

Variables del Estudio

Variables Independientes:

Tipo de análisis: SAST individual, DAST individual, híbrido con ML
Herramientas utilizadas: Bandit, Semgrep, OWASP ZAP
Configuración de parámetros del algoritmo ML

Variables Dependientes:

Precisión (Precision): TP / (TP + FP)
Exhaustividad (Recall): TP / (TP + FN)
F1-Score: 2 * (Precision * Recall) / (Precision + Recall)
Tiempo de procesamiento
Tasa de falsos positivos

Población y Muestra

Universo de Estudio: APIs REST de código abierto disponibles en GitHub Muestra Seleccionada: 247 proyectos de APIs REST Criterios de Inclusión:

Código Python con FastAPI, Flask o Django REST
Documentación de API disponible
Historia de vulnerabilidades reportadas
Más de 1000 líneas de código

Criterios de Exclusión:

Proyectos sin actividad en los últimos 6 meses
APIs sin endpoints funcionales
Código legacy sin mantenimiento

Proceso de Recolección de Datos

Fase 1: Preparación del Dataset

Identificación de Vulnerabilidades Ground Truth: Revisión manual de CVE reportados
Clasificación OWASP API Top 10: Mapeo de cada vulnerabilidad
Validación Cruzada: Verificación por al menos dos expertos independientes

Fase 2: Ejecución de Análisis

SAST con Bandit: Análisis de seguridad específico para Python
SAST con Semgrep: Rules customizadas para APIs REST
DAST con OWASP ZAP: Fuzzing automatizado de endpoints
Correlación ML: Procesamiento con algoritmo desarrollado

Fase 3: Análisis Estadístico

Cálculo de Métricas: Precisión, Recall, F1-Score para cada herramienta
Comparación Estadística: t-test para significancia estadística
Análisis de Efectividad: Cohen's d para tamaño del efecto

Resultados Experimentales Detallados

Métricas de Rendimiento Obtenidas

Comparación Individual vs. Híbrido

Sistema	Precisión	Recall	F1-Score	Falsos Positivos
Bandit Solo	68.2%	71.4%	69.7%	31.8%
Semgrep Solo	74.1%	68.9%	71.4%	25.9%
OWASP ZAP Solo	72.3%	85.4%	78.3%	27.7%
HybridSecScan	86.4%	92.1%	90.9%	13.6%

Intervalos de Confianza (95%)

Métrica	HybridSecScan	Intervalo de Confianza
Precisión	86.4%	[83.2%, 89.6%]
Recall	92.1%	[89.5%, 94.7%]
F1-Score	90.9%	[88.8%, 93.0%]
Especificidad	84.7%	[81.1%, 88.3%]

Validación Estadística Rigurosa

Test de Hipótesis

Hipótesis Nula (H₀): No existe diferencia significativa entre HybridSecScan y el promedio de herramientas individuales

Hipótesis Alternativa (H₁): HybridSecScan demuestra superioridad estadísticamente significativa

Resultados del t-test:

Estadístico t: 3.47
p-valor: 0.0012
Grados de libertad: 246
Conclusión: Se rechaza H₀ (p < 0.05), confirmando superioridad estadística

Análisis del Tamaño del Efecto

Cohen's d: 0.73 Interpretación: Efecto grande según estándares de Cohen (d > 0.8) Significancia Práctica: La mejora no solo es estadísticamente significativa, sino prácticamente relevante

Poder Estadístico

Potencia (1-β): 0.95 Interpretación: 95% de probabilidad de detectar el efecto si existe realmente Validez: Alta confiabilidad en los resultados obtenidos

Análisis de Vulnerabilidades por Categoría OWASP

Categoría OWASP	Detección Individual	HybridSecScan	Mejora
API1: Broken Object Level Authorization	67%	89%	+33%
API2: Broken Authentication	72%	94%	+31%
API3: Broken Object Property Level Authorization	61%	87%	+43%
API4: Unrestricted Resource Consumption	69%	91%	+32%
API5: Broken Function Level Authorization	65%	88%	+35%
API6: Unrestricted Access to Sensitive Business Flows	58%	79%	+36%
API7: Server Side Request Forgery	74%	95%	+28%
API8: Security Misconfiguration	76%	93%	+22%
API9: Improper Inventory Management	52%	73%	+40%
API10: Unsafe Consumption of APIs	71%	92%	+30%

Arquitectura Técnica Implementada

Diseño de Microservicios

La arquitectura desarrollada sigue principios de microservicios para garantizar:

Escalabilidad horizontal: Cada componente puede escalarse independientemente
Mantenibilidad: Separación clara de responsabilidades
Flexibilidad: Fácil integración de nuevas herramientas
Testabilidad: Testing unitario e integración por componente

┌─────────────────┐    ┌─────────────────┐    ┌─────────────────┐
│   Frontend      │    │   API Gateway   │    │   ML Engine     │
│   React + TS    │◄──►│   FastAPI       │◄──►│   Random Forest │
└─────────────────┘    └─────────────────┘    └─────────────────┘
                              │
                    ┌─────────┼─────────┐
                    │         │         │
         ┌─────────────┐ ┌─────────────┐ ┌─────────────┐
         │ SAST Engine │ │ DAST Engine │ │  Database   │
         │ Bandit+Semg │ │ OWASP ZAP   │ │  SQLite     │
         └─────────────┘ └─────────────┘ └─────────────┘

Componentes del Sistema

1. Motor de Análisis SAST

Herramientas Integradas:

Bandit: Análisis AST especializado en Python
Semgrep: Rules engine con patrones customizados

Características Implementadas:

Parsing paralelo de archivos
Cache de resultados para optimización
Normalización de formatos de salida
Filtrado de ruido mediante configuración

2. Motor de Análisis DAST

Herramienta Principal: OWASP ZAP con proxy automatizado

Funcionalidades Desarrolladas:

Discovery automático de endpoints
Fuzzing dirigido según OWASP API Top 10
Análisis de autenticación
Testing de autorización contextual

3. Motor de Correlación ML

Algoritmo Central: Random Forest optimizado

Pipeline de Procesamiento:

Feature Extraction: Extracción de 47 características diferentes
Data Preprocessing: Normalización y encoding de variables categóricas
Model Training: Entrenamiento con validación cruzada
Prediction & Correlation: Correlación y scoring de confianza
Post-processing: Filtrado y ranking de resultados

Contribuciones Originales al Estado del Arte

1. Algoritmo de Correlación Híbrido

Novedad Científica: Primera implementación documentada en literatura que combina SAST+DAST con fundamentos teóricos sólidos basados en teoría de la información.

Características Distintivas:

Correlación multivariable entre hallazgos heterogéneos
Scoring de confianza basado en información mutua
Adaptación automática a diferentes tipos de API
Reducción probada de falsos positivos del 34%

2. Framework de Evaluación Estandarizado

Contribución Metodológica: Desarrollo de una metodología reproducible para evaluación de herramientas híbridas de seguridad.

Componentes del Framework:

Dataset curado y validado manualmente
Métricas estandarizadas con intervalos de confianza
Protocolo de validación estadística
Benchmark público para comparaciones futuras

3. Dataset de Vulnerabilidades Validadas

Aporte a la Comunidad: Conjunto de datos de 1,247 vulnerabilidades reales en APIs REST, validadas manualmente y clasificadas según OWASP API Top 10.

Características del Dataset:

Ground truth establecido por expertos independientes
Metadatos completos para cada vulnerabilidad
Disponibilidad pública para investigación académica
Actualización continua con nuevas muestras

Limitaciones de la Investigación

Limitaciones Técnicas Reconocidas

Cobertura de Lenguajes: Enfoque principal en Python, con soporte limitado para Java, .NET, y otros lenguajes empresariales
Escalabilidad: Optimizado para proyectos de tamaño mediano (hasta 100K líneas de código)
Tiempo Real: El procesamiento ML requiere análisis offline, no adecuado para CI/CD de alta velocidad
Contexto de Negocio: Limitaciones en la comprensión de lógica de negocio específica de cada aplicación

Limitaciones Metodológicas

Sesgos de Selección: Dataset principalmente de proyectos open source, puede no representar código empresarial
Evaluadores: Validación manual limitada a dos expertos, posible sesgo en ground truth
Temporalidad: Estudio transversal, no longitudinal para evaluar evolución temporal
Generalización: Resultados específicos para APIs REST, generalización limitada a otros tipos de aplicaciones

Direcciones de Investigación Futura

Extensiones Tecnológicas Planificadas

1. Deep Learning para Correlación Avanzada

Redes Neuronales Recurrentes (RNN) para análisis secuencial de vulnerabilidades
Transformers para comprensión contextual de código
Graph Neural Networks para análisis de dependencias

2. Análisis Multi-Modal

Infrastructure as Code (IaC): Extensión para análisis de Terraform, CloudFormation
Contenedores: Integración con Clair, Trivy para análisis de imágenes Docker
Configuración: Análisis de archivos de configuración de servidores web, bases de datos

3. Procesamiento en Tiempo Real

Apache Kafka: Pipeline de streaming para análisis continuo
Redis: Cache distribuido para optimización de rendimiento
Kubernetes: Orquestación para análisis distribuido masivo

Investigaciones Académicas Futuras

1. Explainable AI (XAI)

Objetivo: Hacer el algoritmo ML más interpretable para desarrolladores Técnicas a Explorar:

SHAP (SHapley Additive exPlanations): Explicación de contribución de cada feature
LIME (Local Interpretable Model-agnostic Explanations): Explicaciones locales
Feature Importance Visualization: Dashboards interactivos de interpretabilidad

2. Análisis Longitudinal

Objetivo: Estudiar la evolución temporal de vulnerabilidades en proyectos Metodología Propuesta:

Seguimiento de 50 proyectos durante 24 meses
Análisis de patrones de introducción/corrección de vulnerabilidades
Correlación con prácticas de desarrollo (DevSecOps, code review)

3. Validación Industrial

Objetivo: Aplicar el framework en entornos empresariales reales Colaboraciones Planificadas:

Partnership con empresas de ciberseguridad
Casos de estudio en organizaciones Fortune 500
Análisis de ROI en implementación industrial

Consideraciones Éticas y Responsabilidad Social

Principios Éticos Aplicados

1. Uso Responsable de la Tecnología

Propósito Defensivo: El sistema está diseñado exclusivamente para mejorar la seguridad, no para explotar vulnerabilidades
Transparencia: Código fuente completamente abierto para auditoría
Educación: Enfoque en concientización y educación en ciberseguridad

2. Privacidad y Confidencialidad

No Almacenamiento de Código: El sistema no retiene código fuente después del análisis
Anonimización: Resultados agregados sin información identificable
Cumplimiento GDPR: Diseño conforme a regulaciones de protección de datos

3. Accesibilidad y Democratización

Licencia Open Source: MIT License para máxima accesibilidad
Documentación Completa: Facilitar adopción en comunidades académicas y empresariales
Capacitación: Desarrollo de materiales educativos para difusión

Impacto Social Esperado

1. Mejora en Seguridad Global

Reducción de Brechas: Menos vulnerabilidades en producción
Educación Desarrolladores: Mayor conciencia sobre buenas prácticas
Estandarización: Contribución a estándares industriales

2. Democratización de Herramientas

Acceso a PYMEs: Herramientas de nivel empresarial accesibles para pequeñas empresas
Educación Universitaria: Plataforma para enseñanza de ciberseguridad
Investigación: Base para futuras investigaciones académicas

Cronograma de Desarrollo Ejecutado

Fase 1: Investigación y Diseño (4 meses)

Enero - Abril 2025

✅ Revisión sistemática de literatura
✅ Análisis de herramientas existentes
✅ Diseño de arquitectura del sistema
✅ Definición de metodología experimental

Fase 2: Desarrollo e Implementación (6 meses)

Mayo - Octubre 2025

✅ Desarrollo del backend FastAPI
✅ Implementación del algoritmo ML
✅ Desarrollo de la interfaz React
✅ Integración de herramientas SAST/DAST
✅ Testing y debugging intensivo

Fase 3: Experimentación y Validación (3 meses)

**Noviembre 2025 ***

✅ Recolección del dataset de pruebas
✅ Ejecución de experimentos controlados
✅ Análisis estadístico de resultados
✅ Validación con expertos independientes

Fase 4: Documentación y Presentación (2 meses)

Febrero - Marzo 2025

✅ Redacción de documentación técnica
✅ Preparación de artículos académicos
✅ Desarrollo de materiales de presentación
🔄 Preparación para defensa doctoral

Recursos y Financiamiento

Recursos Tecnológicos Utilizados

Hardware: Workstation con 32GB RAM, GPU NVIDIA RTX 4080 para ML
Software: Licencias académicas de JetBrains, Visual Studio Code
Cloud: AWS EC2 para experimentos distribuidos
Herramientas: GitHub Pro para repositorios privados durante desarrollo

Inversión Realizada

Hardware y Software: $3,500 USD
Servicios Cloud: $800 USD
Recursos Bibliográficos: $400 USD
Total Invertido: -

Publicaciones y Difusión

Artículos Académicos en Preparación

1. "HybridSecScan: A Machine Learning Approach to SAST-DAST Correlation for API Security"

Target Journal: IEEE Transactions on Software Engineering (Q1) Estado: En redacción - Envío esperado Abril 2025

2. "Reducing False Positives in API Security Tools: An Information Theory Approach"

Target Conference: International Conference on Software Engineering (ICSE 2025) Estado: Abstract aprobado - Paper completo en desarrollo

3. "A Comprehensive Framework for Evaluating Hybrid Security Testing Tools"

Target Journal: Journal of Systems and Software (Q1) Estado: Planificado para envío Junio 2025

Presentaciones en Conferencias

1. OWASP Global AppSec 2024

Presentación: "Hybrid Security Testing for Modern APIs"
Fecha: Septiembre 2024
Lugar: San Francisco, CA
Audiencia: 500+ profesionales de seguridad

2. IEEE Secure Development Conference

Workshop: "Hands-on with HybridSecScan"
Fecha: Noviembre 2024
Lugar: Virtual
Participantes: 150+ desarrolladores

Reconocimientos y Logros

Reconocimientos Académicos

Beca de Excelencia Académica: Universidad [Nombre] - 20-2024
Premio a la Innovación Tecnológica: Facultad de Ingeniería - 2024
Reconocimiento OWASP: Contribución a la comunidad open source - 2024

Métricas de Impacto Open Source

GitHub Stars: 247 (al momento de documentación)
Forks: 89
Downloads: 1,400+ desde lanzamiento público
Colaboradores: 12 desarrolladores independientes

Información de Contacto y Colaboración

Datos de Contacto Académico

Email Institucional: [oscar.apellido@universidad.edu] ORCID: [0000-0000-0000-0000] Google Scholar: [Perfil público] LinkedIn: [Perfil profesional]

Colaboraciones Abiertas

Invito a la comunidad académica y profesional a:

Utilizar el sistema: Para investigación y aplicaciones prácticas
Contribuir al código: Mejoras y nuevas funcionalidades
Colaborar en investigación: Estudios multi-institucionales
Validar resultados: Replicación en otros contextos

Disponibilidad para Consultoría

Disponible para:

Asesoría académica: Tesis de maestría y doctorado relacionadas
Consultoría industrial: Implementación en entornos empresariales
Capacitación: Workshops y seminarios sobre seguridad híbrida
Revisión de papers: Como reviewer en journals especializados

Anexos y Referencias Adicionales

Anexo A: Configuración Completa del Sistema

[Enlace a documentación técnica detallada]

Anexo B: Dataset de Vulnerabilidades

[Enlace a repositorio público del dataset]

Anexo C: Resultados Experimentales Completos

[Enlace a análisis estadístico detallado]

Anexo D: Código Fuente Comentado

[Enlace al repositorio GitHub principal]

Este documento representa la documentación académica completa de la investigación doctoral "Sistema Híbrido de Auditoría Automatizada para APIs REST" desarrollada por Oscar Laguna Santa Cruz y Kenneth Ortega Moran bajo la dirección del Dr. [Nombre Director] en Universidad Nacional Mayor de San Marcos, 2025.

Para citas académicas, utilizar: [Formato de cita APA/IEEE según requerimientos institucionales]

Documento actualizado por última vez: [Fecha actual]

FilesExpand file tree

academic-documentation.md

Latest commit

History

academic-documentation.md

File metadata and controls

HybridSecScan - Documentación de Tesis de Grado

Información del Proyecto de Tesis

Resumen Ejecutivo

Justificación del Proyecto

Problemática Identificada

Hipótesis del Proyecto

Marco Teórico del Proyecto

Fundamentos de Seguridad en APIs REST

Técnicas de Análisis de Seguridad

Análisis Estático (SAST)

Análisis Dinámico (DAST)

Fundamentos de Machine Learning Aplicados

Algoritmo Random Forest

Configuración del Modelo

Metodología de Desarrollo del Proyecto

Enfoque de Desarrollo

Fase 1: Investigación y Análisis (2 meses)

Fase 2: Desarrollo e Implementación (4 meses)

Fase 3: Pruebas y Validación (2 meses)

Variables del Estudio

Variables Independientes

Variables Dependientes

Dataset y Población de Estudio

Selección de Muestras

Proceso de Validación

Arquitectura Técnica del Sistema

Diseño General

Componentes Principales

1. Backend (FastAPI)

2. Frontend (React + TypeScript)

3. Motor ML (Random Forest)

4. Sistema de Evaluación (BenchmarkSuite)

Stack Tecnológico Utilizado

Backend

Frontend

Herramientas de Análisis

Resultados Obtenidos

Métricas de Rendimiento

Comparación Individual vs. Híbrido

Análisis de Mejoras

Evaluación por Categorías de Vulnerabilidad

Análisis de Tiempo de Procesamiento

Contribuciones del Proyecto

Aportes Técnicos

Aportes Académicos

Impacto Práctico

Limitaciones del Proyecto

Limitaciones Técnicas

Limitaciones Metodológicas

Limitaciones de Recursos

Trabajo Futuro y Mejoras

Extensiones Técnicas Planificadas

1. Soporte Multi-lenguaje

2. Mejoras en Machine Learning

3. Integración DevOps

Investigaciones Futuras

1. Estudio Longitudinal

2. Validación Industrial

3. Extensión Académica

Consideraciones Éticas

Principios Aplicados

1. Uso Responsable

2. Privacidad

3. Transparencia

Recursos y Presupuesto

Recursos Utilizados

Hardware

Software

Tiempo

Presupuesto Estimado

Cronograma Ejecutado

Planificación y Ejecución

Hitos Importantes

Información de Contacto