Skip to content

NILGroup/TFM-2425-Simplificacion-Textual-Automatica

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

63 Commits
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Aplicación del conocimiento lingüístico en estrategias de prompting para simplificación textual en español

Trabajo Fin de Máster. Daniel Fernández Arenas.

Tutor: Alberto Díaz Esteban

Máster en Lingüística y Tecnologías (especialidad en Lingüística computacional), Universidad Complutense de Madrid. Curso 2024-2025

Este repositorio contiene los cuadernos de Jupyter utilizados en el desarrollo de nuestra propuesta de simplificación textual automática, junto con los textos generados y presentados en el reto CLEARS.

Estructura del repositorio

El repositorio se organiza en tres carpetas principales:

  • Subtask1: contiene los ficheros correspondientes al desarrollo de la subtarea 1.

  • Subtask2: incluye los ficheros asociados a la subtarea 2.

  • metricas_propias: recoge las métricas diseñadas y aplicadas a los textos generados en ambas subtareas.

En las siguientes secciones se ofrece una descripción más detallada del contenido de cada carpeta.

Subtask1

La carpeta Subtask1 se organiza en dos directorios principales:

  1. evaluacion
    Contiene el cuaderno evaluacion.ipynb, en el que se aplican las métricas oficiales siguiendo las bases del reto CLEARS (apartado 4.3 de la memoria).

  2. textos_competicion
    Incluye tres subdirectorios que recogen los sistemas empleados en la competición:

    • fine_tuning

      • clears-adaptation-texts/: ficheros de la competición con todos los textos.
      • fine_tuning.ipynb: cuaderno para realizar el fine-tuning del modelo.
      • prompt.md: prompt con instrucciones lingüísticas.
      • simplificacion.ipynb: cuaderno para ejecutar la simplificación con el modelo fine-tuneado y el prompt.
      • resultado/: varios ficheros CSV con los textos generados.
      • Subtask1Test.csv: conjunto de textos proporcionados en la competición que debían ser simplificados.
    • solo_prompt

      • resultados/: ficheros CSV con los textos generados.
      • arreglar_csv.ipynb: cuaderno usado para ajustar el formato de los CSV.
      • prompt.md: prompt utilizado en este sistema.
      • simplificación.ipynb: cuaderno para la simplificación textual.
      • Subtask1Test.csv: textos de la competición a simplificar.
  • original_y_generado
    • Dos ficheros CSV con los resultados de la simplificación con y sin fine-tuning, presentados junto con el texto original.

Subtask2

La carpeta Subtask2 se organiza en tres directorios principales:

  1. evaluacion
    Contiene el cuaderno evaluacion.ipynb, en el que se aplican las métricas oficiales según las bases de la competición CLEARS (apartado 4.3 de la memoria).

  2. textos_competicion
    Incluye tres subdirectorios, además de un cuaderno auxiliar:

    • fine_tuning

      • resultados/: tres ficheros CSV con los textos generados:
        • submission_10_mejores.csv
        • submission_600_textos.csv (todos los textos)
        • submission_fine_tuning_textos_limpios.csv (textos sin las instrucciones repetidas en la simplificación)
      • fine_tuning.ipynb: cuaderno para el fine-tuning del modelo.
      • prompt.md: prompt diseñado para lectura fácil.
      • simplificacion.ipynb: cuaderno para la simplificación textual.
      • Subtask2Test.csv: textos de la competición a simplificar.
      • train.csv, val.csv, test.csv: división de los textos de entrenamiento.
    • original_y_generado
      Contiene dos ficheros CSV con los textos originales y los generados, tanto con fine-tuning como sin él.

    • solo_prompt

      • resultados/: fichero CSV con los textos generados.
      • prompt.md: prompt para lectura fácil.
      • simplificacion.ipynb: cuaderno para la simplificación textual.
      • Subtask2Test.csv: textos de la competición a simplificar.
    • limpiar_texto.ipynb
      Cuaderno para eliminar mediante expresiones regulares las instrucciones introducidas en los textos por el modelo.

  3. textos_entrenamiento
    Contiene los recursos empleados para entrenar y validar el sistema (véase el apartado 4.3 de la memoria). Se organiza en tres subdirectorios:

    • fine_tuning

      • resultados/: resultados sobre los textos de entrenamiento.
      • fine_tuning.ipynb: cuaderno para el fine-tuning del modelo.
      • prompt.md: prompt diseñado para lectura fácil.
      • simplificacion.ipynb: cuaderno para la simplificación textual.
      • train.csv, val.csv, test.csv: división de los textos de entrenamiento.
    • solo_prompt

      • resultados/: un fichero CSV con los resultados obtenidos.
      • prompt.md: prompt diseñado para lectura fácil.
      • simplificacion.ipynb: cuaderno para la simplificación textual.
    • train_test_split

      • clears-adaptation-texts/: todos los textos proporcionados en la competición.
      • division.ipynb: cuaderno para dividir los textos de entrenamiento en train, test y val.
      • train.csv, val.csv, test.csv: conjuntos generados tras la división.

Métricas propias

La carpeta metricas_propias contiene varios cuadernos de Jupyter con las métricas desarrolladas y aplicadas sobre los textos de la Subtask2 (véase apartado 4.6 de la memoria):

  • test_st2_sp.ipynb: evaluación de los textos generados con solo prompt a partir de los textos de entrenamiento (apartado 4.3 de la memoria). También incluye la evaluación de los textos de referencia.
  • test_st2_ft.ipynb: evaluación equivalente a la anterior, pero aplicada a los textos generados con el modelo fine-tuneado.
  • metricas_st2_sp.ipynb: evaluación de la lecturabilidad de los textos originales y de los textos generados y presentados en la competición.
  • metricas_st2_ft2.ipynb: misma evaluación que la anterior, pero aplicada a los textos generados con el modelo fine-tuneado.

About

TFM Daniel Fernández

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors