Aplicación del conocimiento lingüístico en estrategias de prompting para simplificación textual en español
Máster en Lingüística y Tecnologías (especialidad en Lingüística computacional), Universidad Complutense de Madrid. Curso 2024-2025
Este repositorio contiene los cuadernos de Jupyter utilizados en el desarrollo de nuestra propuesta de simplificación textual automática, junto con los textos generados y presentados en el reto CLEARS.
El repositorio se organiza en tres carpetas principales:
-
Subtask1: contiene los ficheros correspondientes al desarrollo de la subtarea 1.
-
Subtask2: incluye los ficheros asociados a la subtarea 2.
-
metricas_propias: recoge las métricas diseñadas y aplicadas a los textos generados en ambas subtareas.
En las siguientes secciones se ofrece una descripción más detallada del contenido de cada carpeta.
La carpeta Subtask1 se organiza en dos directorios principales:
-
evaluacion
Contiene el cuadernoevaluacion.ipynb, en el que se aplican las métricas oficiales siguiendo las bases del reto CLEARS (apartado 4.3 de la memoria). -
textos_competicion
Incluye tres subdirectorios que recogen los sistemas empleados en la competición:-
fine_tuning
clears-adaptation-texts/: ficheros de la competición con todos los textos.fine_tuning.ipynb: cuaderno para realizar el fine-tuning del modelo.prompt.md: prompt con instrucciones lingüísticas.simplificacion.ipynb: cuaderno para ejecutar la simplificación con el modelo fine-tuneado y el prompt.resultado/: varios ficheros CSV con los textos generados.Subtask1Test.csv: conjunto de textos proporcionados en la competición que debían ser simplificados.
-
solo_prompt
resultados/: ficheros CSV con los textos generados.arreglar_csv.ipynb: cuaderno usado para ajustar el formato de los CSV.prompt.md: prompt utilizado en este sistema.simplificación.ipynb: cuaderno para la simplificación textual.Subtask1Test.csv: textos de la competición a simplificar.
-
- original_y_generado
- Dos ficheros CSV con los resultados de la simplificación con y sin fine-tuning, presentados junto con el texto original.
La carpeta Subtask2 se organiza en tres directorios principales:
-
evaluacion
Contiene el cuadernoevaluacion.ipynb, en el que se aplican las métricas oficiales según las bases de la competición CLEARS (apartado 4.3 de la memoria). -
textos_competicion
Incluye tres subdirectorios, además de un cuaderno auxiliar:-
fine_tuning
resultados/: tres ficheros CSV con los textos generados:submission_10_mejores.csvsubmission_600_textos.csv(todos los textos)submission_fine_tuning_textos_limpios.csv(textos sin las instrucciones repetidas en la simplificación)
fine_tuning.ipynb: cuaderno para el fine-tuning del modelo.prompt.md: prompt diseñado para lectura fácil.simplificacion.ipynb: cuaderno para la simplificación textual.Subtask2Test.csv: textos de la competición a simplificar.train.csv,val.csv,test.csv: división de los textos de entrenamiento.
-
original_y_generado
Contiene dos ficheros CSV con los textos originales y los generados, tanto con fine-tuning como sin él. -
solo_prompt
resultados/: fichero CSV con los textos generados.prompt.md: prompt para lectura fácil.simplificacion.ipynb: cuaderno para la simplificación textual.Subtask2Test.csv: textos de la competición a simplificar.
-
limpiar_texto.ipynb
Cuaderno para eliminar mediante expresiones regulares las instrucciones introducidas en los textos por el modelo.
-
-
textos_entrenamiento
Contiene los recursos empleados para entrenar y validar el sistema (véase el apartado 4.3 de la memoria). Se organiza en tres subdirectorios:-
fine_tuning
resultados/: resultados sobre los textos de entrenamiento.fine_tuning.ipynb: cuaderno para el fine-tuning del modelo.prompt.md: prompt diseñado para lectura fácil.simplificacion.ipynb: cuaderno para la simplificación textual.train.csv,val.csv,test.csv: división de los textos de entrenamiento.
-
solo_prompt
resultados/: un fichero CSV con los resultados obtenidos.prompt.md: prompt diseñado para lectura fácil.simplificacion.ipynb: cuaderno para la simplificación textual.
-
train_test_split
clears-adaptation-texts/: todos los textos proporcionados en la competición.division.ipynb: cuaderno para dividir los textos de entrenamiento en train, test y val.train.csv,val.csv,test.csv: conjuntos generados tras la división.
-
La carpeta metricas_propias contiene varios cuadernos de Jupyter con las métricas desarrolladas y aplicadas sobre los textos de la Subtask2 (véase apartado 4.6 de la memoria):
- test_st2_sp.ipynb: evaluación de los textos generados con solo prompt a partir de los textos de entrenamiento (apartado 4.3 de la memoria). También incluye la evaluación de los textos de referencia.
- test_st2_ft.ipynb: evaluación equivalente a la anterior, pero aplicada a los textos generados con el modelo fine-tuneado.
- metricas_st2_sp.ipynb: evaluación de la lecturabilidad de los textos originales y de los textos generados y presentados en la competición.
- metricas_st2_ft2.ipynb: misma evaluación que la anterior, pero aplicada a los textos generados con el modelo fine-tuneado.