Aplicación del conocimiento lingüístico en estrategias de prompting para simplificación textual en español

Trabajo Fin de Máster. Daniel Fernández Arenas.

Tutor: Alberto Díaz Esteban

Máster en Lingüística y Tecnologías (especialidad en Lingüística computacional), Universidad Complutense de Madrid. Curso 2024-2025

Este repositorio contiene los cuadernos de Jupyter utilizados en el desarrollo de nuestra propuesta de simplificación textual automática, junto con los textos generados y presentados en el reto CLEARS.

Estructura del repositorio

El repositorio se organiza en tres carpetas principales:

Subtask1: contiene los ficheros correspondientes al desarrollo de la subtarea 1.
Subtask2: incluye los ficheros asociados a la subtarea 2.
metricas_propias: recoge las métricas diseñadas y aplicadas a los textos generados en ambas subtareas.

En las siguientes secciones se ofrece una descripción más detallada del contenido de cada carpeta.

Subtask1

La carpeta Subtask1 se organiza en dos directorios principales:

evaluacion
Contiene el cuaderno evaluacion.ipynb, en el que se aplican las métricas oficiales siguiendo las bases del reto CLEARS (apartado 4.3 de la memoria).
textos_competicion
Incluye tres subdirectorios que recogen los sistemas empleados en la competición:
- fine_tuning
  - clears-adaptation-texts/: ficheros de la competición con todos los textos.
  - fine_tuning.ipynb: cuaderno para realizar el fine-tuning del modelo.
  - prompt.md: prompt con instrucciones lingüísticas.
  - simplificacion.ipynb: cuaderno para ejecutar la simplificación con el modelo fine-tuneado y el prompt.
  - resultado/: varios ficheros CSV con los textos generados.
  - Subtask1Test.csv: conjunto de textos proporcionados en la competición que debían ser simplificados.
- solo_prompt
  - resultados/: ficheros CSV con los textos generados.
  - arreglar_csv.ipynb: cuaderno usado para ajustar el formato de los CSV.
  - prompt.md: prompt utilizado en este sistema.
  - simplificación.ipynb: cuaderno para la simplificación textual.
  - Subtask1Test.csv: textos de la competición a simplificar.

original_y_generado
- Dos ficheros CSV con los resultados de la simplificación con y sin fine-tuning, presentados junto con el texto original.

Subtask2

La carpeta Subtask2 se organiza en tres directorios principales:

evaluacion
Contiene el cuaderno evaluacion.ipynb, en el que se aplican las métricas oficiales según las bases de la competición CLEARS (apartado 4.3 de la memoria).
textos_competicion
Incluye tres subdirectorios, además de un cuaderno auxiliar:
- fine_tuning
  - resultados/: tres ficheros CSV con los textos generados:
    - submission_10_mejores.csv
    - submission_600_textos.csv (todos los textos)
    - submission_fine_tuning_textos_limpios.csv (textos sin las instrucciones repetidas en la simplificación)
  - fine_tuning.ipynb: cuaderno para el fine-tuning del modelo.
  - prompt.md: prompt diseñado para lectura fácil.
  - simplificacion.ipynb: cuaderno para la simplificación textual.
  - Subtask2Test.csv: textos de la competición a simplificar.
  - train.csv, val.csv, test.csv: división de los textos de entrenamiento.
- original_y_generado
  Contiene dos ficheros CSV con los textos originales y los generados, tanto con fine-tuning como sin él.
- solo_prompt
  - resultados/: fichero CSV con los textos generados.
  - prompt.md: prompt para lectura fácil.
  - simplificacion.ipynb: cuaderno para la simplificación textual.
  - Subtask2Test.csv: textos de la competición a simplificar.
- limpiar_texto.ipynb
  Cuaderno para eliminar mediante expresiones regulares las instrucciones introducidas en los textos por el modelo.
textos_entrenamiento
Contiene los recursos empleados para entrenar y validar el sistema (véase el apartado 4.3 de la memoria). Se organiza en tres subdirectorios:
- fine_tuning
  - resultados/: resultados sobre los textos de entrenamiento.
  - fine_tuning.ipynb: cuaderno para el fine-tuning del modelo.
  - prompt.md: prompt diseñado para lectura fácil.
  - simplificacion.ipynb: cuaderno para la simplificación textual.
  - train.csv, val.csv, test.csv: división de los textos de entrenamiento.
- solo_prompt
  - resultados/: un fichero CSV con los resultados obtenidos.
  - prompt.md: prompt diseñado para lectura fácil.
  - simplificacion.ipynb: cuaderno para la simplificación textual.
- train_test_split
  - clears-adaptation-texts/: todos los textos proporcionados en la competición.
  - division.ipynb: cuaderno para dividir los textos de entrenamiento en train, test y val.
  - train.csv, val.csv, test.csv: conjuntos generados tras la división.

Métricas propias

La carpeta metricas_propias contiene varios cuadernos de Jupyter con las métricas desarrolladas y aplicadas sobre los textos de la Subtask2 (véase apartado 4.6 de la memoria):

test_st2_sp.ipynb: evaluación de los textos generados con solo prompt a partir de los textos de entrenamiento (apartado 4.3 de la memoria). También incluye la evaluación de los textos de referencia.
test_st2_ft.ipynb: evaluación equivalente a la anterior, pero aplicada a los textos generados con el modelo fine-tuneado.
metricas_st2_sp.ipynb: evaluación de la lecturabilidad de los textos originales y de los textos generados y presentados en la competición.
metricas_st2_ft2.ipynb: misma evaluación que la anterior, pero aplicada a los textos generados con el modelo fine-tuneado.

Name		Name	Last commit message	Last commit date
Latest commit History 63 Commits
Subtask1		Subtask1
Subtask2		Subtask2
metricas_propias		metricas_propias
.gitignore		.gitignore
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Aplicación del conocimiento lingüístico en estrategias de prompting para simplificación textual en español

Trabajo Fin de Máster. Daniel Fernández Arenas.

Tutor: Alberto Díaz Esteban

Máster en Lingüística y Tecnologías (especialidad en Lingüística computacional), Universidad Complutense de Madrid. Curso 2024-2025

Estructura del repositorio

Subtask1

Subtask2

Métricas propias

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

Aplicación del conocimiento lingüístico en estrategias de prompting para simplificación textual en español

Trabajo Fin de Máster. Daniel Fernández Arenas.

Tutor: Alberto Díaz Esteban

Máster en Lingüística y Tecnologías (especialidad en Lingüística computacional), Universidad Complutense de Madrid. Curso 2024-2025

Estructura del repositorio

Subtask1

Subtask2

Métricas propias

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages