https://github.com/bclavie/RAGatouille/blob/main/ragatouille/data/preprocessors.py
https://github.com/bclavie/RAGatouille/blob/main/ragatouille/data/preprocessors.py