1. 百万级别的大规模语料数据清洗,支持 OpenDataLab 和库帕思语料集 2. Text Pipeline 优化 #41 3. 分批次处理数据,利用 AI 数据库实现大规模 dedup #44 4. 展示如下漏斗图(参考 OpenDataLab) <img src="https://github.com/user-attachments/assets/11dfc5ec-23d0-4891-affa-5637e75abe56" alt="Description of image" width="400px">