[WAIC demo] 大规模语料数据清洗

1. 百万级别的大规模语料数据清洗，支持 OpenDataLab 和库帕思语料集
2. Text Pipeline 优化 #41 
3. 分批次处理数据，利用 AI 数据库实现大规模 dedup #44
4. 展示如下漏斗图（参考 OpenDataLab）

<img src="https://github.com/user-attachments/assets/11dfc5ec-23d0-4891-affa-5637e75abe56" alt="Description of image" width="400px">