Skip to content

[WAIC demo] 大规模语料数据清洗 #45

@chtlp

Description

@chtlp
  1. 百万级别的大规模语料数据清洗,支持 OpenDataLab 和库帕思语料集
  2. Text Pipeline 优化 Text Pipeline 增加 Toxicity, NSFW 检测,并且适当合并不同的 stage #41
  3. 分批次处理数据,利用 AI 数据库实现大规模 dedup 大规模数据集利用 AI 数据库实现 MinHash 去重 #44
  4. 展示如下漏斗图(参考 OpenDataLab)
Description of image

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Type

    No type

    Projects

    No projects

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions