佬们,关于专利、论文(pdf个格式),书籍(word格式)处理成预训练数据集(分割划分为文本即可)的脚本有参考的吗
佬们,关于专利、论文(pdf个格式),书籍(word格式)处理成预训练数据集(分割划分为文本即可)的脚本有参考的吗