Skip to content

kespeech 数据集分布不平衡,并且有train_phase1和train_phase2两个目录,请问怎么训练的 #64

@chengjunjiecn

Description

@chengjunjiecn
  1. 数据不平衡,如图,普通话占很多,
    Image

  2. 两个目录中只有train_phase1有方言,train_phase2的目录全部是普通话

我基于pretrain_base进行微调,用的100h的文件模板,在kespeech的test上错误率是 18%,离你们的 10.9%有很大差距,

请问能介绍下怎么训练的吗,

  1. 两个目录一起加起来全部训练?还是不要train_phase2
  2. 先训练普通话,再混入其他?
  3. 还是有其他数据处理方案呢?
  4. 谢谢

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Type

    No type

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions