1. 数据不平衡,如图,普通话占很多,  2. 两个目录中只有train_phase1有方言,train_phase2的目录全部是普通话 我基于pretrain_base进行微调,用的100h的文件模板,在kespeech的test上错误率是 18%,离你们的 10.9%有很大差距, 请问能介绍下怎么训练的吗, 1. 两个目录一起加起来全部训练?还是不要train_phase2 2. 先训练普通话,再混入其他? 3. 还是有其他数据处理方案呢? 5. 谢谢
数据不平衡,如图,普通话占很多,

两个目录中只有train_phase1有方言,train_phase2的目录全部是普通话
我基于pretrain_base进行微调,用的100h的文件模板,在kespeech的test上错误率是 18%,离你们的 10.9%有很大差距,
请问能介绍下怎么训练的吗,