您好!感谢您的分享! 请问finetune_large_kespeech模型是使用什么模型训练的?是wav2vec2还是data2vec2?为什么输入是MFCC而不是原始音频文件?
您好!感谢您的分享!
请问finetune_large_kespeech模型是使用什么模型训练的?是wav2vec2还是data2vec2?为什么输入是MFCC而不是原始音频文件?