Skip to content

CosyVoice2模型无法复现CosyVoice3论文中的结果 #4

@zhangyike

Description

@zhangyike

在zero shot和cross lingual zero shot测试集上,
原始论文(https://arxiv.org/pdf/2505.17589, Table5, Table6, Table8)WER结果

zh | 4.08
en | 6.32
hard_zh | 12.58
hard_en | 11.96
en2zh | 13.5
zh2en | 6.47

使用CV2开源模型在CV3-EVAL上的WER测试结果
zh | 4.51
en | 9.36
hard_zh | 10.99
hard_en | 11.81
en2zh | 11.71
zh2en | 10.64

其中en和zh2en集合结果明显变差,hard_zh和en2zh集合结果明显变好。

请问是论文中的测试方法和EV3 EVAL的测试方法有差异吗?使用CV2模型合成音频的时候是否对prompt audio做了其他处理?

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Type

    No type
    No fields configured for issues without a type.

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions