[index-tts]如何让推理程序支持语音克隆(VC)?

2025-10-27 329 views
8

请问一下作者,我想为模型加入语音克隆(VC)功能,程序上应该怎么改动?

回答

9

你好@sah1234567

文档中的第一个示例显示了语音克隆:

我的意思是:输入两段音频(不包含情绪参考音频),作为原始音频,另一段音频作为音频音频参考。输出结果在说话内容与风格上与原始音频保持一致,但音色则采用音色参考中音频的音色。请问有这个功能吗?或者应该如何修改代码来实现这个功能?

1

你直接把需要说的话提取文字,用参考音色直接读不就行了,那个已经很相似了。项目本身不是干那个音色变化的,改成你说的效果估计也不好。

9

你直接把需要说的话提取文字,用参考音色直接读不就行了,那个已经很相似了。项目本身不是干那个音色变化的,改成你说的效果估计也不好。

我主要是想用这个模型来实现笑声克隆功能。因为我测试下来发现,模型本身似乎并不具备发出笑声的能力,所以想看看能不能通过语音克隆来发出笑声。

1

你直接把需要说的话提取文字,用参考音色直接读不就行了,那个已经很相似了。项目本身不是干那个音色变化的,改成你说的效果估计也不好。

我主要是想用这个模型来实现笑声克隆功能。因为我测试下来发现,模型本身似乎并不具备发出笑声的能力,所以想看看能不能通过语音克隆来发出笑声。

那个估计没有,不过我感觉隔壁的cosyvoice2产生的笑声还挺真的,你如果会剪辑的话可以拼接一下