[index-tts]参考音频融合方法

2025-10-30 206 views
9

IndexTTS 的 Perceiver 条件编码器会将输入的梅尔谱序列映射为说话人嵌入,能同时参考两个音频吗?

回答

4

可以的,这个是这个方案的一大特色,不依赖Prompt音频对应的text,可以把两个不同的参考音频分别截取一段拼接在一起,或者把Perceiver 输出加在一起都行;