[index-tts]参考音频融合方法

2025-10-30 880 views 0 likes

IndexTTS 的 Perceiver 条件编码器会将输入的梅尔谱序列映射为说话人嵌入，能同时参考两个音频吗？

xuyufeng1995

回答

可以的，这个是这个方案的一大特色，不依赖Prompt音频对应的text，可以把两个不同的参考音频分别截取一段拼接在一起，或者把Perceiver 输出加在一起都行；

index-tts