IndexTTS 的 Perceiver 条件编码器会将输入的梅尔谱序列映射为说话人嵌入,能同时参考两个音频吗?
xuyufeng1995
可以的,这个是这个方案的一大特色,不依赖Prompt音频对应的text,可以把两个不同的参考音频分别截取一段拼接在一起,或者把Perceiver 输出加在一起都行;
index-tts