[index-tts]infer问题

2025-10-28 713 views
0

codes = self.gpt.inference_speech() latent = self.gpt() 第一个函数通过参考语言和文本,通过LLM得到的语言,为什么还需要调用第二个函数转成latent?

回答

0

第一步是使用模型推理,返回的是 MEL编码。 第二步是获取特征码从而通过bigvgan转换成音频。

4

确实很先进~

0

第一步是使用模型推理,返回的是 MEL编码。 第二步是获取特征码从而通过bigvgan转换成音频。

那是不是要过2次LLM来推理,推理速度会比较慢?