[index-tts]请问，为什么indextts2中舍弃了indextts1的两步合成，而是加了一层mel谱中间结果呢？

2

indextts1用的acoustic token，还原起来更容易，所以我们直接从gpt latent 还原到wav 就能达到不错的效果。
indextts2 用的semantic token，还原起来相对更难，所以我们选择flowMatching先从token+gpt latent 还原到mel（或者其它的连续特征），再从mel用声码器还原到音频。

index-tts

7

indextts1用的acoustic token，还原起来更容易，所以我们直接从gpt latent 还原到wav 就能达到不错的效果。

indextts2 用的semantic token，还原起来相对更难，所以我们选择flowMatching先从token+gpt latent 还原到mel（或者其它的连续特征），再从mel用声码器还原到音频。

感谢回复，我还有个疑问，所以2的token和1的token不一样吗？如何区分acoustic token还是semantic token，是根据decode的目标来决定的吗？

MLrookie

4

另外在情感和音色的conditioner上是如何确保能够达到想要的控制效果呢，论文里写的是通过GRL来区分，但是训练的时候style prompt用的是ground truth，也是包含了音色信息，请问一下这里是如何避免音色泄露问题？感谢~

MLrookie

0

indextts1用的acoustic token，还原起来更容易，所以我们直接从gpt latent 还原到wav 就能达到不错的效果。

indextts2 用的semantic token，还原起来相对更难，所以我们选择flowMatching先从token+gpt latent 还原到mel（或者其它的连续特征），再从mel用声码器还原到音频。

感谢回复，我还有个疑问，所以2的token和1的token不一样吗？如何区分acoustic token还是semantic token，是根据decode的目标来决定的吗？

看谷歌的audiolm这篇论文就行了，但是感觉这不是个可以深究的概念

FlynnFlag

1

个人认为，因为v2要加情感控制功能，情感是在semantic token （语义）下体现的，不是在acoustic token（音色）上体现的。v1结构下如果同时对情感和音色做控制，AR/GPT的能力上限不够，情感控制会比较受限，所以就引出了——最主要的原因还是cfm效果好

SummerXIATIAN

9

你好，请问你搞懂了吗？我也不太理解acoustic token和semantic token的区别，我的理解是这两者只是Encodec的codebook不同？

asd5152306

[index-tts]请问，为什么indextts2中舍弃了indextts1的两步合成，而是加了一层mel谱中间结果呢？

回答