6
indextts1: 文本->音频token->语音, indextts2: 文本->音频token->mel谱->语音。
indextts1: 文本->音频token->语音, indextts2: 文本->音频token->mel谱->语音。
- indextts1用的acoustic token,还原起来更容易,所以我们直接从gpt latent 还原到wav 就能达到不错的效果。
- indextts2 用的semantic token,还原起来相对更难,所以我们选择flowMatching先从token+gpt latent 还原到mel(或者其它的连续特征),再从mel用声码器还原到音频。
感谢回复,我还有个疑问,所以2的token和1的token不一样吗?如何区分acoustic token还是semantic token,是根据decode的目标来决定的吗?
另外在情感和音色的conditioner上是如何确保能够达到想要的控制效果呢,论文里写的是通过GRL来区分,但是训练的时候style prompt用的是ground truth,也是包含了音色信息,请问一下这里是如何避免音色泄露问题?感谢~
- indextts1用的acoustic token,还原起来更容易,所以我们直接从gpt latent 还原到wav 就能达到不错的效果。
- indextts2 用的semantic token,还原起来相对更难,所以我们选择flowMatching先从token+gpt latent 还原到mel(或者其它的连续特征),再从mel用声码器还原到音频。
感谢回复,我还有个疑问,所以2的token和1的token不一样吗?如何区分acoustic token还是semantic token,是根据decode的目标来决定的吗?
看谷歌的audiolm这篇论文就行了,但是感觉这不是个可以深究的概念
个人认为,因为v2要加情感控制功能,情感是在semantic token (语义)下体现的,不是在acoustic token(音色)上体现的。v1结构下如果同时对情感和音色做控制,AR/GPT的能力上限不够,情感控制会比较受限,所以就引出了——最主要的原因还是cfm效果好
你好,请问你搞懂了吗?我也不太理解acoustic token和semantic token的区别,我的理解是这两者只是Encodec的codebook不同?