[index-tts]会吞词，这个BUG啥时候能修复？

比如这一句：感谢屾哥来到直播间,我们是一个做植物染发膏的直播间,现在购物车福利品还有库存,可以去看看.

合成之后就只有：感谢屾哥来到直播间。后面的内容全没了。 text_tokens shape: torch.Size([1, 86]), text_tokens type: torch.int32 ['▁', '感', '▁', '谢', '▁', '屾', '▁', '哥', '▁', '来', '▁', '到', '▁', '直', '▁', '播', '▁', '间', '▁,', '▁', '我', '▁', '们', '▁', '是', '▁', '一', '▁', '个', '▁', '做', '▁', '植', '▁', '物', '▁', '染', '▁', '发', '▁', '膏', '▁', '的', '▁', '直', '▁', '播', '▁', '间', '▁,', '▁', '现', '▁', '在', '▁', '购', '▁', '物', '▁', '车', '▁', '福', '▁', '利', '▁', '品', '▁', '还', '▁', '有', '▁', '库', '▁', '存', '▁,', '▁', '可', '▁', '以', '▁', '去', '▁', '看', '▁', '看', '▁.']

这是拆词的代码，为什么合成的时候后面很多文字都丢失呢？

有大佬知道怎么调整吗？

wangzibiao

正常来说不会出现这种情况，能提供下prompt 音频么，看看能否复现。

index-tts

正常来说不会出现这种情况，能提供下prompt 音频么，看看能否复现。

我也遇到了，就用的是样例文本：

大家好，我现在正在bilibili 体验 ai 科技，说实话，来之前我绝对想不到！AI技术已经发展到这样匪夷所思的地步了！比如说，现在正在说话的其实是B站为我现场复刻的数字分身，简直就是平行宇宙的另一个我了。如果大家也想体验更多深入的AIGC功能，可以访问 bilibili studio，相信我，你们也会吃惊的。

输出的语音中，“AI技术已经发展到这样匪夷所思的地步了”没有了，并且是被一大片空白取代的（长达十几秒）。

这种情况是随机出现（比如上一次是好的，下一次就不行了）。

此外，刚刚提到的“一大片空白”这种情况出现频率很高，比如说文本是“A，B”，生成出来的语音就是A+一大片空白+B。

LinCong321

正常来说不会出现这种情况，能提供下prompt 音频么，看看能否复现。

我现在发现是再3080Ti下没问题，但是1660S的显卡下就很容易有大片空白，其他软硬件环境一致

itltf512116

正常来说不会出现这种情况，能提供下prompt 音频么，看看能否复现。

找到原因了，是音色的问题，只有一个音色会出现吞词，其他音色测试了几天都是正常的。

wangzibiao

正常来说不会出现这种情况，能提供下prompt 音频么，看看能否复现。

找到原因了，是音色的问题，只有一个音色会出现吞词，其他音色测试了几天都是正常的。

我这里现在用同一个音色，换不同的机器上也会有问题

itltf512116

正常来说不会出现这种情况，能提供下prompt 音频么，看看能否复现。

找到原因了，是音色的问题，只有一个音色会出现吞词，其他音色测试了几天都是正常的。

感觉确实和输入的音频有关，有的音频就没事，有的就疯狂空白。

LinCong321

这大片空白，真要命呀，感觉不只和输入音频有关系，同样的音频，不同的显卡好像也有问题，不同的文本也有区别

itltf512116

遇到过类似吞词现象，只能换seed值多roll几次碰运气 😺

import transformers
seed = 42
transformers.set_seed(seed)

...
tts.infer(
          audio_prompt=audio_path,
          text=text,
          verbose=False,
          output_path=output_path,
      )
...

yrom

顶一波，我也遇到了，好多音频输出是空白的，是不是eos token预测有问题

fclearner

在v2版本上，使用text = '直播延迟设置三三三三秒'时，最后一个“秒”会读成s；使用text = '参会人员实时统计四四四四'时，会遗漏最后一个四。这个bug能修复吗？

common_voice_zh-CN_32621330.mp3

JohnLoveMm

[index-tts]会吞词，这个BUG啥时候能修复？

回答