[index-tts]会吞词,这个BUG啥时候能修复?

2025-10-28 12 views
1

比如这一句:感谢屾哥来到直播间,我们是一个做植物染发膏的直播间,现在购物车福利品还有库存,可以去看看.

合成之后就只有:感谢屾哥来到直播间。 后面的内容全没了。 text_tokens shape: torch.Size([1, 86]), text_tokens type: torch.int32 ['▁', '感', '▁', '谢', '▁', '屾', '▁', '哥', '▁', '来', '▁', '到', '▁', '直', '▁', '播', '▁', '间', '▁,', '▁', '我', '▁', '们', '▁', '是', '▁', '一', '▁', '个', '▁', '做', '▁', '植', '▁', '物', '▁', '染', '▁', '发', '▁', '膏', '▁', '的', '▁', '直', '▁', '播', '▁', '间', '▁,', '▁', '现', '▁', '在', '▁', '购', '▁', '物', '▁', '车', '▁', '福', '▁', '利', '▁', '品', '▁', '还', '▁', '有', '▁', '库', '▁', '存', '▁,', '▁', '可', '▁', '以', '▁', '去', '▁', '看', '▁', '看', '▁.']

这是拆词的代码,为什么合成的时候后面很多文字都丢失呢?

有大佬知道怎么调整吗?

回答

3

正常来说不会出现这种情况,能提供下prompt 音频么,看看能否复现。

3

正常来说不会出现这种情况,能提供下prompt 音频么,看看能否复现。

我也遇到了,就用的是样例文本:

大家好,我现在正在bilibili 体验 ai 科技,说实话,来之前我绝对想不到!AI技术已经发展到这样匪夷所思的地步了!比如说,现在正在说话的其实是B站为我现场复刻的数字分身,简直就是平行宇宙的另一个我了。如果大家也想体验更多深入的AIGC功能,可以访问 bilibili studio,相信我,你们也会吃惊的。

输出的语音中,“AI技术已经发展到这样匪夷所思的地步了”没有了,并且是被一大片空白取代的(长达十几秒)。

这种情况是随机出现(比如上一次是好的,下一次就不行了)。

此外,刚刚提到的“一大片空白”这种情况出现频率很高,比如说文本是“A,B”,生成出来的语音就是A+一大片空白+B。

2

正常来说不会出现这种情况,能提供下prompt 音频么,看看能否复现。

我现在发现是再3080Ti下没问题,但是1660S的显卡下就很容易有大片空白,其他软硬件环境一致

2

正常来说不会出现这种情况,能提供下prompt 音频么,看看能否复现。

找到原因了,是音色的问题,只有一个音色会出现吞词,其他音色测试了几天都是正常的。

4

正常来说不会出现这种情况,能提供下prompt 音频么,看看能否复现。

找到原因了,是音色的问题,只有一个音色会出现吞词,其他音色测试了几天都是正常的。

我这里现在用同一个音色,换不同的机器上也会有问题

5

正常来说不会出现这种情况,能提供下prompt 音频么,看看能否复现。

找到原因了,是音色的问题,只有一个音色会出现吞词,其他音色测试了几天都是正常的。

感觉确实和输入的音频有关,有的音频就没事,有的就疯狂空白。

2

这大片空白,真要命呀,感觉不只和输入音频有关系,同样的音频,不同的显卡好像也有问题,不同的文本也有区别

4

遇到过类似吞词现象,只能换seed值多roll几次碰运气 😺

import transformers
seed = 42
transformers.set_seed(seed)

...
tts.infer(
          audio_prompt=audio_path,
          text=text,
          verbose=False,
          output_path=output_path,
      )
...
3

顶一波,我也遇到了,好多音频输出是空白的,是不是eos token预测有问题

6

在v2版本上,使用text = '直播延迟设置三三三三秒'时,最后一个“秒”会读成s;使用text = '参会人员实时统计四四四四'时,会遗漏最后一个四。这个bug能修复吗?

common_voice_zh-CN_32621330.mp3