[index-tts]批次推理:修复(漏句/丢句/音频空白)

2025-11-11 266 views
3

【问题描述】当输入某些长分句时,存在(漏句/丢句/音频空白)等异常情况。复现过程如下:

【复现过程1】使用(中文)文本进行测试,首句丢失: ”亲爱的伙伴们,大家好!“。

亲爱的伙伴们,大家好!每一次的努力都是为了更好的未来,要善于从失败中汲取经验,让我们一起勇敢前行,迈向更加美好的明天!

【复现过程2】使用(英文)文本进行测试,句尾丢失: ”Thank you!“。

The weather is really nice today, perfect for studying at home.Thank you!

【问题修复】经过对 gpt.inference_speech 结果反复检查,发现其 tokens 在某些情况下异常终止。我对此进行了修复,确保其不会中断。 经过修复,以上(中/英)"问题"文本均可完整推理输出。

【结果验证】更新此 PR 代码后,用相同文本进行推理,输出音频完整,再无漏丢句发生。

亲爱的伙伴们,大家好!每一次的努力都是为了更好的未来,要善于从失败中汲取经验,让我们一起勇敢前行,迈向更加美好的明天!
The weather is really nice today, perfect for studying at home.Thank you!

【超长多句文本验证】批次推理,无漏丢句发生。

叶远随口答应一声,一定帮忙云云。
教授看叶远的样子也知道,这事情多半是黄了。
谁得到这样的东西也不会轻易贡献出来,这是很大的一笔财富。
叶远回来后,又自己做了几次试验,发现空间湖水对一些外伤也有很大的帮助。
找来一只断了腿的兔子,喝下空间湖水,一天时间,兔子就完全好了。
还想多做几次试验,可是身边没有试验的对象,就先放到一边,了解空间湖水可以饮用,而且对人有利,这些就足够了。
感谢您的收听,下期再见!
批次分桶功能:关 
bucket_enable = False

>> Reference audio length: 7.90 seconds
>> gpt_gen_time: 7.87 seconds
>> gpt_forward_time: 0.23 seconds
>> bigvgan_time: 0.37 seconds
>> Total fast inference time: 8.53 seconds
>> Generated audio length: 45.61 seconds
>> [fast] RTF: 0.1869

【新增数据批次分桶机制】有效提升批次推理稳定性:( 默认:已开启 True )

可有效避免超长句与超短句进行批次,对提升 gpt.inference_speech 预测稳定性,证明效果显著。 分桶机制对 RTF 的影响,浮动参考值约 +~ 0.0167 左右。(不同长度的句子批次浮动有所不同)

批次分桶功能:开 
bucket_enable = True

> [fast] RTF: 0.2036

👉️ 小提示:您需要在 webui 中,切换到【批次推理】infer_fast 模式进行复现和测试。

回答

3

这个什么时候合并呢?