[index-tts]增加批次推理:长句实现至少 2~10 倍以上的速度提升~

2025-11-04 472 views
3

【提速原理】充分利用 GPU 显卡性能,对于分词进行并发处理,支持对 BigVgan 自定义分块解码,用于控制峰值显存! 以下是测试报告,基本环境:use_cuda_kernel = True ,fp16 ,3080 10G ,

推理测试文本内容如下:

每一次的努力都是为了更好的未来.不要害怕失败,要善于从失败中汲取经验.让我们一起勇敢前行,迈向更加美好的明天.吴尊真的算是娱乐圈公认的好男人了.每一次的努力都是为了更好的未来.不要害怕失败,要善于从失败中汲取经验.让我们一起勇敢前行,迈向更加美好的明天.吴尊真的算是娱乐圈公认的好男人了.每一次的努力都是为了更好的未来.不要害怕失败,要善于从失败中汲取经验.让我们一起勇敢前行,迈向更加美好的明天.吴尊真的算是娱乐圈公认的好男人了.每一次的努力都是为了更好的未来.不要害怕失败,要善于从失败中汲取经验.让我们一起勇敢前行,迈向更加美好的明天.吴尊真的算是娱乐圈公认的好男人了.

(1)优化之前(普通推理):生成70秒音频,推理需要总耗时 46 秒时间。

>> Reference audio length: 7.90 seconds
>> gpt_gen_time: 43.80 seconds
>> gpt_forward_time: 0.54 seconds
>> bigvgan_time: 1.38 seconds
>> Total inference time: 45.93 seconds
>> Generated audio length: 70.23 seconds
>> RTF: 0.6540

(2)优化之后(批次推理):同样生成70秒音频,仅需不到 9 秒!!( 提速高达 5 倍+ )

>> Reference audio length: 7.90 seconds
>> gpt_gen_time: 6.95 seconds
>> gpt_forward_time: 0.84 seconds
>> bigvgan_time: 0.84 seconds
>> Total fast inference time: 8.71 seconds
>> Generated audio length: 70.66 seconds
>> [fast] RTF: 0.1232

【对于短句】:例如输入的只有一句,则速度和原版保持一致。 【提速特点】:理论上输入的长分句越多,提速越翻倍,效果越显著! 【显存情况】:采用 chunk_size 可自定义控制解码块峰值。

【已知问题】: ==== 在测试过程中,我曾遇到:偶尔会出现丢句,空白音频等情况出现 ==== PS:期待官方大佬,修复这些异常现象~

同时,本次 PR 对 webui 的改进如下: (1)支持在界面上切换两种推理模式【普通模式】和【批次模式】。 (2)增加推理 UI 进度条展示,以了解推理运行情况。 (3)享受~!

回答

7

批次速度是快了,但是漏字严重,而且语速时快时慢。

0

@Jandown 问题已修复,相关 PR 已提交,可拉取进行验证~ https://github.com/index-tts/index-tts/pull/100#issue-3002941237