[index-tts]增加批次推理：长句实现至少 2~10 倍以上的速度提升~

【提速原理】充分利用 GPU 显卡性能，对于分词进行并发处理，支持对 BigVgan 自定义分块解码，用于控制峰值显存！以下是测试报告，基本环境：use_cuda_kernel = True ，fp16 ，3080 10G ，

推理测试文本内容如下：

每一次的努力都是为了更好的未来.不要害怕失败,要善于从失败中汲取经验.让我们一起勇敢前行,迈向更加美好的明天.吴尊真的算是娱乐圈公认的好男人了.每一次的努力都是为了更好的未来.不要害怕失败,要善于从失败中汲取经验.让我们一起勇敢前行,迈向更加美好的明天.吴尊真的算是娱乐圈公认的好男人了.每一次的努力都是为了更好的未来.不要害怕失败,要善于从失败中汲取经验.让我们一起勇敢前行,迈向更加美好的明天.吴尊真的算是娱乐圈公认的好男人了.每一次的努力都是为了更好的未来.不要害怕失败,要善于从失败中汲取经验.让我们一起勇敢前行,迈向更加美好的明天.吴尊真的算是娱乐圈公认的好男人了.

（1）优化之前（普通推理）：生成70秒音频，推理需要总耗时 46 秒时间。

>> Reference audio length: 7.90 seconds
>> gpt_gen_time: 43.80 seconds
>> gpt_forward_time: 0.54 seconds
>> bigvgan_time: 1.38 seconds
>> Total inference time: 45.93 seconds
>> Generated audio length: 70.23 seconds
>> RTF: 0.6540

（2）优化之后（批次推理）：同样生成70秒音频，仅需不到 9 秒！！（提速高达 5 倍+ ）

>> Reference audio length: 7.90 seconds
>> gpt_gen_time: 6.95 seconds
>> gpt_forward_time: 0.84 seconds
>> bigvgan_time: 0.84 seconds
>> Total fast inference time: 8.71 seconds
>> Generated audio length: 70.66 seconds
>> [fast] RTF: 0.1232

【对于短句】：例如输入的只有一句，则速度和原版保持一致。【提速特点】：理论上输入的长分句越多，提速越翻倍，效果越显著！【显存情况】：采用 chunk_size 可自定义控制解码块峰值。

【已知问题】： ==== 在测试过程中，我曾遇到：偶尔会出现丢句，空白音频等情况出现 ==== PS：期待官方大佬，修复这些异常现象~

同时，本次 PR 对 webui 的改进如下：（1）支持在界面上切换两种推理模式【普通模式】和【批次模式】。（2）增加推理 UI 进度条展示，以了解推理运行情况。（3）享受~！

juntaosun

批次速度是快了，但是漏字严重，而且语速时快时慢。

Jandown

@Jandown 问题已修复，相关 PR 已提交，可拉取进行验证~ https://github.com/index-tts/index-tts/pull/100#issue-3002941237

juntaosun

[index-tts]增加批次推理：长句实现至少 2~10 倍以上的速度提升~

回答