[index-tts]1.5和1.0的效果好像变差了

windows下，1660S的显卡，同样的参考音频，同样的文字，1.5的commit:10d557a15e0bc234389a2900b7147c4c8a94fe3b，1.0commit:141599f04d576f0194ecbac90c4426b2ea32ac18

参考音频，格式为mp3

参考文字为：洗衣粉和别的东西不一样，咱们谁家都得用的对不对？十斤装，这么一大袋子的天然皂粉，平时去线下商场超市，得三四十块钱的，今天厂家补贴，十六块九一大袋整整十斤装，不但给大家包邮送到家，还送七天无理由和运费险，咱们一定要抓住机会，抢个实惠。

1.5是cuda128,1.0是cuda126，其他依赖为按照readme来安装的 1.5输出：

start inference... Reference audio length: 12.70 seconds gpt_gen_time: 53.47 seconds gpt_forward_time: 2.41 seconds bigvgan_time: 2.63 seconds Total inference time: 60.10 seconds Generated audio length: 26.03 seconds RTF: 2.3090

spk_1749135790.wav.txt

1.0输出：

start inference... wav shape: torch.Size([1, 79872]) min: tensor(-28240., device='cuda:0', dtype=torch.float16) max: tensor(20944., device='cuda:0', dtype=torch.float16) wav shape: torch.Size([1, 253952]) min: tensor(-28880., device='cuda:0', dtype=torch.float16) max: tensor(22656., device='cuda:0', dtype=torch.float16) wav shape: torch.Size([1, 144384]) min: tensor(-29280., device='cuda:0', dtype=torch.float16) max: tensor(20416., device='cuda:0', dtype=torch.float16) Reference audio length: 12.70 seconds gpt_gen_time: 19.89 seconds gpt_forward_time: 1.38 seconds bigvgan_time: 2.02 seconds Total inference time: 24.14 seconds Generated audio length: 19.93 seconds RTF: 1.2117 wav file saved to: outputs\spk_1749135721.wav

spk_1749135721.wav.txt

现在问题有如下几个： 1、处理时间几乎变长了一倍； 2、处理停顿分局，感觉不如1.0的效果自然了； 3、出现空白音频的概率感觉比1.0要大一些；不知道是不是哪里设置的有问题，或者环境有问题？

感谢回复。感谢辛苦验证。

itltf512116

复现验证成功，

我在MacOS上面用同样的参考音频得到了差不多的输出音频。1、停顿多。2、“得三四十块钱的”，déi，读错成dé。

解决

在“是否进行采样”选项中，取消“do_sample”，可缓解停顿多、不连贯的问题。
字读错的问题目前没有找到方法，（尝试过改设置和批次推理，没用），不过我尝试过其它参考音频，没有出现，把déi读错成dé的情况。我认为这应该是推理的问题，不过确实只在这个issue提供的参考音频会出现该问题。

以下是其它参考音频的效果：

测试女.wav.txt 测试男.wav.txt

最后，1.5确实会比1.0更慢，但是在英文能力和呼吸效果控制会更好一些。该issue确实存在，我个人认为是推理模型的某些原因。

TatsuhiroC

得改成如图拼音就行

nan01111_洗衣粉和别的东西不一_20250617_124333.wav.txt

cunkai

得改成如图拼音就行

nan01111_洗衣粉和别的东西不一_20250617_124333.wav.txt

“得”是个多音字，这个办法只能解决手动生成的情况. 批量处理这样换，会把应该发de的地方都换成dei.

ynicle

原来好像换成拼音可以，但是这个dei的i好像发不出来一样，当时我记得换成拼音之后，还是有问题，另外就是issues列表里面有个类似的问题也说的是字母i这个拼音，不太好用

itltf512116

自动的话,可以试试llm把句子中的多音字换成拼音, 目前看index应该不会自动识别清除.

cunkai

你可以下载我那个听听,貌似dei2没问题必须后缀1-5个声调

cunkai

拼音前后要留个空格，这样前端处理不容易出错，比如“貌似 dei2 没问题”。

index-tts

[index-tts]1.5和1.0的效果好像变差了

回答