[index-tts]停顿和语速需要优化

2025-11-11 635 views
8

短句之间连接好像被切断了一样,卡一下,还有语速完全没变化,只要做好两个基本上就无敌了

回答

3

能给下Prompt wav及需要合成的text么,我们也试下看下具体问题,后面改进。另外目前模型输入只支持汉字,拼音,英文单词及几个常用标点,其它不支持(比如数字等),卡一下有可能是标点符号不支持当做oov了。

7

能给下Prompt wav及需要合成的text么,我们也试下看下具体问题,后面改进。另外目前模型输入只支持汉字,拼音,英文单词及几个常用标点,其它不支持(比如数字等),卡一下有可能是标点符号不支持当做oov了。

老师,我测试了,应该是参考音频的问题,如果是从一句话中间切开的话可能就会有卡顿的感觉,语速问题其实也不大。

现在主要的问题是:读数字不对。

你们可以试试这段话:

过节了!过节了!9月23日Native Instruments将时隔两年发布旗下万众瞩目的产品大全集Komplete 15!Komplete 15将包含过去两年Native Instruments推出的几乎所有音源,并将推出旗下招牌采样器Kontakt的最新版本Kontakt 8!

9

能给下Prompt wav及需要合成的text么,我们也试下看下具体问题,后面改进。另外目前模型输入只支持汉字,拼音,英文单词及几个常用标点,其它不支持(比如数字等),卡一下有可能是标点符号不支持当做oov了。

都是随机的停顿和忽快忽慢,我测试了多个音频,尤其是长文本,都是忽快忽慢,很多标点符号也会生成奇怪的声音。

6

还有+-这类的符号也没读

8

看下来都是预处理(前端)的问题,我们已经补上个简单的前端,大家可以再试试看问题都解决了没

8

看下来都是预处理(前端)的问题,我们已经补上个简单的前端,大家可以再试试看问题都解决了没

184556+45565=多少?

这一句只念了多少

4

看下来都是预处理(前端)的问题,我们已经补上个简单的前端,大家可以再试试看问题都解决了没

WeTextProcessing 和wetext装上了,生成还是停顿时间太长,忽快忽慢

4

我反而没有遇到忽快忽慢的错误感觉,因为本身朗读就不是均速的,朗读要有情感就不可能是均速的

1

电话:0373-8850893 这个电话会读成“零三七三减八百八十五万零八百九十三

5

我反而没有遇到忽快忽慢的错误感觉,因为本身朗读就不是均速的,朗读要有情感就不可能是均速的

这种忽快忽慢就是那种很奇怪的节奏,随机的突然加速,然后突然停顿 很长,断句也不正常。

8

@Jandown 能给个case么,比如Prompt wav及合成的文本及你这边跑出的合成结果,我们对比看下问题出在哪里。

2

@fengxu-sz 这是前端问题,“-” 归一化成“减”了

8

@Jandown 能给个case么,比如Prompt wav及合成的文本及你这边跑出的合成结果,我们对比看下问题出在哪里。

好的 ,我等下跑一个

7

@Jandown 能给个case么,比如Prompt wav及合成的文本及你这边跑出的合成结果,我们对比看下问题出在哪里。

IndexTTS.zip

2

@fengxu-sz 这是前端问题,“-” 归一化成“减”了

请问你们是怎么让“-”读成“减”的?具体哪个文件哪段代码,我可以手动添加吗?我发现还有类似;、这样的符号也被误读成怪音了,需要把中英文符号都做下测试。

还有一些语气词类似:诶,哎,嘿嘿,呵呵之类的语气词,也出现了比较奇怪的起伏,也没有正确读出正确的字,我听到也出现了句子停顿问题。

http://www.timeread.com/book/47285/5225822

4

@Jandown 你这个问题是单次推的字数太多了,几百个字了,前面还是OK得,后面生成就不稳定了。建议以长停顿标点(比如。?!;)分句后,每个句子长度最好不要超过50个字,以句子为单位去推,再把所有推好的句子按顺序拼起来就行OK。

5

@Jandown 能给个case么,比如Prompt wav及合成的文本及你这边跑出的合成结果,我们对比看下问题出在哪里。

IndexTTS.zip

看下来都是预处理(前端)的问题,我们已经补上个简单的前端,大家可以再试试看问题都解决了没

184556+45565=多少?

这一句只念了多少

现在好了吧,我试了下是OK的;

3

@fengxu-sz 这是前端问题,“-” 归一化成“减”了

请问你们是怎么让“-”读成“减”的?具体哪个文件哪段代码,我可以手动添加吗?我发现还有类似;、这样的符号也被误读成怪音了,需要把中英文符号都做下测试。

还有一些语气词类似:诶,哎,嘿嘿,呵呵之类的语气词,也出现了比较奇怪的起伏,也没有正确读出正确的字,我听到也出现了句子停顿问题。

http://www.timeread.com/book/47285/5225822

indextts/infer.py:63,这是入口你从这看进去,我们会后面统一修这些前端badcase,你着急的话可以自己先修修用起来。 可能和上面 @Jandown 一样的问题,单次推理的字数太多了,具体可以看看上面@Jandown 的回复。
0

@Jandown 你这个问题是单次推的字数太多了,几百个字了,前面还是OK得,后面生成就不稳定了。建议以长停顿标点(比如。?!;)分句后,每个句子长度最好不要超过50个字,以句子为单位去推,再把所有推好的句子按顺序拼起来就行OK。

之所以用长文本演示,是为了更多的发现问题。一句话也会有忽快忽慢的情况,和我发你的示例效果差不多,很多时候刚开始就忽快忽慢

1

@fengxu-sz 这是前端问题,“-” 归一化成“减”了

请问你们是怎么让“-”读成“减”的?具体哪个文件哪段代码,我可以手动添加吗?我发现还有类似;、这样的符号也被误读成怪音了,需要把中英文符号都做下测试。 还有一些语气词类似:诶,哎,嘿嘿,呵呵之类的语气词,也出现了比较奇怪的起伏,也没有正确读出正确的字,我听到也出现了句子停顿问题。 http://www.timeread.com/book/47285/5225822

indextts/infer.py:63,这是入口你从这看进去,我们会后面统一修这些前端badcase,你着急的话可以自己先修修用起来。 可能和上面 @Jandown 一样的问题,单次推理的字数太多了,具体可以看看上面@Jandown 的回复。

现在进展如何,符号正常了吗?我看了下代码不知道怎么修改

8

@martjay @Jandown 加下QQ号:553460296,我们讨论方便些?