测试了合成数个小时的小说文本,自己听了听,大部分情况下表现稳定,自己已经实现了短句切分,保证单次推理字数不要太长。 目前偶尔有出现中间语音空白的一句话,概率很低。 音色表现稳定。 目前最主要问题时,比如出现 ’嗯‘ ’嘻‘ ’咳‘ ’嘘‘ 等,容易有 破音,输出杂音,拖长音 等情况。换过一些prompt 的sample wav数据,很多都有类似现象。 我自行将 前端 里面的 ’嗯‘ 替换成 ’恩‘ 后有所缓解,但是不是很完美。
[index-tts]对各种语气词的处理有些奇怪
回答
嗯 需要替换为恩,其它语气词可能训练数据里面过少的原因。你试试用拼音替换下,看看效果?
谢谢回复!目前自己在前端用同音字替换了一些遇到的语气词,后面确实可以考虑用拼音试试。 语气词的发音做到连贯自然确实不容易,非常期望后续丰富训练集,再改进!!
另外,目前官方的 infer 函数采用 标点简单切分成多个片段,有时候会导致片段间的语气,语调,语速不太协调,朗读小说时偶尔会有不太协调的概率发生。 我自行把 infer 函数修改了一下,这里就不再切分,由我自己在前端先切分好。我目前的策略是超过60个字符左右的长句再切分。切分时也要尽可能平衡,尽量聚合较短的片段,不要过碎。这样听起来绝大多数旁白都非常自然了。
Index-TTS 强大的一点是做到了在音色强大,稳定的同时,不完全受sample的情绪影响,大赞!!!
谢谢回复!目前自己在前端用同音字替换了一些遇到的语气词,后面确实可以考虑用拼音试试。 语气词的发音做到连贯自然确实不容易,非常期望后续丰富训练集,再改进!!
另外,目前官方的 infer 函数采用 标点简单切分成多个片段,有时候会导致片段间的语气,语调,语速不太协调,朗读小说时偶尔会有不太协调的概率发生。 我自行把 infer 函数修改了一下,这里就不再切分,由我自己在前端先切分好。我目前的策略是超过60个字符左右的长句再切分。切分时也要尽可能平衡,尽量聚合较短的片段,不要过碎。这样听起来绝大多数旁白都非常自然了。
Index-TTS 强大的一点是做到了在音色强大,稳定的同时,不完全受sample的情绪影响,大赞!!!
”“由我自己在前端先切分好。我目前的策略是超过60个字符左右的长句再切分。切分时也要尽可能平衡,尽量聚合较短的片段,不要过碎。这样听起来绝大多数旁白都非常自然了。”“ 这点在合成长文本特别重要,因为gpt生成的长度总是有限的,且越长越不稳定。另外切句策略能提个pr和大家share一下么,能帮助到很多新手;
我fork的代码库被我修改后已经不太好pr了 ,就不再献丑了 。。。 让claude 3.7 按照这个思路做个切句策略也就够用了~~~