[index-tts]对各种语气词的处理有些奇怪

测试了合成数个小时的小说文本，自己听了听，大部分情况下表现稳定，自己已经实现了短句切分，保证单次推理字数不要太长。目前偶尔有出现中间语音空白的一句话，概率很低。音色表现稳定。目前最主要问题时，比如出现 ’嗯‘ ’嘻‘ ’咳‘ ’嘘‘ 等，容易有破音，输出杂音，拖长音等情况。换过一些prompt 的sample wav数据，很多都有类似现象。我自行将前端里面的 ’嗯‘ 替换成 ’恩‘ 后有所缓解，但是不是很完美。

fire3

嗯需要替换为恩，其它语气词可能训练数据里面过少的原因。你试试用拼音替换下，看看效果？

index-tts

谢谢回复！目前自己在前端用同音字替换了一些遇到的语气词，后面确实可以考虑用拼音试试。语气词的发音做到连贯自然确实不容易，非常期望后续丰富训练集，再改进！！

另外，目前官方的 infer 函数采用标点简单切分成多个片段，有时候会导致片段间的语气，语调，语速不太协调，朗读小说时偶尔会有不太协调的概率发生。我自行把 infer 函数修改了一下，这里就不再切分，由我自己在前端先切分好。我目前的策略是超过60个字符左右的长句再切分。切分时也要尽可能平衡，尽量聚合较短的片段，不要过碎。这样听起来绝大多数旁白都非常自然了。

Index-TTS 强大的一点是做到了在音色强大，稳定的同时，不完全受sample的情绪影响，大赞！！！

fire3

谢谢回复！目前自己在前端用同音字替换了一些遇到的语气词，后面确实可以考虑用拼音试试。语气词的发音做到连贯自然确实不容易，非常期望后续丰富训练集，再改进！！

另外，目前官方的 infer 函数采用标点简单切分成多个片段，有时候会导致片段间的语气，语调，语速不太协调，朗读小说时偶尔会有不太协调的概率发生。我自行把 infer 函数修改了一下，这里就不再切分，由我自己在前端先切分好。我目前的策略是超过60个字符左右的长句再切分。切分时也要尽可能平衡，尽量聚合较短的片段，不要过碎。这样听起来绝大多数旁白都非常自然了。

Index-TTS 强大的一点是做到了在音色强大，稳定的同时，不完全受sample的情绪影响，大赞！！！

”“由我自己在前端先切分好。我目前的策略是超过60个字符左右的长句再切分。切分时也要尽可能平衡，尽量聚合较短的片段，不要过碎。这样听起来绝大多数旁白都非常自然了。”“ 这点在合成长文本特别重要，因为gpt生成的长度总是有限的，且越长越不稳定。另外切句策略能提个pr和大家share一下么，能帮助到很多新手；

index-tts

我fork的代码库被我修改后已经不太好pr了，就不再献丑了。。。让claude 3.7 按照这个思路做个切句策略也就够用了~~~

fire3

[index-tts]对各种语气词的处理有些奇怪

回答