[index-tts]有计划支持批处理么?

2025-10-27 144 views
7

场景是教学视频字幕的中文配音,每个字幕segment都很短,单独推断一次和一起批量推断性能差距太大了,但是尝试自己写的杂音太大了,不知道有没有可能的解决方案。

batch_inference.py

回答

1

我也遇到了这个问题,我发现针对每一小句话生成音频然后拼接,音色效果也不如一长段文本生成的效果好。

9

我也遇到了这个问题,我发现针对每一小句话生成音频然后拼接,音色效果也不如一长段文本生成的效果好。

建议生成字数在10字以上,这样效果会稳定一些。

1

"我建议您改用: https://github.com/mirbehnam/Chatterbox-TTS-Server-windows-easyInstallation.git (如您所提),根据我的经验,这个方案更优秀、更稳定。 这个系统能满足您的期望:

  • 最佳音质: 它能提供清晰(clean)的音频输出,就像您在 Mac mini 上使用 v1.5 所获得的那样。
  • 情感控制 (Emotion Control): 您可以轻松控制语音的情感表达(如愤怒、悲伤、快乐等)。
  • 多语言支持: 它支持包括 23 种语言在内的多种语言。 请尝试使用它,它将对您的工作更有效。"