0
两个问题:1.index-1.5 要比index-1.0推理速度要慢一些,2.index-1.5部分标点符号未能正确读出,比如东风3-4级 读成三减四 ,每平方米/元 的/会读出来,希望能优化一下 目前就遇到这些问题 模型已经很完美了
两个问题:1.index-1.5 要比index-1.0推理速度要慢一些,2.index-1.5部分标点符号未能正确读出,比如东风3-4级 读成三减四 ,每平方米/元 的/会读出来,希望能优化一下 目前就遇到这些问题 模型已经很完美了
第二个问题实际上还真不太好解决。原因非常简单,因为tts不会理解文本意义,它只是按照上下文决定好怎么读、语调和断句。
在“平方米/元 ”这个例子里,你肯定希望她读,“平方米每元”,但是正如我说的,tts不理解为什么。也许你可以直接做一个项目,衔接一个小的文本处理模型在tts模型之前,比如0.6B的qwen3。让文本处理把 “平方米/元“ 变成 “平方米每元” ,然后输入tts模型中。
第二个问题实际上还真不太好解决。原因非常简单,因为tts不会理解文本意义,它只是按照上下文决定好怎么读、语调和断句。
在“平方米/元 ”这个例子里,你肯定希望她读,“平方米每元”,但是正如我说的,tts不理解为什么。也许你可以直接做一个项目,衔接一个小的文本处理模型在tts模型之前,比如0.6B的qwen3。让文本处理把 “平方米/元“ 变成 “平方米每元” ,然后输入tts模型中。
第二问题,很好的思路,谢谢。但小模型实在是智障,根本不会做文本标准化。 我的项目实时性不高,文本前处理我调了下大模型,标准化处理效果很不错。
IndexTTS-1.5 Encoder与Decoder的张量尺寸,从原先的1024上升至1280。因此耗时增加是预期的现象。