3
整合最新main内容,支持流式生成 + infer_fast 开启 torch.compile
代码格式用了black format,凑合着看吧。
流式生成如下
infer-fast 生成如下
机器 M1 + 16G
整合最新main内容,支持流式生成 + infer_fast 开启 torch.compile
代码格式用了black format,凑合着看吧。
流式生成如下
infer-fast 生成如下
机器 M1 + 16G
torch.compile 只在 MPS 和 A10 上跑通了,MelSpectrogramFeatures 添加了多音源特征提取,but 还没测试。
后续会整合 连续静音的pr https://github.com/index-tts/index-tts/pull/76/commits/5f46c487e23e748ae9d3091e0bfed69ea7e27e1a
流式生成出的音频在 chunk之间会有奇怪的变化,需要大佬来帮忙解决下
我记得compile只能在linux+n卡环境,mac也能用了?
请问流式生成出的音频在 chunk之间会有奇怪变化的这个问题,现在有解决?
您好请问一下,这个流式推理,推理内容使用test_infer中的script_fragments口播内容推理callback函数很快,但是通过websocket发送message推理的文本内容很久才会callback函数,请问一下为什么返回的特别慢呢