9
现在很多整合包已经自行添加了语速支持.
不知道官方出于什么考虑迟迟不加上语速的功能.
这是一个很常见的需求呀...
现在很多整合包已经自行添加了语速支持.
不知道官方出于什么考虑迟迟不加上语速的功能.
这是一个很常见的需求呀...
嗯...........实际上很多TTS的语速控制的效果分为两种,简单的提速和变慢(有些带“音调校准”,有些没有),或者是控制语句的间隔。
提速和变慢可以通过剪辑软件或ffmpeg达成,这个并不难,开发人员没做也没关系。控制语句间隔可以通过控制“分句最大Token数”来做到。希望对你有帮助
如果只是软件提速的话,是会变成娃娃音的(加快情况下),还是不完美。当然也有更高级的软件可以做到不提调,但是,还是麻烦了点。
我也是想了下这个问题,既然有 conda 装进去的 py312,可以直接用写进 api 里做个语速调整的接口,然后也实现了下,现在可以调音量和语速了。之前只是简单在前端调速,发现会有音调 pitch 改变(如加速后变成娃娃音),这是很平常的现象,因为调速后需要相应适配改 pitch,然后我换成了 python 的,就可以实现 pitch 还原。
希望官方脚本里能支持比较好的音量和语速参数