22050的采样率如何修改为44100的采样率?直接修改采样率不行。或者说目前的index-tts支持44100的采样率吗?
[index-tts]很棒的项目,但是默认的 22050 采样率感觉还是有点粗糙,如何转换成 44100 的采样率?
回答
22kHz 的采样率是人工智能领域的典型值,它在高质量和高生成速度之间取得了很好的平衡。
16 kHz 的频率已经可以捕捉到大部分人声。
22 kHz 的采样率增加了高频部分,使音频更加清晰悦耳。这就是为什么它是语音音频的行业标准采样率。
44 kHz 的 AI 模型生成音频的速度会慢得多,因为它需要生成两倍数量的采样数据点(虽然这并非线性关系,但你可以粗略估计生成速度会慢两倍,并且需要更多的显存)。而且音质几乎不会有任何提升。
如果你想将结果转换为 44.1 kHz 以增加一些清晰度,你可以使用任何后处理音频重建工具(例如 iZotope),该工具可以根据输入生成新的高频,消除房间回声,以及执行其他处理任务。
使用 AP-BWE。它可以非常快速地将 24kHz 扩展到 48kHz。
@dignome 谢谢,这真是个好主意!AP-BWE 模型可以不用以 48 kHz 的频率生成,而是在后处理中扩展到 48 kHz。
我试了一下。我把 22050 采样率升频到 24000,然后用 AP-BWE 对音频进行超分辨率处理。这样做会增加出现爆音的概率。你遇到过这个问题吗?
@Arcitec 44.1 kHz 的采样率能显著提升高频细节和人声自然度,并为后期处理留出更多空间。过采样工具虽然有所帮助,但通常会改变说话者的音色。如果能提供一个高保真模式选项就太好了!
我认为原因在于训练数据只有 16k 或 22k 个。
@Arcitec
The 22kHz sample rate is typical for AI. It is a great balance with high quality and high generation speed.
16 kHz can already capture most of a human voice.
22 kHz adds more high frequencies which makes the audio nice and clear. This is why it's the industry standard sample rate for voices.
A 44 kHz AI model would be much slower to generate audio, since it would need to generate twice as many sample data points (and even though it's not linear, you can roughly estimate 2x slower to generate and much more VRAM). And the quality would barely improve at all.
我不同意这种说法。按照音频行业的标准,22kHz 和 24kHz 的采样率都远称不上“高品质”。如果真要说在音质和性能之间做出取舍,我认为 32kHz 更合适。
22050 或 24000 的采样率听起来完全不自然,根本不适用于任何实际应用场景。它们不适合混音、配音或任何需要高保真度的应用。例如,齿音完全不清晰,亮度和清晰度也荡然无存(这对沙哑/空灵的嗓音尤为重要)。总而言之,最终输出的声音非常浑浊暗沉。
就性能而言……我使用声码器已经有一段时间了,可以肯定地说,还有一些其他速度非常快的选择。我们有混合 IFT(HiftNet、Vocos),或者我们还有混合 IFT + Conformer 和环形注意力机制(RingFormer),它速度非常快,并且可以适应更高的语音识别度。
我知道 IndexTTS 使用的是 bigvgan(就 RTF 或效率而言,这真的是最糟糕的选择)。我强烈建议切换到更好的解决方案,这些方案不依赖于大量的下采样/上采样 snake AMP 模块。
此致!
(如果我写得不够清楚,请见谅。英语不是我的母语🙏)