[index-tts]提升了输出音频的采样率

2025-10-29 210 views
5
新增特性

将WebUI生成的音频采样率从24kHz重采样到48kHz,能够在听感上显著去除音频的“闷感”。使用librosa和soundfile实现(已在requirements.txt中),无需引入新的库。此改动对推理性能几乎无影响。

测试条件
  • 参考音频: 相同
  • 文本: 相同
  • 推理方式: 批量推理
  • 显卡: RTX 2080 Ti 22G
测试结果
实验组 第一次 第二次 第三次 第四次 第五次 第六次 推理平均用时
改动前 9.37s 8.46s 8.39s 9.52s 9.14s 8.58s 8.91s
改动后 9.21s 9.28s 8.93s 8.84s 8.97s 8.72s 8.99s
错误修复

导入了缺失的pandas,修复了NameError: name 'pd' is not defined

回答

2

经过更加谨慎的测试,确定单纯重采样并不能改善听感。可能是VLC、谷歌浏览器对不同采样率的不同处理导致了实际听感不一致。