[index-tts]问题请教:bigvgan训练了多少step?

2025-10-28 904 views
1

大佬你好,听了demo效果很不错,我打算提取我自己的语言模型的latent进行训练bigvgan,按照bigvagan-v2的默认配置,使用约100h数据训练了大概5w-step,音频听起来质量不佳,想请教你demo里的音频是训练bigvgan多少step呢,或者介意开源下bigvgan的训练配置吗? 万分感谢!

回答

8

batchsize=192训练了30万步,lr: 1e-04, 我们是用几万小时训的,你可以把这个模型作为初始化可以极大的加速收敛

3

感谢回复。和大佬的llm-latent维度不太一致,似乎不太适合初始化;还有个问题想请教下,大佬最终收敛后的loss是多少呢?

9

Gen Loss Total: 37.161, Mel Error: 1.787, s/b: 1.849

6

谢谢大佬

2

佬,再请教下,看推理代码spk-encoder是联合generator一起训练的,想问一下,spk-encoder也会接受来自判别loss的梯度?还有就是推理代码中计算了spk-encoder的contrastive-loss,想问一下mel_refer是怎么构造的呢?

9

spk-encoder的初始化会使用预训练的ECAPA_TDNN权重吗