1
大佬你好,听了demo效果很不错,我打算提取我自己的语言模型的latent进行训练bigvgan,按照bigvagan-v2的默认配置,使用约100h数据训练了大概5w-step,音频听起来质量不佳,想请教你demo里的音频是训练bigvgan多少step呢,或者介意开源下bigvgan的训练配置吗? 万分感谢!
大佬你好,听了demo效果很不错,我打算提取我自己的语言模型的latent进行训练bigvgan,按照bigvagan-v2的默认配置,使用约100h数据训练了大概5w-step,音频听起来质量不佳,想请教你demo里的音频是训练bigvgan多少step呢,或者介意开源下bigvgan的训练配置吗? 万分感谢!
batchsize=192训练了30万步,lr: 1e-04, 我们是用几万小时训的,你可以把这个模型作为初始化可以极大的加速收敛
感谢回复。和大佬的llm-latent维度不太一致,似乎不太适合初始化;还有个问题想请教下,大佬最终收敛后的loss是多少呢?
Gen Loss Total: 37.161, Mel Error: 1.787, s/b: 1.849
谢谢大佬
佬,再请教下,看推理代码spk-encoder是联合generator一起训练的,想问一下,spk-encoder也会接受来自判别loss的梯度?还有就是推理代码中计算了spk-encoder的contrastive-loss,想问一下mel_refer是怎么构造的呢?
spk-encoder的初始化会使用预训练的ECAPA_TDNN权重吗