3
跪求开源微调代码 😭
跪求开源微调代码 😭
别想了
微调哪个模块?
flowchart TD
D("参考文本") -->BPE[[**BPE**]] --> T(文本 Token IDs)
A("参考音频") --> M(Mel-Spectrogram) --> VAE[[**DiscreteVAE**]]--> B(Mel-Spectrogram Code Ids)
A -->CE[[**Conformer Encoder**]] --- Pe[[*Perceiver Resampler*]] --> CA(音频上下文向量) -->|条件| C
B --> C
T --> C[[**GPT2**]]
C -->|自回归生成| L(潜在语音表示Latent Vector)
L --> V[[**BigVGAN**]]
A --> SP[[**ECAPA-TDNN**]]--> S(Speaker Embedding)
S --> V
V -->|合成| PCM("音频信号 (PCM)")
从工程结构上讲,牵一发动全身
@yrom 应该是微调BPE和GPT2
看起来是要微调GPT2和BigVGAN吧
诸位,可以参考我的微调示例代码:https://github.com/yrom/finetune-index-tts 经过~1k数据量微调实现可以用标签控制笑声输出(但也是因为数据量太小泛化性不足 🙅
@yrom 太肝了大佬,敬佩敬佩!
诸位,可以参考我的微调示例代码:https://github.com/yrom/finetune-index-tts 经过~1k数据量微调实现可以用标签控制笑声输出(但也是因为数据量太小泛化性不足 🙅
Can IndexTTS 2.0 be fine-tuned to add support for different languages? I've seen it done for F5tts.
你好!邮件已收到!