[index-tts]跪求开源微调代码 😭

2025-10-28 104 views
3

跪求开源微调代码 😭

回答

3

别想了

7

微调哪个模块?

flowchart TD
    D("参考文本") -->BPE[[**BPE**]] --> T(文本 Token IDs)
    A("参考音频") --> M(Mel-Spectrogram) --> VAE[[**DiscreteVAE**]]--> B(Mel-Spectrogram Code Ids)
    A -->CE[[**Conformer Encoder**]] --- Pe[[*Perceiver Resampler*]] --> CA(音频上下文向量) -->|条件| C
    B --> C
    T --> C[[**GPT2**]]
    C -->|自回归生成| L(潜在语音表示Latent Vector)
    L --> V[[**BigVGAN**]]
    A --> SP[[**ECAPA-TDNN**]]--> S(Speaker Embedding)
    S --> V
    V -->|合成| PCM("音频信号 (PCM)")

从工程结构上讲,牵一发动全身

5

@yrom 应该是微调BPE和GPT2

5

看起来是要微调GPT2和BigVGAN吧

3

诸位,可以参考我的微调示例代码:https://github.com/yrom/finetune-index-tts 经过~1k数据量微调实现可以用标签控制笑声输出(但也是因为数据量太小泛化性不足 🙅

9

@yrom 太肝了大佬,敬佩敬佩!

2

诸位,可以参考我的微调示例代码:https://github.com/yrom/finetune-index-tts 经过~1k数据量微调实现可以用标签控制笑声输出(但也是因为数据量太小泛化性不足 🙅

Can IndexTTS 2.0 be fine-tuned to add support for different languages? I've seen it done for F5tts.

6

你好!邮件已收到!