[index-tts]跪求开源微调代码 😭

3

别想了

eyesspace

1

微调哪个模块？

flowchart TD
    D("参考文本") -->BPE[[**BPE**]] --> T(文本 Token IDs)
    A("参考音频") --> M(Mel-Spectrogram) --> VAE[[**DiscreteVAE**]]--> B(Mel-Spectrogram Code Ids)
    A -->CE[[**Conformer Encoder**]] --- Pe[[*Perceiver Resampler*]] --> CA(音频上下文向量) -->|条件| C
    B --> C
    T --> C[[**GPT2**]]
    C -->|自回归生成| L(潜在语音表示Latent Vector)
    L --> V[[**BigVGAN**]]
    A --> SP[[**ECAPA-TDNN**]]--> S(Speaker Embedding)
    S --> V
    V -->|合成| PCM("音频信号 (PCM)")

从工程结构上讲，牵一发动全身

yrom

2

@yrom 应该是微调BPE和GPT2

acely

1

看起来是要微调GPT2和BigVGAN吧

smallfish45

4

诸位，可以参考我的微调示例代码：https://github.com/yrom/finetune-index-tts 经过~1k数据量微调实现可以用标签控制笑声输出（但也是因为数据量太小泛化性不足 🙅

yrom

8

@yrom 太肝了大佬，敬佩敬佩！

acely

8

诸位，可以参考我的微调示例代码：https://github.com/yrom/finetune-index-tts 经过~1k数据量微调实现可以用标签控制笑声输出（但也是因为数据量太小泛化性不足 🙅

Can IndexTTS 2.0 be fine-tuned to add support for different languages? I've seen it done for F5tts.

BekinTech

1

你好！邮件已收到！

zxmlong

[index-tts]跪求开源微调代码 😭

回答