[index-tts]关于拼音建模的一些疑问?

2025-10-28 205 views
3

试了一下开放出来的模型,即使完全不使用文字,仅使用在词典中的拼音进行推理,也能将发音控制的不错。我有一些疑问: (1)训练过程中只会用非多音字的拼音替换文字,这样拼音覆盖度是否全面,是否会存在有的拼音出现频次很低,或者压根没有被模型见过? (2)如果将拼音拆解为声韵母,应该会缓解拼音覆盖度的问题,但不知道是否会影响性能,请问有做过这方面的尝试吗?

回答

5
  1. 我们统计了训练数据是都覆盖的,数据量到数万小时,没有被训练到的概率基本为0了;
  2. 拆成声韵母韵律会受影响,我们之前也训过一版以声韵母作为phone的模型,整体稳定性不如字符输入建模的,wer会变差挺多。
4
  1. 我们统计了训练数据是都覆盖的,数据量到数万小时,没有被训练到的概率基本为0了;
  2. 拆成声韵母韵律会受影响,我们之前也训过一版以声韵母作为phone的模型,整体稳定性不如字符输入建模的,wer会变差挺多。
  1. 我这边测试的时候,QIA3(卡)这个音没有出现在开放出的词典中,还想请问下大概训练了多少个epoch呢?
  2. 在把声韵母作为音素实验的时候,是纯音素作为输入,还是按照论文中的方式,以一定概率和汉字混合后进行BPE呢?
0
  1. unigram_12000.vocab:9533 有QIA3 这个音的,训练4轮左右,数据量扩的更大后可以减少轮数;
  2. 以一定概率和字混合,和字一样作为独立的建模单元BPE建模;
7
  1. unigram_12000.vocab:9533 有QIA3 这个音的,训练4轮左右,数据量扩的更大后可以减少轮数;
  2. 以一定概率和字混合,和字一样作为独立的建模单元BPE建模;

不好意思。第一点记岔了,应该是没有QIA2(䠍)这个音。

9

是训练数据里面就没这种比较生僻发音的字了。后面扩数据会加上~~

7

是训练数据里面就没这种比较生僻发音的字了。后面扩数据会加上~~

了解。我对于论文中提及”只会用非多音字的拼音替换文字“还是存在一些疑惑:(1)请问你们使用的多音字集合有多少个字呢?(2)判断某个字是否为”多音字“的标准是什么呢?是仅仅依靠汉语词典中某个字的发音个数吗?如果仅仅依靠某个字的发音个数来判别多音字,感觉很难用非多音字的拼音集合覆盖所有拼音呢。以sheng3为例,根据汉语词典 https://www.kangxizidian.com.cn/pinyin/sheng.html ,sheng3中只有”省“这个多音字是比较常见的字,其余均是生僻字,如果语料中没有足够的生僻字,那sheng3这个发音其实很难被覆盖。

3

能控制英文读音吗?

7

能控制英文读音吗?

英文部分不支持用音素控制