3
试了一下开放出来的模型,即使完全不使用文字,仅使用在词典中的拼音进行推理,也能将发音控制的不错。我有一些疑问: (1)训练过程中只会用非多音字的拼音替换文字,这样拼音覆盖度是否全面,是否会存在有的拼音出现频次很低,或者压根没有被模型见过? (2)如果将拼音拆解为声韵母,应该会缓解拼音覆盖度的问题,但不知道是否会影响性能,请问有做过这方面的尝试吗?
试了一下开放出来的模型,即使完全不使用文字,仅使用在词典中的拼音进行推理,也能将发音控制的不错。我有一些疑问: (1)训练过程中只会用非多音字的拼音替换文字,这样拼音覆盖度是否全面,是否会存在有的拼音出现频次很低,或者压根没有被模型见过? (2)如果将拼音拆解为声韵母,应该会缓解拼音覆盖度的问题,但不知道是否会影响性能,请问有做过这方面的尝试吗?
- 我们统计了训练数据是都覆盖的,数据量到数万小时,没有被训练到的概率基本为0了;
- 拆成声韵母韵律会受影响,我们之前也训过一版以声韵母作为phone的模型,整体稳定性不如字符输入建模的,wer会变差挺多。
- unigram_12000.vocab:9533 有QIA3 这个音的,训练4轮左右,数据量扩的更大后可以减少轮数;
- 以一定概率和字混合,和字一样作为独立的建模单元BPE建模;
不好意思。第一点记岔了,应该是没有QIA2(䠍)这个音。
是训练数据里面就没这种比较生僻发音的字了。后面扩数据会加上~~
是训练数据里面就没这种比较生僻发音的字了。后面扩数据会加上~~
了解。我对于论文中提及”只会用非多音字的拼音替换文字“还是存在一些疑惑:(1)请问你们使用的多音字集合有多少个字呢?(2)判断某个字是否为”多音字“的标准是什么呢?是仅仅依靠汉语词典中某个字的发音个数吗?如果仅仅依靠某个字的发音个数来判别多音字,感觉很难用非多音字的拼音集合覆盖所有拼音呢。以sheng3为例,根据汉语词典 https://www.kangxizidian.com.cn/pinyin/sheng.html ,sheng3中只有”省“这个多音字是比较常见的字,其余均是生僻字,如果语料中没有足够的生僻字,那sheng3这个发音其实很难被覆盖。
能控制英文读音吗?
能控制英文读音吗?
英文部分不支持用音素控制