[index-tts]关于拼音建模的一些疑问？

试了一下开放出来的模型，即使完全不使用文字，仅使用在词典中的拼音进行推理，也能将发音控制的不错。我有一些疑问：（1）训练过程中只会用非多音字的拼音替换文字，这样拼音覆盖度是否全面，是否会存在有的拼音出现频次很低，或者压根没有被模型见过？（2）如果将拼音拆解为声韵母，应该会缓解拼音覆盖度的问题，但不知道是否会影响性能，请问有做过这方面的尝试吗？

howitry

我们统计了训练数据是都覆盖的，数据量到数万小时，没有被训练到的概率基本为0了；
拆成声韵母韵律会受影响，我们之前也训过一版以声韵母作为phone的模型，整体稳定性不如字符输入建模的，wer会变差挺多。

index-tts

我们统计了训练数据是都覆盖的，数据量到数万小时，没有被训练到的概率基本为0了；

拆成声韵母韵律会受影响，我们之前也训过一版以声韵母作为phone的模型，整体稳定性不如字符输入建模的，wer会变差挺多。

我这边测试的时候，QIA3(卡)这个音没有出现在开放出的词典中，还想请问下大概训练了多少个epoch呢？
在把声韵母作为音素实验的时候，是纯音素作为输入，还是按照论文中的方式，以一定概率和汉字混合后进行BPE呢？

howitry

unigram_12000.vocab:9533 有QIA3 这个音的，训练4轮左右，数据量扩的更大后可以减少轮数；
以一定概率和字混合，和字一样作为独立的建模单元BPE建模；

index-tts

unigram_12000.vocab:9533 有QIA3 这个音的，训练4轮左右，数据量扩的更大后可以减少轮数；

以一定概率和字混合，和字一样作为独立的建模单元BPE建模；

不好意思。第一点记岔了，应该是没有QIA2（䠍）这个音。

howitry

是训练数据里面就没这种比较生僻发音的字了。后面扩数据会加上~~

index-tts

是训练数据里面就没这种比较生僻发音的字了。后面扩数据会加上~~

了解。我对于论文中提及”只会用非多音字的拼音替换文字“还是存在一些疑惑：（1）请问你们使用的多音字集合有多少个字呢？（2）判断某个字是否为”多音字“的标准是什么呢？是仅仅依靠汉语词典中某个字的发音个数吗？如果仅仅依靠某个字的发音个数来判别多音字，感觉很难用非多音字的拼音集合覆盖所有拼音呢。以sheng3为例，根据汉语词典 https://www.kangxizidian.com.cn/pinyin/sheng.html ，sheng3中只有”省“这个多音字是比较常见的字，其余均是生僻字，如果语料中没有足够的生僻字，那sheng3这个发音其实很难被覆盖。

howitry

能控制英文读音吗？

ysujiang

能控制英文读音吗？

英文部分不支持用音素控制

howitry

[index-tts]关于拼音建模的一些疑问？

回答