[index-tts]数字和字母结合的朗读问题。

2025-10-30 571 views
2

我偶然发现,数字和字母的结合似乎还有小BUG。 如果数字在前,比如“2H”,完全可以正确的读出来。 但如果数字在后,比如“H2”,后面的数字就无法识别了。 我自己尝试的句子是这样的: “我发现啊 ,2H的铅笔似乎比H23的铅笔更硬。”

origin text:我发现啊 ,2H的铅笔似乎比H23的铅笔更硬。 normalized text:我发现啊 ,二h的铅笔似乎比h2十三的铅笔更硬. cond_mel shape: torch.Size([1, 100, 1111]) ['我发现啊 ,二h的铅笔似乎比h2十三的铅笔更硬.'] 我发现啊 ,二h的铅笔似乎比h2十三的铅笔更硬. 我 发 现 啊 , 二 H 的 铅 笔 似 乎 比 H2 十 三 的 铅 笔 更 硬 . tensor([[10201, 2044, 10201, 642, 10201, 3622, 10201, 868, 10202, 10201, 83, 10201, 10499, 10201, 3880, 10201, 6221, 10201, 4256, 10201, 187, 10201, 57, 10201, 2923, 10201, 10499, 2, 10201, 570, 10201, 12, 10201, 3880, 10201, 6221, 10201, 4256, 10201, 2537, 10201, 4054, 10203]], device='cuda:0', dtype=torch.int32) text_tokens shape: torch.Size([1, 43]) ['▁', '我', '▁', '发', '▁', '现', '▁', '啊', '▁,', '▁', '二', '▁', 'H', '▁', '的', '▁', '铅', '▁', '笔', '▁', '似', '▁', '乎', '▁', '比', '▁', 'H', '', '▁', '十', '▁', '三', '▁', '的', '▁', '铅', '▁', '笔', '▁', '更', '▁', '硬', '▁.'] tensor([43], device='cuda:0', dtype=torch.int32) tensor([[1554, 5596, 2816, 3644, 3771, 2096, 2842, 4449, 2179, 8183, 1101, 8059, 3465, 2151, 6541, 5151, 5198, 4635, 5110, 3718, 7616, 5084, 4301, 2367, 1335, 6506, 1505, 934, 7585, 3787, 2297, 5448, 1032, 5845, 2969, 3995, 4868, 3394, 6326, 4024, 4193, 8003, 6177, 1545, 7887, 3527, 7068, 3274, 4177, 4711, 7626, 3949, 2460, 4949, 7265, 3102, 5762, 4881, 2290, 7562, 3832, 7938, 854, 4543, 3476, 6280, 3951, 3349, 7263, 6297, 3713, 308, 3467, 7953, 1685, 7841, 685, 873, 156, 4538, 4902, 6918, 5057, 6276, 3804, 1249, 4698, 2188, 4621, 6103, 4276, 2991, 5747, 3543, 2745, 1853, 2566, 7545, 7952, 279, 4158, 7440, 7532, 2919, 6166, 3221, 697, 1587, 2942, 7110, 6373, 1721, 7478, 2582, 7739, 5698, 1508, 6927, 5184, 7397, 7059, 6500, 7554, 6160, 7335, 5822, 5175, 8116, 825, 1289, 7318, 691, 6034, 930, 2037, 6018, 456, 4001, 857, 2110, 8193]], device='cuda:0') codes shape: torch.Size([1, 141]) wav shape: torch.Size([1, 142336])

H23它会读成“H呲十三”

回答

7

不是模型的bug,是前端 normalized 没处理好,应该处理成:我发现啊 ,二h的铅笔似乎比h二十三的铅笔更硬. 先记上前端bug吧。

9

不是模型的bug,是前端 normalized 没处理好,应该处理成:我发现啊 ,二h的铅笔似乎比h二十三的铅笔更硬. 先记上前端bug吧。

嗯嗯。我是在试着让它读哔哩哔哩某个评论时发现的,里面提到了一些AI项目的版本号,“V几”这种,就没法读出来了。