1
在Demo的最后有一段Controllability: Emotionally Expressive Speech Generation的示例,但我在test script中使用prompt audio推理“听着暴风雨在窗外咆哮,小丽蜷缩在床上,害怕得连呼吸都不敢太大声。”这一句话并没有得到像Demo中一样情感充沛的语音。 请问像Demo中那样的情感表述应当如何复现?是否需要向模型传入特定的情感标签或者传入符合该情感的prompt audio?