2
在infer.py的以下位置进行修改: wavs.append(wav.cpu()) # to cpu before saving
在每个句子后添加0.3秒静音(采样率24000,所以0.3秒=7200个采样点) silence = torch.zeros((1, 7200), dtype=torch.int16)
wavs.append(silence)
end_time = time.perf_counter()
# 拼接时跳过最后一个静音(避免音频末尾有多余静音)
wav = torch.cat(wavs[:-1], dim=1) if len(wavs) > 1 else wavs[0]