最初是因为cosyvoice2会把日文汉字读成中文汉字发音,所以我尝试把所有日文汉字kanji转成假名kana。
但我发现在结果音频的开头或者结尾(前半段是正常的tts结果,后半段变成了空白音频或者噪音)经常会出现大段长噪音或者空白片段现象,而且这个现象比较频繁。
基本上如果kana情况下不出现长噪音,那么kanji情况下也不会出现。
以下是两个例子:
clip_sales5_output_kana.wav
clip_sales5_output.wav
clip_sales5.wav
clip_sister_output_kana.wav
clip_sister_output.wav
clip_sister.wav