做有声读物时， AI TTS 的情绪和口音控制是不是一直很难？

This topic created in 111 days ago, the information mentioned may be changed or developed.

最近在折腾把一些偏故事、叙述类的长文本做成有声读物，用途主要是自己听，也可能之后给内容配音用。

一开始以为 TTS 已经挺成熟了，真正用下来才发现，想要“有情绪、有一点口音”的声音，其实挺难的。

主要遇到几个问题：

1.情绪大多只能在 prompt 里简单写，实际听起来变化很生硬

2.口音有时候不是“带点口音”，而是直接变成怪腔怪调

3.长文本生成时，前后语气经常不一致，听久了很出戏

4.分段生成虽然好控制，但整体连贯性又会受影响

期间也试过几种方案，本地模型和一些现成的在线 TTS 都折腾过。本地方案配置成本比较高，调参也挺花时间；在线的很多要么情绪选项很少，要么更适合短句，不太适合整段故事。

目前为了先把流程跑通，暂时用的是一个在线方案（ https://flowspeech.io/），至少在生成速度和情绪、口音的可控性上还算能接受，用来做有声读物的初版还行，但也谈不上完全满意。

想请教下大家：

1.如果是做偏长文本的有声读物，一般是怎么解决情绪一致性的问题的？

2.情绪 / 口音这种需求，是不是本来就不太适合现在的 TTS ？

欢迎分享踩坑经验 🙏

No Comments Yet

情绪口音文本