各位用哪家的 TTS 引擎，有没有可以根据语气情感进行发声的

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

• 请不要在回答技术问题时复制粘贴 AI 生成的内容

这是一个创建于 911 天前的主题，其中的信息可能已经有所发展或是发生改变。

文字转语音，现在有很多厂都有相关 SDK/API 可以使用，但很多都像机器人一样没有感情的在念。想了解下有没有真正基于 NLP 技术的，带情感语气的。

比如，下面 2 行文本：

1. 她脸色大变，生气地说：“给我滚出去”。
2. 他轻声地说：“嘘，我们从后门偷偷溜进去”。

那么，TTS 在朗读第 1 句的时候，应该是语气比较重，比较大声急促。而朗读第 2 句的时候，应该是比较轻声，轻缓的。这样长时间听下来，用户也就不会犯困了。

语气

TTS

轻声

在念

26 条回复 • 2022-07-23 23:04:46 +08:00

Itoktsnhc

2022-07-22 09:43:20 +08:00

https://azure.microsoft.com/en-us/services/cognitive-services/text-to-speech/#features

fengfuliu

2022-07-22 09:44:20 +08:00

https://azure.microsoft.com/zh-cn/services/cognitive-services/text-to-speech/
第一个说话风格选择 angry

xieyqxie

2022-07-22 09:44:58 +08:00

没那么先进吧，hhhh

lonewolfakela

2022-07-22 09:46:42 +08:00

只说这两句话的话，我感觉微软的“云枫（预览）”语音的效果比较好……

Itoktsnhc

2022-07-22 09:47:47 +08:00

@Itoktsnhc 如果需要特别好的效果还是得手调，除非基于 NLP 在加上情感分析

James369

2022-07-22 09:51:03 +08:00

@Itoktsnhc 恩，就是有情感自动分析

James369

2022-07-22 09:51:20 +08:00

@fengfuliu 这个风格不错，不知道能不能自动识别

ajt2520

2022-07-22 09:55:10 +08:00 via Android

微软的 TTS 引擎还是不错的

Belmode

2022-07-22 10:01:26 +08:00

1 、微软 Speach Stdio TTS 支持 http 和 SDK
2 、讯飞语音配音制作 TTS 支持 http
3 、小爱语音 TTS 支持 http 和 SDK

James369

2022-07-22 10:03:17 +08:00

@lonewolfakela 没找到这个“云枫”引擎，是 Edge 上用的那个吗

Belmode

2022-07-22 10:19:44 +08:00

或者手写 SSML 其实也可以的。

p2pCoder

2022-07-22 10:32:12 +08:00

国内外大厂的内容创作部门，这一方面做的比较多，而且有刚需场景
不过是没有对外商用的

raycool

2022-07-22 10:53:21 +08:00

这种应该是根据 SSML 来进行调整的，NLP 情感分析后生成 SSML

geekvcn

2022-07-22 10:53:26 +08:00 via Android

微软 TTS 效果最好，你 edge 选中你的文字朗读就能体验了

byzf

2022-07-22 14:08:26 +08:00

意思是以后机器人小姐姐就能用甜甜的声音给我推销贷款了。

lingo

2022-07-22 15:59:28 +08:00

<speak
xmlns="http://www.w3.org/2001/10/synthesis"
xmlns:mstts="http://www.w3.org/2001/mstts"
xmlns:emo="http://www.w3.org/2009/10/emotionml"
version="1.0"
xml:lang="en-US"
>

<voice name="zh-CN-XiaoxiaoNeural">
<prosody rate="0%" pitch="7%">
雪姨不停地敲门
<mstts:express-as style="angry">
“出来！给我滚出来！你有本事找女人，你有本事开门-呀！”。
</mstts:express-as>
</prosody>
</voice>
</speak>

以上复制到一楼的微软 TTS 里 SSML 输入框

James369

2022-07-22 16:42:11 +08:00

@byzf 坏人，不过这不是我做的东西，我做的是书籍朗读