能否用 AI 来生成自己的视频和声音代替自己出镜/录视频？

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 232 天前的主题，其中的信息可能已经有所发展或是发生改变。

苦于作业太多，而且都是让自己录制非实时，每个 Presentation 作业都要半个小时，但其实重点是 Slides ，自己出镜就是读稿子
假设用自己的数据训练，能否训练出自己的声音+面容，让它帮我朗读，我只要自己写稿子就行了，然后把这段视频和 PPT 录制视频嵌在一起就好了
有哪些开源模型能实现。硬件应该不是问题。

2 条回复 • 2024-03-22 18:28:21 +08:00

zapper

232 天前

可以肯定是可以，只是光朗读又不是什么高难度动作，感觉有点多此一举

love060701

232 天前

1 、录制一段你的正面半身视频，可以有手势但不能挡脸，可以全程闭嘴不说话；

2 、使用 GPT-SoVITS 克隆声音（开源，但是有吞字的情况）；或者选火山、阿里云、微软的付费语音克隆；输入文字即可生成语音；

3 、使用 wav2lip ，把 1 的视频和 2 的语音合起来，同步嘴型； wav2lip 有很多改良版，需要挑选；

付费服务选 HeyGen ，全套解决。