V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
• 请不要在回答技术问题时复制粘贴 AI 生成的内容
ffw5b7
V2EX  ›  程序员

ai 变声-思考

  •  
  •   ffw5b7 · 1 天前 · 1019 次点击
    最近看了这个帖子 https://www.v2ex.com/t/1182067#reply243 链接,让我对 AI 变声有一些思考。

    其实,变声的核心在于音色的数据集。换句话说,如果想“模拟”一个人的声音,需要收集到特定条件的数据:
    同一个人的语音
    说话清晰,口齿分明
    时长充足,通常 20–60 分钟以上


    可能的采集场景:
    视频博主:上传的视频或直播语音被用于训练 AI 模型
    恶意行为者:多次语音沟通,甚至利用通讯录信息,模拟你的声音向家人进行诈骗
    4 条回复    2026-01-14 20:32:18 +08:00
    ffw5b7
        1
    ffw5b7  
    OP
       1 天前
    cmos
        2
    cmos  
       1 天前   ❤️ 1
    1. 思而不学则殆,Voice Conversion 已经是个很成熟的技术了
    2. 核心是声学特征,不是数据集,比如梅尔频谱、F0 、频谱包络等。
    3. 不用那么长时间,Zero-shot 可以做到 10 秒了。就算是追求高真实度,也是更加注重精细声学、声码器,以及解耦和扩散模型上。
    4. 你说的采集场景和应用场景已经被玩烂了,so-vits-svc 就是因为涉及到法律问题才主动 archived 的。
    FlashEcho
        3
    FlashEcho  
       1 天前
    不知道 Voice Conversion 是不是比 TTS 的要求低一点,我在 2025 年看几个比较火的 TTS 模型要微调出特定音色,都建议数据集至少有几十分钟。说实话看见 few-shot 很难不认为是水论文特定创造出的小众赛道,真的用起来肯定是数据多一点好
    cmos
        4
    cmos  
       1 天前   ❤️ 1
    @FlashEcho 3#
    Voice Conversion 需要和训练数据/预期场景匹配,所以时间都比较短; TTS 有几十分钟级的( MS azure TTS ,严格学习获得一个独立的模型),也有秒级的( indexTTS2 ,获取音色向量)。
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   5346 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 32ms · UTC 07:01 · PVG 15:01 · LAX 23:01 · JFK 02:01
    ♥ Do have faith in what you're doing.