V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
爱意满满的作品展示区。
LuliYanng
V2EX  ›  分享创造

自己做了一个低延迟 Voice Agent,不依赖框架实现极低延迟

  •  1
     
  •   LuliYanng · 19 小时 4 分钟前 · 635 次点击
    最近在折腾 voice agent ,之前用 LiveKit 框架做过几个项目,这次想试试纯 API 调用从零搭建,看看到底能做到什么程度。

    做出来发现效果还不错:纯文本对话延迟,如果使用 gemini 2.5 flash lite ~500ms,即使是 2.5 flash 或者 3 flash ,也可以控制在 700ms 。带联网搜索或图片分析也能控制在 1000~1500s 。服务全部部署在美国,因此考虑到跨洋的网络延迟,实际上的表现应该可以更好。顺便做了个动态岛 UI 包装了一下。

    附个使用演示视频:




    之所以做这个,也是对语音这个模态比较看好,故自己搓了一个不依赖框架的实现。如果大家有什么好想法,也欢迎讨论😋

    P.S 话说是自己“手搓”,但实际上大部分时候也是 AI 完成,只不过是类似于“同学”一般,相互指引跟学习,那既然大部分的代码都是 AI 实现的(虽然这一过程相比于单纯用框架而言学习到了很多),但这种方式还能叫“手搓”吗?
    10 条回复    2026-02-19 10:30:21 +08:00
    wuhen8
        1
    wuhen8  
       18 小时 28 分钟前
    开源吗,能不能自己部署
    LuliYanng
        2
    LuliYanng  
    OP
       18 小时 22 分钟前
    @wuhen8 确实有打算开源
    mooncakeSec
        3
    mooncakeSec  
       17 小时 6 分钟前
    怎么做的优化呢,判断用户语音输入结束和打断,是 gemini 提供的吗
    lonccc
        4
    lonccc  
       16 小时 55 分钟前
    为什么要不依赖框架做呢,和 livekit 比有什么不同或者优势?
    LuliYanng
        5
    LuliYanng  
    OP
       16 小时 34 分钟前
    @mooncakeSec 不是 gemini 仅仅作为 llm ,判断输入结束和打断是客户端的 vad 和 turn detection 来处理,不过这一块做得还不是特别好
    LuliYanng
        6
    LuliYanng  
    OP
       16 小时 30 分钟前
    @lonccc 出发点当然是纯粹为了学习😁,跟 livekit 这种成熟产品比不敢说能有什么优势,毕竟也不是奔着做一个 livekit 竞品去的。能够了解基本的实现,也有帮助认清现在形形色色的 AI 产品新闻,不至于天天被营销号带节奏。本来是打算先自己不借助框架实现一个 agent 的,刚好朋友推了 typeless 给我,我就先做这个了。
    WasteNya
        7
    WasteNya  
       16 小时 7 分钟前 via Android
    一个月的 token 费用需要多少钱,特别是 4k 屏幕吗话?
    LuliYanng
        8
    LuliYanng  
    OP
       15 小时 59 分钟前
    @WasteNya token 不好估算,目前刚做了几天,用的也不多。但用的供应商也不便宜就是了,如果有兴趣,我把客户端开发好给大家用用,有一定的数据我才能预估 token 用量。至于你说的 4k 屏幕,这用量跟屏幕似乎没啥关系😅
    uid106
        9
    uid106  
       15 小时 38 分钟前 via iPhone
    挺好的,感觉语音很自然,有自定义音色和性格的选择就更好了
    LuliYanng
        10
    LuliYanng  
    OP
       5 小时 23 分钟前
    @uid106 这自然是可以的,这个用的是 cartesia 的音色,都是可以随便换的。本来是想上 minimax 的中文音色的,测了一下延迟,因为服务器跟其他 ai 服务都在美国,延迟偏高就暂时没用了。
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   1755 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 21ms · UTC 07:54 · PVG 15:54 · LAX 23:54 · JFK 02:54
    ♥ Do have faith in what you're doing.