V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
爱意满满的作品展示区。
teaguexiao
V2EX  ›  分享创造

做 AI Agent 的时候发现:说得越多, Agent 越强

  •  
  •   teaguexiao · 1 天前 · 740 次点击
    最近在做一个语音驱动的 Agent 项目,遇到一个很头疼的问题:
    用户说一段话,STT 转出来的文字全是口水词、重复、半句话。直接丢给 LLM 当 prompt ,效果很差——模型不是不聪明,是输入质量太低。

    但你用 agent 多了会发现,你给 agent 的上下文越多(特别在 Vibe Coding 场景),模型给出的效果越好。而语言输入又比文字输入的效率高 5 倍左右。

    试过自己加一层 LLM 做后处理,能用,但延迟加了 1-2 秒,而且 prompt 调来调去很烦。

    然后我就自己做了一个 ASR+LLM 的 benchmark 平台, 最后选出了最合适的模型。做了一个类似 typeless 的产品,但这个产品不 2C ,更多的是 2D/2B 。

    所以干脆把这层做成了一个独立的 API 服务:Sayd ( sayd.dev )。核心产品叫 Talk API ,语音进去,直接出 agent-ready 的干净文本。不是单纯的 STT ,而是在转录的同时做了去噪、去口癖、保留意图。

    目前跑下来几个数据:
    延迟 < 200ms 首字节
    支持 60+ 语言,中英混说自动识别
    注册送免费额度( 5 美金),不用绑卡,相当于 40 小时连续对话,日常的话估计可以用个把月了


    如果你也在做 AI 硬件、语音助手、Agent 这些方向,欢迎试试,也欢迎提需求和反馈。


    链接: https://sayd.dev
    kakuxwn
        1
    kakuxwn  
       1 天前
    一开始以为语音转文字 API 的产品,去看了一下才知道是针对口喷 vibe coding 的语音转文字,并且去除口水词这些优化文字给到 AI 的产品
    clemente
        2
    clemente  
       1 天前   ❤️ 1
    其实是 说的越少 信息含量越高 对问题建模越精确同时字越少 越好
    xyholic
        3
    xyholic  
       1 天前
    这个确实有需求
    teaguexiao
        4
    teaguexiao  
    OP
       22 小时 35 分钟前 via iPhone
    @kakuxwn 对的对的,语音转文字加清洗,特别适合给 agent 口喷需求
    teaguexiao
        5
    teaguexiao  
    OP
       22 小时 35 分钟前 via iPhone
    @xyholic 嗯嗯你目前有用什么产品吗
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   3192 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 24ms · UTC 14:14 · PVG 22:14 · LAX 07:14 · JFK 10:14
    ♥ Do have faith in what you're doing.