V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
• 请不要在回答技术问题时复制粘贴 AI 生成的内容
libii
V2EX  ›  程序员

搞了一个比 agent browser 更省 token,不依赖 Node/Playwright 的 Agent 浏览器...

  •  
  •   libii · 13 小时 45 分钟前 · 494 次点击

    地址

    https://github.com/libi/ko-browser

    原理

    利用 chrome 浏览器的辅助模式在快照阶段使用 axtree 构建一个纯文本的节点树,每个元素有一个唯一 ID. Agent 操作都基于纯数字的 id(例如填写输入框 kbr fill 4 xxx),所以非常节省 Token.

    节点数结构示例:

    Page: "Google"
    
    1: link "Gmail"
    2: link "Images"
    3: link "Maps"
    4: textbox "Search" focused
    5: button "Google Search"
    6: list
      7: listitem
        8: link "About Google"
      9: listitem
        10: link "Advertising"
    11: heading "Trending"
    12: link "Breaking news: Major tech announcement"
    13: img "Google Logo"
    
    

    安装使用说明

    欢迎大家试用哈, 使用 golang 的 chromedp 封装实现的.目前已经覆盖了 90%以上的常用指令.

    本地有 go 环境的话 go install github.com/libi/ko-browser/cmd/[email protected] 就安装好了. 使用 kbr 指令即可.

    没有 go 环境,就直接去 github 的 release 页面下载编译好的二进制包,全平台支持.

    项目状态:

    我目前尽可能完善了大部分的指令和参数的单元测试,跑了一些自己内部的 jenkins 界面操作都能跑通.更多更细致的场景还没有覆盖到,欢迎大家提交问题反馈哈.

    4 条回复    2026-04-03 02:24:17 +08:00
    yaidev
        1
    yaidev  
       12 小时 48 分钟前 via iPhone
    mark 思路很有趣
    wfhtqp
        2
    wfhtqp  
       11 小时 47 分钟前
    怎么解决?
    ```
    Page: "请稍候…"

    1: main
    2: Iframe "包含 Cloudflare 安全质询的小组件"
    ```
    libii
        3
    libii  
    OP
       11 小时 17 分钟前
    @wfhtqp 使用 可见界面 模式哈, 给 ai 说不要使用无头模式. 这个问题是无头模式被 cf 拦截请求了.
    miwuyouth
        4
    miwuyouth  
       3 小时 25 分钟前
    无障碍模式吗,browser-use 也支持
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   894 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 29ms · UTC 21:49 · PVG 05:49 · LAX 14:49 · JFK 17:49
    ♥ Do have faith in what you're doing.