https://github.com/libi/ko-browser
利用 chrome 浏览器的辅助模式在快照阶段使用 axtree 构建一个纯文本的节点树,每个元素有一个唯一 ID. Agent 操作都基于纯数字的 id(例如填写输入框 kbr fill 4 xxx),所以非常节省 Token.
节点数结构示例:
Page: "Google"
1: link "Gmail"
2: link "Images"
3: link "Maps"
4: textbox "Search" focused
5: button "Google Search"
6: list
7: listitem
8: link "About Google"
9: listitem
10: link "Advertising"
11: heading "Trending"
12: link "Breaking news: Major tech announcement"
13: img "Google Logo"
欢迎大家试用哈, 使用 golang 的 chromedp 封装实现的.目前已经覆盖了 90%以上的常用指令.
本地有 go 环境的话 go install github.com/libi/ko-browser/cmd/[email protected] 就安装好了. 使用 kbr 指令即可.
没有 go 环境,就直接去 github 的 release 页面下载编译好的二进制包,全平台支持.
我目前尽可能完善了大部分的指令和参数的单元测试,跑了一些自己内部的 jenkins 界面操作都能跑通.更多更细致的场景还没有覆盖到,欢迎大家提交问题反馈哈.
1
yaidev 12 小时 48 分钟前 via iPhone
mark 思路很有趣
|
2
wfhtqp 11 小时 47 分钟前
怎么解决?
``` Page: "请稍候…" 1: main 2: Iframe "包含 Cloudflare 安全质询的小组件" ``` |
4
miwuyouth 3 小时 25 分钟前
无障碍模式吗,browser-use 也支持
|