最近在尝试用龙虾去做一些浏览器上的工作,我的期望是替代我本人去做一些重复性的工作。
如果自己去写或者让 AI 执行流程中自己去完善 skill ,它基本是根据每一次的 snapshot 去分析要点击、滑动的操作,这样的话非常之慢,并且消耗比较大。
但是如果是去控制台查找元素树的 id 或 class 然后再交给 AI ,这样的话好像又不如直接写份 python 脚本去执行,让 openclaw 去调用 py 脚本?
1
locoz 3 天前 via Android
本质上是看你的重复性工作是否有那么多的变化,有没有必要加入“思考”的概念,或者会不会需要非常大量的操作。
|
2
licolicoli 3 天前
我也在探索,不过是把 claude-code, codex 这类 coding agent 当作通用 agent 来用。
如果每一次都让代理自己去探索、规划、操作太耗费 token 了(我实验一次就会吃掉一周 10% 的配额),所以现在我打算直接让 agent 帮我逆向 API ,能写成脚本的流程尽量写成脚本,然后在脚本里调用 agent 去做需要智力的部分。 举例来说,我会让 agent 逆向出登陆、获取任务列表和数据的接口,然后写一个脚本自动下载任务,并 OCR 任务中的图片内容(如果模型支持图片理解这一步可以去掉)。然后再在脚本中调用 agent 完成任务(主要是撰写文稿),输出到一个文件里。做完之后会在 IM 上通知我,然后人工检查它撰写的文稿(我害怕他写出那种“我还需要帮你撰写...”的内容),没问题的话就提交。 |
3
licolicoli 3 天前
其实这就类似于一个极简的工作流了,不过我没用过 dify, coze 等等框架,纯粹自己瞎摸索。
我觉得这种需要定期自动化的任务,对于通用 agent 应该有自己产生 skill 、总结工作流的能力,但是好像大家现在都不是很在乎(或者说模型能力还不太能做得到?)。不知道有没有通用 agent 是这个思路。 |
4
xJogger 3 天前 via Android
让 claw 写脚本之后让他设一个 crontab 去掉不就得了,之后加一个判断的流程,脚本好使就发给用户结果,不好使就改脚本到好使再发给用户。
|
5
yinanc 2 天前
在现在 token 还是太贵的条件下,想要自动化浏览器操作本质上和以前没有太大区别。除非你有无限顶级模型 token ,否则还是得回到写脚本( evaluate js 或 playwright ),逆向 api 的方法
|
6
wangrenming1985 2 天前
@yinanc 确实,现在最大的限制是 token ,太贵。还容易出现幻觉,一些骚操作,你的成本都控制不住
|