背景

最近我在学习 AI 编程，尝试做出好用产品。现在使用 AI 在开发可以很大提升开发效率，产品是可以很快开发出来，但瓶颈就卡在了怎么宣传运营推广上，我想把这快也做自动化，比如让 AI 自动写 seo 文章发表，自动收集评论回复等等。然后我发现当前那些夸的很强大的所谓通用 agent 或 AI 浏览器或浏览器 agent 几乎没一个能用的。其次的方案，要么自己写自动化，但是也很麻烦，我要去针对网站写各种类似爬虫代码，还有打通 AI 大模型。于是我选择了自己开发，主要是快 2026 年，竟然还没有一个真正好用能用的浏览器 agent ，这激发了我的创作动力。我的诉求很简单，这个框架要能：

支持我的日常的周期性的固定任务
消耗 token 少
成功率要高
效率也要高

我的定位不是高大上酷炫却没啥用的通用 agent ，而是真正能让人人用得起且能高效处理问题的垂直专用框架。

实现

说到实现，先回顾下现在传统的绝大多数 agent 的方案，比如 browseruse 等等。浏览器 Agent 的难点就在于怎么把自然语言转化为能执行的具体浏览操作（点击，输入，滚动等等）。这些传统 agent 框架给出的方案就是：

视觉识别+dom 解析，把上下文（经过压缩的对话总结）丢给大模型，让他给出下一步的操作
执行具体操作
等待浏览器渲染
重复 1 ，直到大模型认为任务已完成

这个方案有什么问题呢？

复杂的上下文造成 token 的累积，导致消耗多与费用贵
长上下文还很考验 context 工程，很容易导致任务失败，成功率降低

上面这两点已经非常致命，直接导致这个方案其实看着很好很通用，实际上用不了，因为他过于依赖大模型和算力。对于我这种场景更加是不能胜任。

而 browserwing 采用的方案呢。是我们不再寻求通用方案，而是退而求其次先录制浏览器行为交给大模型调度，相当于大模型不再需要去通过复杂的上下文判断我该点击什么元素或在哪里输入元素，而是我直接告诉他执行 A 脚本就是点击这里并输入。大模型不关心背后这个任务是做了什么，他只需要在上层进行调度。调度的动作没有特别复杂的上下文，但是输入输出会带上上下文，这个是一个优化点，也是类似 claude skills 在解决的问题，browserwing 也会跟进。

你可以理解为这样的一个执行流程：

我告诉大模型，我要根据发一篇帖子到 V2EX ，并回复这个帖子下面用户的评论
大模型会调用我们提前录制好的发帖子任务，输入对应的参数，即可发帖
大模型监听拿到帖子下的评论，确定哪条评论需要回复
大模型调用我们录制好的回复帖子任务，进行帖子的回复

直到这里，具体任务的完成都是没有问题的，但核心是什么呢，就是怎么去录制行为。browswerwing 采用了可视化+AI 辅助录制的方式，你可以打开网页后点开始录制，然后正常执行你的操作，然后结束即可。遇到复杂的表单或者想要转结构化的内容，可以使用 AI 自动识别生成可复用代码，完全不需要你写一行代码。

但是你仍然觉得录制是可以需要人工的操作，很麻烦呀。其实，随着这个平台用的人越来越多，脚本越来越多，很多共用脚本你是完全不需要你写的，因为本身就可以复用。比如上面提到的 v 站发帖回复的脚本。你只要订阅导入即可。除非你的特定的平台特定的场景，那么需要你去进行录制。