最近一直在关注 AI Agent 操控电脑的方向,Anthropic 的 Computer Use 确实很惊艳,但在实际使用中发现:单纯依赖“截图+坐标点击”的视觉推断模式,在 macOS 上不仅慢,而且经常点不准,对 Token 的消耗也非常大。
于是,我开发了一个更符合“原生直觉”的工具,并且开源出来:https://github.com/qdore/application-use
💡 它是什么?
application-use 是一个高性能的 macOS 应用程序自动化命令行工具。它没有走全视觉推断的老路,而是直接构建在 macOS 原生 Accessibility API 和 Apple Vision 框架 之上。
简单来说,它是为了让 LLM / AI Agent 能够像“老司机”一样精准操控 macOS 软件而设计的。
🚀 核心优势:
原生级性能:基于 Go + Swift 构建,直接调用 AXUIElement 。获取 UI 结构是毫秒级的,点击和输入也是系统原生的,告别等待截图和视觉推断的延迟。 文本化理解( Textual Understanding ):它会把复杂的窗口 UI 转换为带有 Alphabet Hints (类似 Vimium 的 JK, AA 标签)的结构化文本。AI 不需要猜坐标,只需告诉工具“点击 JK”即可。 Vision 强力辅助:对于那些 Accessibility 支持不好的 App ,它会自动调用 Apple Vision OCR 进行补全,确保没有死角。 AI Agent 友好:完美的 Snapshot -> Interact 闭环。哪怕是坐标偏移或窗口位移,基于 Hint 的操作逻辑依然能保持 100% 的准确率。
🛠️ 怎么用?
安装非常简单:
npm install -g application-use@latest
核心命令演示:
# 搜索并打开 Safari
application-use search "safari"
application-use open --appName "Safari"
# 获取窗口快照( AI 友好的结构化文本 + 操作标签)
application-use snapshot --appName "Safari"
# 根据标签点击(比如标签是 JK )
application-use click JK --appName "Safari"
# 发送组合键
application-use sendkey cmd+t --appName "Safari"
AI Coding Assistant 配合: 如果你在用类似 Antigravity/OpenClaw/Claude Code 等的 AI 助手,可以直接运行 npx skills add qdore/application-use 获取更好的上下文。
目前这个工具还处在快速迭代阶段,欢迎感兴趣的同学试用、提 issue 或者讨论更高效的 Agent 交互模式!