V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
爱意满满的作品展示区。
murongxdb
V2EX  ›  分享创造

做了一个 Skill:让 AI 真正操作电脑(看屏幕->找元素->等待->点击/输入)

  •  
  •   murongxdb · 2 月 27 日 · 1084 次点击

    让 AI 真正去“操作电脑”,而不是只给你步骤建议。

    这个 Skill 现在已经能跑完整闭环:

    截图 -> 解析 UI 元素 -> find/wait 定位目标 -> click/type/hotkey 执行 -> 再截图继续

    它提供的能力:

    • UI 截图解析(元素类型、文字、坐标、可点击状态)
    • find:按 type/文本/正则找元素
    • wait:等元素出现/消失再执行
    • click / click-xy / type / key / hotkey / screenshot
    • calibrate:多屏、DPI 、窗口偏移坐标校准

    这个 Skill 可以直接安装到 OpenClaw ,让 OpenClaw 的 agent 调用它来控制电脑执行任务。

    边界也说清楚:

    • 需要 GUI 会话时,才可真实点击/输入/截图
    • 无 GUI ( headless )下,可做解析、find/wait/calibrate ,但不能真实操作桌面

    https://github.com/murongg/ui-element-ops

    2 条回复    2026-02-28 19:00:36 +08:00
    kevan
        1
    kevan  
       2 月 28 日
    成熟的解决方案: https://midscenejs.com/zh/skills.html
    murongxdb
        2
    murongxdb  
    OP
       2 月 28 日
    @kevan 挺好
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   2847 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 26ms · UTC 15:40 · PVG 23:40 · LAX 08:40 · JFK 11:40
    ♥ Do have faith in what you're doing.