V2EX = way to explore
V2EX 是一个关于分享和探索的地方
Sign Up Now
For Existing Member  Sign In
cairnechen
V2EX  ›  问与答

opus 的视觉能力是不是不如 gpt5.4?

  •  
  •   cairnechen · Mar 27 · 1480 views
    This topic created in 33 days ago, the information mentioned may be changed or developed.
    写一个 skill 的时候发现的, workflow 里有一个步骤需要模型读取图片内容然后通过目视判断 UI 元素的位置,估算坐标,定位目标区域(可以迭代式地调整目标范围) GPT5.4 完成起来毫不费力,opus 坐标漂移的程度很夸张(大量目视判断后重试),问了下,claude 说自己看到的不是全图,而是看到渲染到会话的缩略图,比如一个 2000 宽度的图片,他实际看到的是 600 像素,这么变态的吗?
    7 replies    2026-03-28 23:28:53 +08:00
    liulicaixiao
        1
    liulicaixiao  
       Mar 27
    分辨率问题,需要自己提前调整图片。
    liu731
        2
    liu731  
    PRO
       Mar 27
    视觉这块还得 Gemini
    cairnechen
        3
    cairnechen  
    OP
       Mar 27
    @liulicaixiao 要怎么调整,我刚才发现一个更奇葩的情况,让 cladue 知道图片的尺寸,它的处理能力就提升很多(准确性提高),是的,只要它知道图片尺寸其他什么都不用干就能提升处理能力。。。 奇怪的是,claude code 明明有 file 工具可以拿到图片信息,但是它自己不会主动用。。。
    sillydaddy
        4
    sillydaddy  
       Mar 27
    其实 benchmark 分数可以证明,不过我还是喜欢这个帖子里的视觉测试:
    /t/1192001

    当时我测试了只有 codex 5.3 extra high 能解决。不知道最新的 5.4 能不能解决,起码 Opus 4.6 是不行的。
    VeryZero
        5
    VeryZero  
       Mar 28
    要先确认是缩放导致的位置不对还是 opus 认错了。

    大概率是缩放导致的,这样的话等比例算回来就行了。千问的视觉模型也有这毛病,1920 的图片,它实际处理的时候缩放成了 1000 ,导致返回的位置是有偏移的
    cairnechen
        6
    cairnechen  
    OP
       Mar 28
    @VeryZero 嗯,看了文档,claude 缩放的门槛是 1580px 或者 1.15M 像素或者~1600 token ,超过了就缩放,我那张图肯定触发了,为什么我告诉它实际图片尺寸之后它准确性提高了,是因为它开始用比例方式换算坐标了
    idragonet
        7
    idragonet  
       Mar 28
    视觉绝对 Gemini 第一!
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   3249 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 39ms · UTC 13:12 · PVG 21:12 · LAX 06:12 · JFK 09:12
    ♥ Do have faith in what you're doing.