V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
• 请不要在回答技术问题时复制粘贴 AI 生成的内容
nuII
V2EX  ›  程序员

赛博斗蛐蛐, AI 模型的简单对比(白嫖版)

  •  
  •   nuII · 15 小时 12 分钟前 · 682 次点击
    目前对于各 AI 应用的需求没有太深入,只是当作日常生活自动化的补充,更像是个人助手,并且 Gemini 3 flash preview 和 Grok 足够用,所以也没到订阅的程度,就一直在免费的几家里面来回切换,之前还一直用 Grok ,但是晚上用老是提示繁忙,就换成 Gemini 了。

    平时的需求也不复杂,没有长的上下文,正好这次遇到了脚本相关的任务和规划类任务,就在几个 AI 产品里都跑了下。实际结果也挺符合直觉的,以下是结果名次,没错就 1 个,其他的都拉完了。

    ## Google Gemini 3.1 Falsh lite
    ### 脚本任务

    > 背景是误删的移动硬盘数据,通过工具恢复出来了,但是一些文件有移动或者删除过,可能存在重复恢复,并且一些数据的 meta data 丢失,所以都是时间戳和设备命名的散乱、重复文件,需要简单的从文件名上初步区分出来,比如 example.jpg 和 example_1.jpg ,可能有 1 个以上的重复项,但最多不超过 9 个,所以是非常简单了。逻辑处理也不复杂,bash 本身就足够解决。

    **- 提示词**



    **- 生成脚本:扫描重复项**



    **- 生成脚本 2:扫描并总结为 csv**

    > 生成的很好,完全符合需求



    ### 识别、搜索和总结归纳任务

    > 背景是网上其他人整理的万豪飞猪闪促叠加 Q1 活动后,各个酒店的折算成本归类,截图表格里的数据非常详细,包括酒店名、所在省份、预估折算成本等,需要让 AI 先识别截图中的内容,然后找到指定价格范围内预估折算成本相符的酒店,并按地理位置分类,从西安开车出发去上海,筛选有哪些城市有符合条件的万豪酒店。同时城市之间的单程行车距离不超过 400km ,对应下来是 4-5 小时路程。这个其实很复杂,所以没有一个免费工具能跑出来,从 OCR 识别这里就开始出现幻觉了,越到后面幻觉越多,最终的结果就是纯编,Gemini 也一样。

    **- 思考过程**

    > 识别的还不错,酒店名和对应字段的折算成本价格部分能对应上,但有内容范围限制,并且在识别阶段就出现了幻觉,比如苏州尼伊格罗明显是 GHA 的,不是万豪,关键表格里也没有这个酒店,不知道是识别错了后找了个最相近的,还是没识别出来瞎写的。



    **- 输出结果**

    > 无中生有,商丘没有万枫。。。



    ### 技术知识和操作修改

    > Arch Linux + Hyprland ,4K 120hz 的 16 寸笔记本 200%缩放桌面环境下运行 4.0 版的微信 AppImage ,缩放异常,让 AI 识别并修复。还不错,正确的回答出了微信 Linux 4.0 版的技术栈,并且没有被我的提示词里猜测是 Eletron 系 App 而给出的修复参数给误导,给出了正确的缩放修复操作。

    **输出结果**



    ## MiniMax 网页版
    ### 脚本任务
    **- 脚本提示词**



    **- 思考过程**



    **- 脚本扫描结果**

    > 一次输出就能正常运行并且结果符合预期,代码和输出风格有点像 Gemini 。但是第二次总结 csv 的脚本就不行了,生成的 csv 奇奇怪怪,要么少数据要么 head 不对。



    ### 识别、搜索和总结归纳任务

    **- 思考过程**

    > 不知道这些思考的数据从哪来的,思考的逻辑也很乱。已经给出限定条件是从西安到上海,北京、广东和海南地区不应该直接排除了吗



    **- OCR 识别**

    > 幻觉和胡编乱造



    **- 思考时长**

    > 其他几个都写完了,它还在思考



    **- 思考结果**

    > 直接从西安到合肥,提示词里给的驾驶时间限制和两地距离限制完全给忽略了



    **- 结论**

    > 不知道它是不是故意的,西安到合肥的 7-9 小时路程被直接忽略了,只把剩下短的路程时间给写出来了,而这些恰好符合提示词里的限制,这就是 AI 的小把戏吗?思考了这么久,耗时最长,但是就给出这个结果,还是差了很多的,结果也不是纯幻觉,只是故意隐藏了不符合的内容来试图蒙混过关。虽然不合格,但是比较接近了。



    ## Deepseek 网页版
    ### 脚本任务
    **脚本报错**

    > 没招了,脚本改了好几次,就没一次能跑下来的,我也给了当前的环境和版本号信息,就是改不对,这不是什么困难的东西,甚至是搜一搜就能得到的结果。



    ### 技术知识和操作修改
    **输出结果**

    > 微信技术栈就答错了,不知道是不是被我提示词里关于 Eletron 系应用的修复方式给误导了,不及格。



    ## Qwen3-Coder
    ### 脚本任务
    **- 提示词**

    > 提示词都是一样的



    **- 脚本报错**



    **- 脚本报错:1**

    > 情绪价值给的很足。前面已经改了很多版了,真的非常无语,报错的地方比 Deepseek 还低级,实习生水平。



    **- 脚本报错:2**

    > 难绷,回复了报错和环境版本后,它的每个回复后面都会加上"已在 xx 系统下测试通过"。。。。???从哪学来的呢,好难猜啊

    5 条回复    2026-04-23 10:50:55 +08:00
    LinusLiu
        1
    LinusLiu  
       11 小时 4 分钟前
    如果还有问题,我将不再提供修改。
    DeepSeek 目前感觉还是 R1 好用些(当然能不用就不用
    andlp
        2
    andlp  
       4 小时 7 分钟前
    你这使用不是偏向于 codeing 技术啊
    这都是免费版的吧 免费版的效果不好,不如付费的 试试 GLM5 之类的 minimax 2.7 就是最新的
    ColoThor
        3
    ColoThor  
       3 小时 42 分钟前
    第一个提示词写的比我 6
    nuII
        4
    nuII  
    OP
       3 小时 23 分钟前
    @LinusLiu 气死我了这破 AI
    nuII
        5
    nuII  
    OP
       3 小时 21 分钟前
    @andlp 横向对比的也是免费的,gemini 能解决,这不是免费和收费的问题哦
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   5726 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 50ms · UTC 06:12 · PVG 14:12 · LAX 23:12 · JFK 02:12
    ♥ Do have faith in what you're doing.