赛博斗蛐蛐， AI 模型的简单对比(白嫖版)

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

• 请不要在回答技术问题时复制粘贴 AI 生成的内容

目前对于各 AI 应用的需求没有太深入，只是当作日常生活自动化的补充，更像是个人助手，并且 Gemini 3 flash preview 和 Grok 足够用，所以也没到订阅的程度，就一直在免费的几家里面来回切换，之前还一直用 Grok ，但是晚上用老是提示繁忙，就换成 Gemini 了。

平时的需求也不复杂，没有长的上下文，正好这次遇到了脚本相关的任务和规划类任务，就在几个 AI 产品里都跑了下。实际结果也挺符合直觉的，以下是结果名次，没错就 1 个，其他的都拉完了。

## Google Gemini 3.1 Falsh lite
### 脚本任务

> 背景是误删的移动硬盘数据，通过工具恢复出来了，但是一些文件有移动或者删除过，可能存在重复恢复，并且一些数据的 meta data 丢失，所以都是时间戳和设备命名的散乱、重复文件，需要简单的从文件名上初步区分出来，比如 example.jpg 和 example_1.jpg ，可能有 1 个以上的重复项，但最多不超过 9 个，所以是非常简单了。逻辑处理也不复杂，bash 本身就足够解决。

**- 提示词**

**- 生成脚本:扫描重复项**

**- 生成脚本 2:扫描并总结为 csv**

> 生成的很好，完全符合需求

### 识别、搜索和总结归纳任务

> 背景是网上其他人整理的万豪飞猪闪促叠加 Q1 活动后，各个酒店的折算成本归类，截图表格里的数据非常详细，包括酒店名、所在省份、预估折算成本等，需要让 AI 先识别截图中的内容，然后找到指定价格范围内预估折算成本相符的酒店，并按地理位置分类，从西安开车出发去上海，筛选有哪些城市有符合条件的万豪酒店。同时城市之间的单程行车距离不超过 400km ，对应下来是 4-5 小时路程。这个其实很复杂，所以没有一个免费工具能跑出来，从 OCR 识别这里就开始出现幻觉了，越到后面幻觉越多，最终的结果就是纯编，Gemini 也一样。

**- 思考过程**

> 识别的还不错，酒店名和对应字段的折算成本价格部分能对应上，但有内容范围限制，并且在识别阶段就出现了幻觉，比如苏州尼伊格罗明显是 GHA 的，不是万豪，关键表格里也没有这个酒店，不知道是识别错了后找了个最相近的，还是没识别出来瞎写的。

**- 输出结果**

> 无中生有，商丘没有万枫。。。

### 技术知识和操作修改

> Arch Linux + Hyprland ，4K 120hz 的 16 寸笔记本 200%缩放桌面环境下运行 4.0 版的微信 AppImage ，缩放异常，让 AI 识别并修复。还不错，正确的回答出了微信 Linux 4.0 版的技术栈，并且没有被我的提示词里猜测是 Eletron 系 App 而给出的修复参数给误导，给出了正确的缩放修复操作。

**输出结果**

## MiniMax 网页版
### 脚本任务
**- 脚本提示词**

**- 思考过程**

**- 脚本扫描结果**

> 一次输出就能正常运行并且结果符合预期，代码和输出风格有点像 Gemini 。但是第二次总结 csv 的脚本就不行了，生成的 csv 奇奇怪怪，要么少数据要么 head 不对。

### 识别、搜索和总结归纳任务

**- 思考过程**

> 不知道这些思考的数据从哪来的，思考的逻辑也很乱。已经给出限定条件是从西安到上海，北京、广东和海南地区不应该直接排除了吗

**- OCR 识别**

> 幻觉和胡编乱造

**- 思考时长**

> 其他几个都写完了，它还在思考

**- 思考结果**

> 直接从西安到合肥，提示词里给的驾驶时间限制和两地距离限制完全给忽略了

**- 结论**

> 不知道它是不是故意的，西安到合肥的 7-9 小时路程被直接忽略了，只把剩下短的路程时间给写出来了，而这些恰好符合提示词里的限制，这就是 AI 的小把戏吗？思考了这么久，耗时最长，但是就给出这个结果，还是差了很多的，结果也不是纯幻觉，只是故意隐藏了不符合的内容来试图蒙混过关。虽然不合格，但是比较接近了。