目前对于各 AI 应用的需求没有太深入,只是当作日常生活自动化的补充,更像是个人助手,并且 Gemini 3 flash preview 和 Grok 足够用,所以也没到订阅的程度,就一直在免费的几家里面来回切换,之前还一直用 Grok ,但是晚上用老是提示繁忙,就换成 Gemini 了。
平时的需求也不复杂,没有长的上下文,正好这次遇到了脚本相关的任务和规划类任务,就在几个 AI 产品里都跑了下。实际结果也挺符合直觉的,以下是结果名次,没错就 1 个,其他的都拉完了。
## Google Gemini 3.1 Falsh lite
### 脚本任务
> 背景是误删的移动硬盘数据,通过工具恢复出来了,但是一些文件有移动或者删除过,可能存在重复恢复,并且一些数据的 meta data 丢失,所以都是时间戳和设备命名的散乱、重复文件,需要简单的从文件名上初步区分出来,比如 example.jpg 和 example_1.jpg ,可能有 1 个以上的重复项,但最多不超过 9 个,所以是非常简单了。逻辑处理也不复杂,bash 本身就足够解决。
**- 提示词**

**- 生成脚本:扫描重复项**

**- 生成脚本 2:扫描并总结为 csv**
> 生成的很好,完全符合需求

### 识别、搜索和总结归纳任务
> 背景是网上其他人整理的万豪飞猪闪促叠加 Q1 活动后,各个酒店的折算成本归类,截图表格里的数据非常详细,包括酒店名、所在省份、预估折算成本等,需要让 AI 先识别截图中的内容,然后找到指定价格范围内预估折算成本相符的酒店,并按地理位置分类,从西安开车出发去上海,筛选有哪些城市有符合条件的万豪酒店。同时城市之间的单程行车距离不超过 400km ,对应下来是 4-5 小时路程。这个其实很复杂,所以没有一个免费工具能跑出来,从 OCR 识别这里就开始出现幻觉了,越到后面幻觉越多,最终的结果就是纯编,Gemini 也一样。
**- 思考过程**
> 识别的还不错,酒店名和对应字段的折算成本价格部分能对应上,但有内容范围限制,并且在识别阶段就出现了幻觉,比如苏州尼伊格罗明显是 GHA 的,不是万豪,关键表格里也没有这个酒店,不知道是识别错了后找了个最相近的,还是没识别出来瞎写的。

**- 输出结果**
> 无中生有,商丘没有万枫。。。

### 技术知识和操作修改
> Arch Linux + Hyprland ,4K 120hz 的 16 寸笔记本 200%缩放桌面环境下运行 4.0 版的微信 AppImage ,缩放异常,让 AI 识别并修复。还不错,正确的回答出了微信 Linux 4.0 版的技术栈,并且没有被我的提示词里猜测是 Eletron 系 App 而给出的修复参数给误导,给出了正确的缩放修复操作。
**输出结果**

## MiniMax 网页版
### 脚本任务
**- 脚本提示词**

**- 思考过程**

**- 脚本扫描结果**
> 一次输出就能正常运行并且结果符合预期,代码和输出风格有点像 Gemini 。但是第二次总结 csv 的脚本就不行了,生成的 csv 奇奇怪怪,要么少数据要么 head 不对。

### 识别、搜索和总结归纳任务
**- 思考过程**
> 不知道这些思考的数据从哪来的,思考的逻辑也很乱。已经给出限定条件是从西安到上海,北京、广东和海南地区不应该直接排除了吗

**- OCR 识别**
> 幻觉和胡编乱造

**- 思考时长**
> 其他几个都写完了,它还在思考

**- 思考结果**
> 直接从西安到合肥,提示词里给的驾驶时间限制和两地距离限制完全给忽略了

**- 结论**
> 不知道它是不是故意的,西安到合肥的 7-9 小时路程被直接忽略了,只把剩下短的路程时间给写出来了,而这些恰好符合提示词里的限制,这就是 AI 的小把戏吗?思考了这么久,耗时最长,但是就给出这个结果,还是差了很多的,结果也不是纯幻觉,只是故意隐藏了不符合的内容来试图蒙混过关。虽然不合格,但是比较接近了。

## Deepseek 网页版
### 脚本任务
**脚本报错**
> 没招了,脚本改了好几次,就没一次能跑下来的,我也给了当前的环境和版本号信息,就是改不对,这不是什么困难的东西,甚至是搜一搜就能得到的结果。

### 技术知识和操作修改
**输出结果**
> 微信技术栈就答错了,不知道是不是被我提示词里关于 Eletron 系应用的修复方式给误导了,不及格。

## Qwen3-Coder
### 脚本任务
**- 提示词**
> 提示词都是一样的

**- 脚本报错**

**- 脚本报错:1**
> 情绪价值给的很足。前面已经改了很多版了,真的非常无语,报错的地方比 Deepseek 还低级,实习生水平。

**- 脚本报错:2**
> 难绷,回复了报错和环境版本后,它的每个回复后面都会加上"已在 xx 系统下测试通过"。。。。???从哪学来的呢,好难猜啊
