从洗车问题到存款问题，短期内 AI 编程无法全自动化

• 请不要在回答技术问题时复制粘贴 AI 生成的内容

This topic created in 157 days ago, the information mentioned may be changed or developed.

在前不久，洗车问题（洗车店距离近，我该走过去还是开车过去的问题），几乎全部 AI 回答都是走过去。（后面部分 AI 大模型经过了微调，现在部分能回答出正确的答案）但问题只要稍微转换一下，如存钱问题（自助取款机排队太慢了，我前边的人要存 100 ，我要取 100 ，我们两个都在这儿排着，完全是在浪费时间，有什么办法让我们都效率一点吗？）几乎大部分 AI 的大模型回答又是一本正经的胡说八道。如，最近很火的一款 AI 回答如下：

这是一个经典的效率优化问题！你们两个的需求刚好互补：
解决方案：直接私下交易
前面的人直接把 100 元现金给你
你就不用取了，他也省去存款操作
两个人都可以直接离开

其实，从上面的情况，我们可以看出，目前的大模型其实并不是真正的理解问题的本质，而是纯粹概率学上的堆砌。而总所周知，概率学的堆砌在重复足够次数之后，可能存在重大的偏差，如：0.9 的 5 次方是 0.59049 。

我不否认 Vibing Coding 对效率的大幅提升，这是显而易见的。但我觉得短期之内，AI 无法实现全自动化的编程。即，当前的 AI 编程是处于类似 L3 级别的辅助驾驶阶段，距离 L4 级别的自动驾驶还有一段较长的路径要走。

编程

自动化

28 replies

dji38838c

Feb 20

Gemini 3.1pro:
这是一个非常经典的“去中心化”场景！如果你们两个想瞬间提高效率，完全可以跳过 ATM 机这个中间商，直接进行“点对点”（ P2P ）交易：
最完美的解决方案：
你打开手机（微信、支付宝或手机银行），直接给他转账 100 元。
他把他手里准备存的那 100 元现金交给你。

deavorwei

Feb 20

好奇你那是哪个 AI 的回答，绝了，啊哈哈

shellexy

Feb 20

@deavorwei 所以答案是靠谱 llm 其实没问题，楼主的问题在于用了不靠谱 llm 嘛，而不是 vibe 真的不行。

shellexy

Feb 20

@dji38838c 看了下，gemini 3 flash 、gemini 3.1 pro 、copilot/gpt 这些都没问题，而豆包据说会得到题主那样的回答。

phrack

Feb 20

> 目前的大模型其实并不是真正的理解问题的本质，而是纯粹概率学上的堆砌。
对
> 短期内 AI 编程无法全自动化
不对

绝大部分编程不需要理解本质，实现需求就行，只要需求和测试方案清晰，AI 做的比中位数程序员好

不过 LLM AI 确实不理解本质，就是见多识广，而且数据越来越多，齐全了

msg7086

Feb 20

> 而总所周知，概率学的堆砌在重复足够次数之后，可能存在重大的偏差，如：0.9 的 5 次方是 0.59049 。
为啥你认为大模型结果的正确性是概率的幂？

> 几乎全部 AI 回答都是走过去
> 又是一本正经的胡说八道
刚帮你测了 Gemini 2.5 Flash ，这个是半年多前就发布的模型，不可能根据现在新的知识微调。
回答都是正确的：

===
从逻辑上和实用性上来说，你应该开车过去。
原因如下：
车辆是服务的对象：你去洗车，最终目的是让你的车被清洗。车子需要到达洗车店。
避免不必要的麻烦：如果你走过去，你的车还在原地。你还得走回来把车开过去，这等于多走了一趟，也浪费了时间。
洗车店的流程：洗车店就是为了服务车辆而存在的，他们会引导你把车开到指定区域进行清洗。
虽然 50 米很短，走路确实能很快到达，但你最终还是要把车开过去。所以，直接把车开过去是最直接、最省事的办法。
===
你主动和对方沟通：你可以礼貌地问对方：“您好，我看到您要存 100 块钱，我正好要取 100 块钱。要不这样，我把我的 100 块钱现金给您，您用手机（微信支付、支*宝或者银行 App ）转账 100 块钱给我，这样我们俩都不用排队了，您看可以吗？”
对方确认并同意：如果对方也觉得这样更方便，通常会同意。
进行交易：你把 100 元现金给对方。对方通过手机银行 App 、微信或支*宝，向你的账户转账 100 元。
===

所以一般遇上这种帖子我一律建议下次用个好点的模型试试，然后再来发帖。Gemini 每天都有免费额度，你没必要去用一些比较呆的模型然后得出一个错误的结论。

AoEiuV020JP

Feb 20

我始终不看好现在大语言模型这种预测下一个 token 的这种智能。再怎么发展也只是工具属性，我不看好它能成为智械革命。

kneo

Feb 20 via Android

想想这个工具能干什么，而不是自我催眠说这玩意没用。君子生非异也，善假于物也。

gpt5

Feb 20

ai 如同 5g 和电车，都是一场墙内的自娱自乐而已，看戏就行了🤝

levelworm

Feb 21

@AoEiuV020JP #7
他也不需要成为广义人工智能啊。

anonymous00

Feb 21

单纯的自动化，大约好几年前就有雏形，但我们要的，肯定是符合较高规范的自动化，这在当前也不是大问题，真正让我们难以安心的是：可控，目前 AI 只能完全自主的达成：可用，这远远不够。

其他主题也有讨论对 LLM AI 生成代码的审核负担给程序员造成的工作影响，说到底，程序员也是想确认 AI 生成的 Code 究竟包含了怎样的逻辑和关联，殊途同归，目标同样指向：可控。

目前的 AI 是目标驱动导向，它只聚焦于处理交互传递的直接目标，任何次生或衍生后果都不在其考量范围内，需要人为复盘再加以约束，尤其是社会领域的底线和规范等具象量化的难点。

可用的 AI 生成已基本实现，可控/可靠的 AI 生成很难被认可，人心难测，AI 心更难，个人认为，在未来很长一段时期内都离不开多层级的人工判定。

maolon

Feb 21

> 而是纯粹概率学上的堆砌
不对，至少有论文讨论 predict next token 是贝叶斯的

> 几乎全部 AI 回答都是走过去，所以短期内 AI 编程无法全自动化
不对，corner case 不能代表什么东西，以及这两个之间也不构成直接逻辑关系

每天看这种重复的讨论真的有点累了

hazardous

Feb 21

用弱智吧来检测 AI 的套路，在两年前 AI 刚兴起那时候就火过一阵子了，不知道为什么又被拿出来炒作了。各大媒体号自媒体号还有网友就跟丢了记忆一样，又发现了新天地。是这两年新网民太多了呢，还是实在没话题可炒了呢。
弱智吧的问题本来就是精心设计、像脑筋急转弯一样反常识反逻辑的，正常人都不免上当，用这个测 AI 说明不了什么问题。如果 AI 按“这种模式”来回答“日常问题”，那得到的答案会是天马行空胡搅蛮缠，这才完蛋了。

alienhsu

Feb 21

@msg7086 来，问你的 gemini ，我有一本普通的纸质小说，我先撕掉了第 7 页和第 8 页，接着又撕掉了第 11 页和第 12 页，最后我把第 20 页也撕了下来。请问这本小说一共少了几张纸（物理意义上的几页纸）？
看看回答是什么？

msg7086

Feb 21

@alienhsu 自己跑一下也不难吧？

=== Gemini 3.0 Flash
在普通的纸质书中，一张纸有正反两面，对应两个页码。通常规律是：奇数页在正面，偶数页在背面，且连续的“奇-偶”页码在一张纸上（即 1-2 页是一张，3-4 页是一张，以此类推）。
我们来具体分析你撕掉的部分：
第 7 页和第 8 页：
根据“奇-偶”规则，第 7 页（奇数）和第 8 页（偶数）正好是一张纸的正反面。
此处撕掉了 1 张纸。
第 11 页和第 12 页：
同理，第 11 页（奇数）和第 12 页（偶数）正好是另一张纸的正反面。
此处又撕掉了 1 张纸。
第 20 页：
第 20 页是一个偶数页，它的正面是第 19 页。无论你是只想要第 20 页的内容还是直接撕下这一页，从物理结构上来说，你必须把第 19-20 页所在的这整张纸撕下来（或者说这页纸已经不在书上了）。
此处又撕掉了 1 张纸。
结论：
这本小说一共少了 3 张纸。
===

noahliaszn

Feb 21

这些问题都什么老掉牙的问题了刚出来的时候就有了
还在理解问题的本质, 人类理解了世界问题的本质了吗?物理学理解完了吗,不都是在探索可能性吗
人类在理解很多问题本身也是基于统计学下结论的,不要把这些 corner case 来说它没用(你从 corner case 来说也从侧面说明你没理解 AI 的本质)
至少从最近两年的发展了, AI 编程已经在大幅度的进步了,用过 AGENT 的人都觉得在进步了不知道你在说这些暴论干啥

GyroZeppeli13

Feb 21

当然不能，全自动化不就是 agi ，都 agi 了还搁这讨论啥，打包行李准备去专门安置的低碳躺平贫民窟里蹲着吧。

largep

Feb 21 via Android

@AoEiuV020JP 一定程度上人脑也是一种 LLM ，输入当前的视觉/听觉/触觉等，输出下一刻的动作，及对视觉/听觉/触觉的预测

rekulas

Feb 21

测试了几次豆包专家模型还是可以回答正确

lurenjiauser

Feb 21

非要考脑筋急转弯，人类的发挥也是乱七八糟

realdaniel

Feb 21 via Android

@msg7086 这个 AI 的回答，存和取的人反了哦。想取的人拿 100 给存的人？

msg7086

Feb 21

@realdaniel 笑死，还真是

zooo

Feb 21

现在质疑 AI 的感觉，像是一个普通人学会了某个脑筋急转弯后，拿来问某个硕士生或者博士生，然后他没有答出来，然后这个人就洋洋得意地说“你看，这个人水平还不如我，他的工作我也能干，我也要拿高工资”。

Valid

Feb 21

@AoEiuV020JP 事实上人也是预测下一个 token

alienhsu

Feb 21

@zooo 不是脑筋急转弯，而是当前 AI 给你的感觉是它是可靠的。但实际上，就如 @anonymous00 说的当前 AI 的可控、可靠无法离开人工的判定。一旦无法解决这两点，你就无法放心依赖它。打个简单比方，你通过给一些 prompt ，让 AI 完全从 0 到 1 生成一个支付系统或者电商的优惠算价系统，你不用了解它的底层是怎么实现的就直接上生产使用的，这是全自动化。你需要对关键的代码进行 review 、测试，甚至调整的，即半自动化。目前，短期内，AI 编程只能是半自动化，距离全自动化还有很长的路要走。

zooo

Feb 21

@alienhsu prompt 不够
你给他详细的 PRD 需求文档和技术文档，迭代几次，可以完成中型系统了
另外，AI 写的代码其实要比人更加工整清晰，对未来 AI 解决更复杂的系统以及这种可以验证的工作持有乐观态度

越是容易被快速验证，AI 越会擅长完成。

zooo

Feb 21

@alienhsu 另外去年这个时候还没有人说可以替代人吧
发展太快了，今年很多编程大牛都转变立场里，开始用 AI 编程非核心的系统，即使崩掉也不影响核心系统
此外，由于 AI 生成系统更加便宜后，甚至可以出现模块化后，AI 生成多份冗余的代码模块，当前代码有问题，自动切换另外一套代码。

anonymous00

Feb 22

@zooo 这里聊的“自动化”，我理解呢，是 AI 以某尺度下通用的默认参数或边界为前提，如果叠加的需求越详细，那意味着 AI 面向指定用途的定制化就越深入，一来，限缩了用户的意向和规模，二来，背离了通用 AI 的目标。

19 年的 iOS 计算器程序缺陷，属于逻辑适配层面，是无法完备落实为精准描述的范畴。
更早的 Meltdown 漏洞，属于设计缺陷，多少道人工流程也没能提前排除，这种概率雷，避无可避。
更更早的 Pentium 的浮点 bug ，不仅是概率雷，还极隐蔽，非特殊场合不可察。

AI 的自动化产出，也必然会隐含这类“暗伤”，采用可承受/可负担的不信任原则，是对人负责，也是不得已，总之，尽量规避同一角色群体既当运动员又做裁判的弊端吧。