$V2EX
Solana
Give SOL to Copy Address
使用 SOL 向 sillydaddy 打赏,数额会 100% 进入 sillydaddy 的钱包。
 sillydaddy 最近的时间轴更新
sillydaddy
5.51D
4.58D

sillydaddy

V2EX 第 472822 号会员,加入于 2020-02-27 19:30:20 +08:00
今日活跃度排名 35
MOD
具有移动主题的权限
对 HodlAI 的可持续性的质疑
HodlAI  •  sillydaddy  •  9 天前  •  最后回复来自 workbest
24
ARC-AGI 测试这帮人疯了!
  •  1   
    分享发现  •  sillydaddy  •  1 月 29 日  •  最后回复来自 LiuJiang
    3
    vibe coding 的最佳实践到底是什么?
    Joe's Talk 🪐  •  sillydaddy  •  1 月 23 日  •  最后回复来自 goodboy95
    28
    编程已死!
  •  1   
    职场话题  •  sillydaddy  •  2025 年 12 月 31 日  •  最后回复来自 Livid
    63
    让你们的 AI 做做这道题,见真章!
    OpenAI  •  sillydaddy  •  2025 年 12 月 27 日  •  最后回复来自 itechify
    5
    不知不觉 AI 可以算乘法了
    分享发现  •  sillydaddy  •  2025 年 12 月 24 日  •  最后回复来自 sillydaddy
    5
    sillydaddy 最近回复了
    同问。我也感觉现在自动化测试是 vibe coding 的核心关键,而限制自动化测试的就是成本。

    我感觉只能等 token 价格下降了。刚试了这个帖子( /t/1192001 )的图片,125KB 左右的一个 jpeg 文件,问里面有几个小人儿,花费了 1 万多的输入 token (这里不排除有系统提示词之类的,但大体是 1 万 token ),说明截图还是很费 token 的,Sonnet4.5 的话大概两三毛钱。

    有没有可能优化一下测试流程,尽量直接一步到位加载目标网页的数据,而不是逐步点击,也就是把测试也模块化,当然我没有做过测试,只是瞎猜。但 token 贵的话,只能人工优化测试流程了。
    3 小时 18 分钟前
    回复了 gogo_tutu 创建的主题 问与答 一个不接受回复的帖子一直置顶?就纯广告呗
    更大的可能是你被版主拉黑了: /t/1192367
    5 小时 24 分钟前
    回复了 Phycheez 创建的主题 随想 你觉得 AI 会把一切以事实为根基的内容创作也替代吗
    @94 付诸行动吗,有些难点:1 是我觉得它是水到渠成的事,到未来真假难辨时,其他商业实体自然会去做,我的主要兴趣也不在那里。2 是那个帖子本意是看个人有哪些**低成本**的相关机会,讨论下来感觉都是硬件、厂商这些基础设施的事,没有太多外溢给个人的机会。
    5 小时 36 分钟前
    回复了 Phycheez 创建的主题 随想 你觉得 AI 会把一切以事实为根基的内容创作也替代吗
    @94 没有任何削弱,反而加强了——事实是空气,无论对人类还是对 AI 。因为它们最终都要活在现实世界中,如《黑客帝国》这部电影讲述的,有几个愿意活在 matrix 的世界里面呢?
    5 小时 39 分钟前
    回复了 buydip 创建的主题 问与答 咨询几个问题
    自建节点有屏蔽功能,你是不是被屏蔽了: /t/1187999
    5 小时 49 分钟前
    回复了 Phycheez 创建的主题 随想 你觉得 AI 会把一切以事实为根基的内容创作也替代吗
    你说的有 2 个层次:

    1 是人类还需不需要从前端来获取信息。肯定需要啊,又没有进化成直接读取 token 和 html 代码。
    2 是前端还需不需要人来参与创建。这个视情况吧:
    2a. AI 实时的动态创建,你给 AI 一个请求,AI 把数据动态拼装起来,再动态生成前端页面展示给你。
    2b. AI 动态拼装太复杂太慢,或者不精确,那么就由用户指令 AI 「培育」一个符合用户喜好的 UI 界面。当然这种培育出来的 UI 都在本地了,也不需要产品开发者去发布了。
    2c. UI 比较具有普适性(每个人用法差不多),或者较为复杂,没有必要每个人用 AI 自己开发一套,费时费钱,那一套打磨好的通用 UI 可能会比较节省成本。每个用户的 AI 可以自己拿过来接手定制,甚至有不同 UI 的竞争。到时候一套 UI 的开发者就会利用这个 UI 的定制授权来盈利。
    我是在 cursor 里面试的。感觉上面的成绩,跟 ARC-AGI 这个图形推理的测试成绩高度相关:

    https://arcprize.org/leaderboard
    有意思,试了几个模型:
    Opus 4.5 thinking ,对了 0 个。

    Opus 4.6 thinking ,对了 2 个( Bob 和 Adam )。

    GPT 5.2 codex extra high thinking ,对了 3 个( Bob, Adm 和 Tommy )。

    GPT 5.3 codex extra high thinking ,对了 5 个:
    Bob:从 Bob 右侧线头出发,沿线向右后下弯,终点箭头指向中间黄绿色小人。
    Jack:从 Jack 下方线头出发,走上方并行线中下方那条,终点箭头指向右上浅橙(偏米黄)小人。
    Jimmy:从 Jimmy 下方线头出发,走上方并行线中上方那条长线,再沿右侧外圈下绕,终点箭头指向右中深蓝小人。
    Tom:从 Tom 下方竖线出发,向下再左弯,终点箭头指向左下黄色小人。
    Adam:从 Adam 左侧长线出发,沿底部向左再沿左侧上行,终点箭头指向左上粉红/玫红小人。


    GPT codex 是用的编程工具处理的,尝试用 opencv 失败,后来用的 ffmpeg 。我还特意把线加粗了,不行的还是不行。
    在 GPT 5.2 尝试过程中,里面冒出了这样一句: “我在校准裁剪参数,马上拿到上半部分的放大细节来确认 Jack/Jimmy 这两条最容易混淆的线”
    2 天前
    回复了 constantine008 创建的主题 问与答 非常看好 AI,应该做什么
    不记得是谁说的了,要做那些「基础模型越强大,你越高兴」的东西或事情。他举的一个例子就是 Agent ,Agent 里面的基础模型越强大,就促使越多人用 Agent 。反过来就是说,不要做那些「基础模型越强大,你越难受」的工作,比如在一个狭窄的领域里面搞 CRUD 编程,而这在今天已经应验了。

    但,他这话有些鸡贼——什么是基础模型越强大我越高兴的工作呢?他并没有说清楚。

    其实仔细想想,它等于是在说「要做那些基础模型做不了的事情」,就是这么个意思,对吧?越是基础模型做不了的事,随着基础模型的越来越强大,基础模型对你能力的放大就越显著。比如你善于商业,那基础模型就相当于百十个任劳任怨的员工。

    问题在于,什么是基础模型做不了的事呢?怎么就知道基础模型后面做不了呢?举例来说,编程里面的架构,现在基础模型(配合 Agent )还不太行,这也是 v 站大多数人的看法,比人类的架构品味还要差不少,那是不是说,现在学架构就安全了呢?很明显学架构并不能让人安心,因为你不知道 AI 什么时候能以多快的速度学会架构。而且每个人擅长的不一样,不一定都适合。

    AI 的发展就像海水涨潮,而人类则是在陆地。涨潮时,浪潮在不断冲刷新的高度,我们人类是在不断的后退,后退到 AI 够不着的高地。只要它够不着我们,我们甚至可以充分利用浪潮的能量。然而,假如涨潮最终会淹没我们所在的整个岛屿,那么后退到不同的高地,其实只是在被淹没的时间上有所区别。

    现在的 AI ,用它带来的巨大震撼,揭示了一个道理给我们人类:智能没有什么特殊的,AGI 迟早会实现。认识到这一点并不代表一定要悲观,因为后续殊难预料。

    在这一前提下,「在 AI 浪潮下该做什么」这个问题,就变成了在 AI 浪潮面前,各个「不同的高地」,它们被淹没的时间先后顺序是什么?直觉、抽象、架构、深入思考、目标、品味、审美、创新,甚至情绪、同理心,所有这些人类具有的智能属性,到底分别在什么时候会被 AI 赶上?这决定了退到哪个高地更合适。

    我也不知道该退守到哪里。但我愿意分享一下我的想法。

    之前举了编程的例子,毫无疑问,普通的 CRUD 已经被 AI 替代了。再来看编程架构,现在很多人都在说 AI Agent 的品味还不信、架构还不行、执行丢三落四,就目前这确实是事实。但这些高地会是下一批被淹没的吗?我觉得是。不要说不可能,毕竟谁也不会料想到,编程这个会吓退普通人的职业,竟然是被 AI 第一批占领的高地。而我之所以比较肯定,是因为软件行业的基本特点就是能以很低的成本进行验证。架构、品味这些东西,虽然比功能更难量化,但也不算非常难。代码简洁、低耦合高内聚,这些准则,并非难以描述,难以比较。即使是现在,给到 AI 两个架构方案,它们也能轻易判断出优劣。最关键的是,它们是可以低成本验证的东西,架构、品味,总是要以具体的代码实现来体现出来的,只要有具体的实现,AI 就可以测试它们、比较它们,甚至可以迭代式的改进它们,这时低验证成本这个关键就体现出来了。所以我个人觉得架构师也是一个会很快失守的高地,届时软件工程行业将无险可守。

    再举一个例子,比如科普,你让人类讲清楚一个东西的原理,人类会根据他自己的学习思路,路途中遇到的困难,清楚的知道该把哪些困难点讲清楚,因为他学习过、经历过,他知道怎么讲怎么打比方才能让小白理解,他知道人类的心理构造。最明显的就是那些好书、好视频、好电影,让人茅塞顿开豁然开朗(比如《编码》这本书)。但 AI 没有这个经历,它不知道人类的心理构造。你只能追问它。什么时候 AI 可以充分建模人类的心理模型呢?比较难说,我觉得应该会比较晚吧,毕竟如果 AI 能建模人类心理,就意味着它也可以在其他行业发挥作用。

    其他例子就不说了,预测未来的东西,很难靠的住。但是否可以低成本验证,可以作为一个重要的标准。以这个标准来说,开发人员是时候早做准备了。我写这么一大通,也是想表达这点。

    楼主你说的方向是啥呢?
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   4447 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 45ms · UTC 06:52 · PVG 14:52 · LAX 22:52 · JFK 01:52
    ♥ Do have faith in what you're doing.