V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  sillydaddy  ›  全部回复第 5 页 / 共 146 页
回复总数  2914
1  2  3  4  5  6  7  8  9  10 ... 146  
你说的有 2 个层次:

1 是人类还需不需要从前端来获取信息。肯定需要啊,又没有进化成直接读取 token 和 html 代码。
2 是前端还需不需要人来参与创建。这个视情况吧:
2a. AI 实时的动态创建,你给 AI 一个请求,AI 把数据动态拼装起来,再动态生成前端页面展示给你。
2b. AI 动态拼装太复杂太慢,或者不精确,那么就由用户指令 AI 「培育」一个符合用户喜好的 UI 界面。当然这种培育出来的 UI 都在本地了,也不需要产品开发者去发布了。
2c. UI 比较具有普适性(每个人用法差不多),或者较为复杂,没有必要每个人用 AI 自己开发一套,费时费钱,那一套打磨好的通用 UI 可能会比较节省成本。每个用户的 AI 可以自己拿过来接手定制,甚至有不同 UI 的竞争。到时候一套 UI 的开发者就会利用这个 UI 的定制授权来盈利。
我是在 cursor 里面试的。感觉上面的成绩,跟 ARC-AGI 这个图形推理的测试成绩高度相关:

https://arcprize.org/leaderboard
有意思,试了几个模型:
Opus 4.5 thinking ,对了 0 个。

Opus 4.6 thinking ,对了 2 个( Bob 和 Adam )。

GPT 5.2 codex extra high thinking ,对了 3 个( Bob, Adm 和 Tommy )。

GPT 5.3 codex extra high thinking ,对了 5 个:
Bob:从 Bob 右侧线头出发,沿线向右后下弯,终点箭头指向中间黄绿色小人。
Jack:从 Jack 下方线头出发,走上方并行线中下方那条,终点箭头指向右上浅橙(偏米黄)小人。
Jimmy:从 Jimmy 下方线头出发,走上方并行线中上方那条长线,再沿右侧外圈下绕,终点箭头指向右中深蓝小人。
Tom:从 Tom 下方竖线出发,向下再左弯,终点箭头指向左下黄色小人。
Adam:从 Adam 左侧长线出发,沿底部向左再沿左侧上行,终点箭头指向左上粉红/玫红小人。


GPT codex 是用的编程工具处理的,尝试用 opencv 失败,后来用的 ffmpeg 。我还特意把线加粗了,不行的还是不行。
在 GPT 5.2 尝试过程中,里面冒出了这样一句: “我在校准裁剪参数,马上拿到上半部分的放大细节来确认 Jack/Jimmy 这两条最容易混淆的线”
2 月 9 日
回复了 constantine008 创建的主题 问与答 非常看好 AI,应该做什么
不记得是谁说的了,要做那些「基础模型越强大,你越高兴」的东西或事情。他举的一个例子就是 Agent ,Agent 里面的基础模型越强大,就促使越多人用 Agent 。反过来就是说,不要做那些「基础模型越强大,你越难受」的工作,比如在一个狭窄的领域里面搞 CRUD 编程,而这在今天已经应验了。

但,他这话有些鸡贼——什么是基础模型越强大我越高兴的工作呢?他并没有说清楚。

其实仔细想想,它等于是在说「要做那些基础模型做不了的事情」,就是这么个意思,对吧?越是基础模型做不了的事,随着基础模型的越来越强大,基础模型对你能力的放大就越显著。比如你善于商业,那基础模型就相当于百十个任劳任怨的员工。

问题在于,什么是基础模型做不了的事呢?怎么就知道基础模型后面做不了呢?举例来说,编程里面的架构,现在基础模型(配合 Agent )还不太行,这也是 v 站大多数人的看法,比人类的架构品味还要差不少,那是不是说,现在学架构就安全了呢?很明显学架构并不能让人安心,因为你不知道 AI 什么时候能以多快的速度学会架构。而且每个人擅长的不一样,不一定都适合。

AI 的发展就像海水涨潮,而人类则是在陆地。涨潮时,浪潮在不断冲刷新的高度,我们人类是在不断的后退,后退到 AI 够不着的高地。只要它够不着我们,我们甚至可以充分利用浪潮的能量。然而,假如涨潮最终会淹没我们所在的整个岛屿,那么后退到不同的高地,其实只是在被淹没的时间上有所区别。

现在的 AI ,用它带来的巨大震撼,揭示了一个道理给我们人类:智能没有什么特殊的,AGI 迟早会实现。认识到这一点并不代表一定要悲观,因为后续殊难预料。

在这一前提下,「在 AI 浪潮下该做什么」这个问题,就变成了在 AI 浪潮面前,各个「不同的高地」,它们被淹没的时间先后顺序是什么?直觉、抽象、架构、深入思考、目标、品味、审美、创新,甚至情绪、同理心,所有这些人类具有的智能属性,到底分别在什么时候会被 AI 赶上?这决定了退到哪个高地更合适。

我也不知道该退守到哪里。但我愿意分享一下我的想法。

之前举了编程的例子,毫无疑问,普通的 CRUD 已经被 AI 替代了。再来看编程架构,现在很多人都在说 AI Agent 的品味还不信、架构还不行、执行丢三落四,就目前这确实是事实。但这些高地会是下一批被淹没的吗?我觉得是。不要说不可能,毕竟谁也不会料想到,编程这个会吓退普通人的职业,竟然是被 AI 第一批占领的高地。而我之所以比较肯定,是因为软件行业的基本特点就是能以很低的成本进行验证。架构、品味这些东西,虽然比功能更难量化,但也不算非常难。代码简洁、低耦合高内聚,这些准则,并非难以描述,难以比较。即使是现在,给到 AI 两个架构方案,它们也能轻易判断出优劣。最关键的是,它们是可以低成本验证的东西,架构、品味,总是要以具体的代码实现来体现出来的,只要有具体的实现,AI 就可以测试它们、比较它们,甚至可以迭代式的改进它们,这时低验证成本这个关键就体现出来了。所以我个人觉得架构师也是一个会很快失守的高地,届时软件工程行业将无险可守。

再举一个例子,比如科普,你让人类讲清楚一个东西的原理,人类会根据他自己的学习思路,路途中遇到的困难,清楚的知道该把哪些困难点讲清楚,因为他学习过、经历过,他知道怎么讲怎么打比方才能让小白理解,他知道人类的心理构造。最明显的就是那些好书、好视频、好电影,让人茅塞顿开豁然开朗(比如《编码》这本书)。但 AI 没有这个经历,它不知道人类的心理构造。你只能追问它。什么时候 AI 可以充分建模人类的心理模型呢?比较难说,我觉得应该会比较晚吧,毕竟如果 AI 能建模人类心理,就意味着它也可以在其他行业发挥作用。

其他例子就不说了,预测未来的东西,很难靠的住。但是否可以低成本验证,可以作为一个重要的标准。以这个标准来说,开发人员是时候早做准备了。我写这么一大通,也是想表达这点。

楼主你说的方向是啥呢?
2 月 8 日
回复了 287854442 创建的主题 Joe's Talk 🪐 AI 都可以实现 C 编译器了,诚惶诚恐
感谢 OP 分享。

楼上的都在扯啥呢?尤其#1 楼,把人家「自曝其短」的东西照搬过来: https://www.anthropic.com/engineering/building-c-compiler#:~:text=not%20without%20limitations.-,These%20include,-%3A

只看到了那些缺点,这是个极简的脚手架你怎么不说呢?那 Agents 不能联网怎么不说呢?人类几乎没有介入怎么不说呢? Opus4.6 相比 Opus4.0 甚至 Opus4.5 的跨越怎么不说呢?

重点中的重点是 16 个 Agent ( Agent 团队)的协作,实现长时间大规模的无介入协作编程,不是吗?即使把这篇文章给到 AI ,也不至于抓不到重点吧。
2 月 7 日
回复了 774157009 创建的主题 职场话题 碎片化时间的高效利用
我最近恰好遇到了类似问题,来分享一下:

最近不是 AI 编程嘛,我开了多个任务(大概 4 ,5 个吧),想着在某个任务等待 AI 的间隙,切换到其他任务,提高效率。结果是,那些遇到稍微难啃骨头的任务(比如思考下一步的规划),在并行过程中,被我无情抛弃了,只走那些进展顺利的任务,最终只有 1 ,2 个任务在跑,其他都是做一半。而且精力分散,导致每个任务都不能深入思考。那些只做一半的任务,后续还要重新拾起来,还要面临再拾起时自信心受挫,摩擦阻力大的问题(因为知道当初遇到了难点)。

问题关键就在于大脑注意力的专注,可以产生复利效应(或者叫边际成本递减,无论怎么称呼它),意思就是越做越快,越来越熟悉,遇到难题也能披荆斩棘的感觉,这提高了专注的价值。而且专注可以快速出成果获取反馈。

当然,这种情况也有例外,比如你苦思冥想一个问题,就是解决不了,也许此时换个任务是一个更好的办法,回过头来之前的问题可能会突然迎刃而解。

每个人都不一样,所以,我感觉你现在的做法就很好啊。没必要强求,找到适合自己的方法就行。
很有意思的想法。目前看来就是你说的 2 个方案:
1 是借助冷冰冰的物理和算法,像 vdf 这种本地挑战难题,甚至无法用硬件加速。它只需要你在电脑上一直跑解密程序,跑个几年。
2 是借助外界(如区块链)监督,如各种智能合约。

哪种更让人安心,因人而异。但合约明显更方便吧。
@JoeJoeJoe 可以最小化发布吗? 6 个月太久了。给你个提示词(哈哈):只给你 1 个月,逼自己一下,哪些模块可以不用一下子放进来,哪些可以先用中心化的逻辑。
你这精力,比我还分散,哈哈,不过执行力比我强多了。
这个领空投的 v2ex.info 网站不错,还可以发布 v 币任务。
建议就是集中注意力快速把第一个弄出来 /doge ,好奇问下需要什么前置工具啊?
2 月 6 日
回复了 lmshl 创建的主题 ☕Vibe Coding🤖 Vibe Coding 一年实践后的冷思考
你说的这些都不是问题。

AI 编程,最关键的区别,就在于它是可以低成本验证的。

你提到的测试失效的问题,只要稍微想一下,它跟什么机床测量没有任何区别。软件最终是要验收结果的,它不考虑内部实现,就跟机床的验收一模一样!没有任何区别。

想通了这点,你后面就这点的讨论就都不成立了。你说 AI 会自己编写 case ,放过自己编写的 bug ,难道你使用 2 个不同的 AI 去做,也会这样吗?
我现在做一个项目(带有前后端),让 AI 去生成测试用例,它生成的测试用例很丰富,很详细。问题主要出在,它编码完成时,会「由于时间原因」跳过某些测试用例。(这是 AI 亲口告诉我的,由于时间原因,我想可能是迫于某些原因。)

所以跳过测试是一个问题吗?我觉得不是。你如果让某个 Agent 实例,专门只测试 1 个测试用例,那应该完全不会有这个问题。有了测试用例,就不用担心 AI 的实现跑飞。

然后有人会质疑,这些测试用例不会覆盖到所有情况。这里我觉得要拿你的矛来攻你的盾——「如果一个工程代码,能将应用的核心用例和路径跑通,同时跑通一些极端用例,那么它出错的概率是比较小的,这就是功能的相关性。就像如果一个 AI 可以编写出最复杂的算法,就难以想象它无法编写简单的排序算法一样的道理。」
2 月 6 日
回复了 Zane3 创建的主题 Cursor 目前在 cursor 里 Opus 4.6 是免费用的
谎报军情
2 月 6 日
回复了 uruana 创建的主题 Claude opus4.6 出来了,又是遥遥领先
@crocoBaby 成本不小。我算过,如果自己玩一遍整个的流程,大概要亏几万块吧。计算很简单:

毕业前,就像站长说的是个存钱罐。买完之后再卖掉,只会损失手续费。钱( SOL )还会原路拿到。
一旦毕业,需要把剩余 20%(好像是这个比例)的币,也就是 2 亿个币,连同池子里的那些 SOL ,放到 AMM 里面,作为初始的流动性。

可以看看如果你不想玩了,想把手里的 8 亿个 v 币全卖给池子,能回收多少 SOL ?
根据 AMM 的乘积不变公式:2 亿 v 币 * 80SOL (忘记了,大概是 80 个吧) = 10 亿 v 币 * x SOL
可以算出,池子里会剩下 2 亿/10 亿 * 80 SOL = 1/5 * 80SOL

这意味着,你把手里的 v 币全甩卖了,池子里也会永久留下原来 SOL 总量的 1/5 。它们永远被留在那里了!!
这就是贪玩的代价!
2 月 5 日
回复了 Croow 创建的主题 问与答 有没有做过创作相关的大佬,分享下经验?
总结一下就是:
1 是认定这件事,做好心理建设;
2 是集中精力在一件事直到取得;
3 是采用朝向目标的快速迭代,不要被跟主目标无关的东西拖累,以最快速度产出主目标,最快速度获得成果反馈。

第 3 点是最难的,怎么算主目标,怎么算可以获得反馈的成果。

以写小说为例,我也写过小说或者其他类型的写作,你是先把所有的都构思好,把所有的叙事结构(怎么铺垫,怎么埋伏笔)都搭建好,把所有的句子精雕细琢推敲搞通顺。还是先出一个很粗糙的故事框架?以我的经验来说,后者很有用。因为它直接给了自己这个读者一个反馈的机制。写完一个版本后,所有的基本的东西都有了,如果基本的框架没问题,那再迭代两三版就已经很不错了,把句子理顺,段落的逻辑调整顺,甚至可以把伏笔都加进去。如果框架不行,之前写的东西很多都是可以拿来再重复复用的。如果卡在某个段落(故事情节),就没有反馈,很容易掉坑里爬不出来。
2 月 5 日
回复了 Croow 创建的主题 问与答 有没有做过创作相关的大佬,分享下经验?
@Croow 其实感觉你可以把实际担忧的说出来,从你的表述中,感到你怕踩坑,但是别人并不知道你具体担心的是什么。

我举例子的例子,现在做自媒体的第一个视频,开始是做一个配套的动画工具,结果这个工具让自己「踩坑」了花费了不少时间,因为没有遵循快速迭代的原则。可以看一下我跟 v 友的详细讨论: /t/1186500

另外一个坑就是精力太分散,很多想做的,每个都分散一些精力,甚至是同时开发。结果每个都有进展,但每个都卡在某个坎上容易被放弃。

现在得到的教训就是,一定要 focus 。
2 月 5 日
回复了 Croow 创建的主题 问与答 有没有做过创作相关的大佬,分享下经验?
我正好也在做自媒体,这块感觉就是按部就班(定方向、构思、查资料、素材制作。。。):
https://v2ex.com/i/K0ODa6Sg.png

不过我觉得,有些问题要提前考虑清楚:比如你做的这个方向是探索性质的,还是准备就扎根在这个方向了,失败了如何应对,换方向探索还是什么。可持续性如何,盈利如何,目标是不是盈利,如果目标是盈利然后没办法盈利到时候怎么办?

这个是我在另一个帖子里面的详细阐述,表达不太清楚但大概意思是有的: https://v2ex.com/t/1169403#r_16924135
2 月 5 日
回复了 Croow 创建的主题 问与答 有没有做过创作相关的大佬,分享下经验?
没看懂你的问题,你已经知道要做什么了,为啥还问要做啥?
@AoEiuV020JP 「你 TM 」都出来了,哈哈。
看到了「梭呦」这样的错别字,还在用手打字?搞个语音输入吧。

--
另外楼主可以看下这张 Elo 天梯图了,对于编程大模型的评分,是用户真金白银投票出来的:
https://v2ex.com/t/1188184#r_17251001

虽然最高的 Opus4.5 high thinking 模型( GPT5.2 extra high 好像没在里面),比最新 GLM4.7 只高 50 分,但这 50 分,很可能都是差在复杂度较高难度较大的问题上面的,也就是解决架构、复杂这样的问题时,一定要用最顶尖的模型。
我用的是 cursor ,用的几个模型只在网络不行时会遇到中断。
2 月 3 日
回复了 88AI 创建的主题 HodlAI HodlAI:永久免费使用 200+ AI 模型还能赚钱?
@linbenyi

这个不只是信任问题吧。我感觉深层的问题还在于它是「零和博弈」,没有提供多少真实的价值。

先说零和博弈,这点只要看它的收入支出结构,就能看出来。

每个人投入 3%手续费,就享有持续的使用权。如果这个人用的 API 额度恰好是手续费这么多,那就不亏不赚(这里不考虑资金的时间成本)。如果这个人赚了,那肯定是有人赔了。否则这个场子就无法维系。这个事实无法否认吧?(有人会说币价还会上涨,从而实现多赢,我后面会分析为什么不可行。)

零和博弈,
1.要么把短期交易者(或投机者)的钱,转移给长期持有者。
2.要么把后加入者的钱转移给先加入者。
对于第 1 条,短期交易者(投机者)为何要亏本补贴别人呢?对于第 2 条,这不就是一个典型的庞氏骗局嘛。

所以,它的价值就是提供这样一个零和博弈的场地。

有人说所有的加密货币都是零和博弈,我觉得这个说法不对。是不是零和博弈,要看这个币能提供的到底有什么价值。

上面我们分析到 HODLAI 提供了一个零和博弈的场地,这也算是一种价值吧,但不缺它一个吧。

那么 V 币呢,是不是也是这样?我特别思考了它跟 V 币的区别:V 币是社区里的货币,围绕它可以构建和使用 V 站的各种服务,首先这是排他性的,然后它提供了真实的价值,而且后续可能还有基于 V 币的数字商品交易。这些构成了 V 币的使用价值。V 币使用场景越丰富,它的价值就越高。

但 HODLAI 这个币呢,除了提供零和博弈场所,它的价值在哪儿,来支撑它的价格呢?你要说它有什么其他的额外价值,站长倒是说过一个,就是不需要信用卡就可以使用 AI 。这确实是一个独特的价值,比信用卡方便。

一个币的真实的价值,决定着它的真实估值,和应有的价格。比如 V 币,前期泡沫涨的挺高,现在的价格横盘阴跌,就恰恰反应了这一点。因为 V 币现在提供的价值有限:持币注册、持币权益、打赏,从交易量也能看出它的价值。

HODLAI 的价格和市值是靠什么得来的呢?靠它的「不需要信用卡就可以使用 AI 」这点价值和需求,能不能支撑它的市值呢?

很明显并不能,这个项目想要持续,必须将 API 使用额度降低到很低的水平,才能达到收支平衡。这时候的平衡,说句白话,就是用户自己使用自己缴纳的那 3%的税费,这是主要的,再加上会有一些短期用户对长期用户的补贴。从这儿也能看出来,它其实跟用户拿信用卡付账没有什么区别。而且这么 API 使用额度(充 1000 美元,每天使用最多 1 美元吧),根本不足以激励用户去持有一个风险这么高的币,包括跑路风险,持有的币价下跌的风险,等等。

所以,从这儿也可以看出,它的真实价值非常小。

现在,它更多的是靠初期使用回报率非常高,以及后期预期会涨价,来吸引资金。然而,回报率高注定无法维持,因为资金无法维持,而涨价预期也是空想,因为都是零和博弈,因为它自身的真实价值微弱。

HODLAI 凭借着上面 2 点,取得了比它的真实价值——「比信用卡方便」——高的多的价格和市值,也就是泡沫。

而且正如你说的,即使是它提供的这个真实价值,也并不是排他性的,仿盘也可以这样做。这让它提供的那点真实价值也面临竞争威胁。

总之,它现在就是在通过高回报率,快速吸纳拉人头。可是,后面它准备怎么做呢,套现跑路是大概率事件吧。

所以,及早撤出才是明智的,不要贪恋那些 API 额度。
1  2  3  4  5  6  7  8  9  10 ... 146  
关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   1563 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 39ms · UTC 16:42 · PVG 00:42 · LAX 09:42 · JFK 12:42
♥ Do have faith in what you're doing.