V2EX = way to explore
V2EX 是一个关于分享和探索的地方
Sign Up Now
For Existing Member  Sign In
V2EX  ›  w568w  ›  全部回复第 3 页 / 共 52 页
回复总数  1027
1  2  3  4  5  6  7  8  9  10 ... 52  
19 天前
回复了 w568w 创建的主题 OpenAI 我的 GPT 5.5 怎么和你们的不一样?
@felixcode 我的体验正好和你相反:GPT 5.5 各种瞎 jb 改,不管上下文,甚至不管我前一句话的要求是什么,按自己喜好乱写; Opus 倒是总是瞻前顾后,每次 plan 时排出一堆 concerns 来

另外我感觉 Opus 4.7 明显有大幅度降智,Opus 4.8 才勉强回归到了 4.6 的能力水平,所以我把 GPT 5.5 和 Opus 4.7 放在一起
19 天前
回复了 w568w 创建的主题 OpenAI 我的 GPT 5.5 怎么和你们的不一样?
@xuhuanzy 「正常来说」是怎么来说?能不能分享下你的配置?
19 天前
回复了 w568w 创建的主题 OpenAI 我的 GPT 5.5 怎么和你们的不一样?
@lujiaosama 你的意思是,OpenCode 在 Claude 上能发挥优势,但在 DeepSeek 、GPT 上都有极大劣势?我倒是也可以试试 Codex CLI 就是了

@Perry 此话怎讲?
19 天前
回复了 w568w 创建的主题 OpenAI 我的 GPT 5.5 怎么和你们的不一样?
@Ericcccccccc 主帖有写,是 OpenCode 。我不太方便把我的 Claude 订阅接入到 Codex ,所以两边都「客场作战」,用一模一样的 OpenCode 配置,来公平比较了。
1. 这个肯定需要 profile 吧,可以看看 Zellij 或 Ghostty 都有类似定义能力: https://zellij.dev/documentation/session-resurrection.html

2. 我用的是 WezTerm ,微软输入法,从来没遇到过闪退。也许你可以导出用户词库,用深蓝词库转换一下,再导入微软输入法之类的

3. 那就 Ghostty 或 Kitty 吧。WezTerm 好像占内存也挺大的,我没记错的话比 Tabby 这种基于 Electron 的还大
我们刻意不做的事:不会不用 AI 写伪人语气文案

这这,推广文案都懒得自己写,很难信任代码质量啊……
22 天前
回复了 Danswerme 创建的主题 Claude Opus 4.8 真的好难用!
再补充个我遇到几次的 bug:模型有时会输出一大堆 tool calls ,但是不输出 finish 。于是从 API 角度来说,响应一直在进行,不给客户端返回结果的机会,模型就拿不到执行命令的结果。

而 Opus 4.8 会出现幻觉,认为自己拿到了空白输出,于是就能看到这种奇观:

================
(前略)

$ grep -R xxx ./

thinking: 奇怪,grep 没有返回任何结果,让我测试 Bash 工具是否正常。

$ ls -l .

$ echo ok

$ echo ====probing====

$ printf "yes\n"

$ echo PROBING_OK

thinking: 依然没有任何输出,Bash 工具可能存在问题。我需要向用户解释当前的工具状况。
22 天前
回复了 YaNanGe 创建的主题 Android 有没有大佬知道如何获取安卓唯一标识
@YaNanGe > 其实也就是恢复出厂设置

恢复出厂设置,那更好办了呀,MDM 就是为这个场景设计的。

恢复出厂设置后,在首次配置页面连接 ADB ,执行一个命令把自己的应用设置成 Device Owner ,之后这个应用就具有接近 root 级别的权限了。可以获取真实 IMEI 、拿到硬件序列号、真实 MAC 地址,还能配置跨恢复出厂设置的自定义标识符。这不是完美符合需求了么。
22 天前
回复了 frank1256 创建的主题 Google Gemini Gemini 学生有人掉了吗
提示 5 月 25 日前必须验证,但刚才看了一眼还是 Pro ,图片生成也都可以正常用
没点进来之前,我以为是 NTFS 或 BTRFS 那种透明压缩呢。
Cryptomator ; gocryptfs
5 月 31 日
回复了 YaNanGe 创建的主题 Android 有没有大佬知道如何获取安卓唯一标识
有 1000 台机器,经常刷机,然后你们又没有 root 权限?那你们是怎么刷机的?还有不 root 刷机的办法?

如果你指的是「正常使用中不向用户暴露 root 权限」,刷机时写一个特权应用就行了,获取 IMEI/MEID 或向 persist 分区写数据 都可以。
@lesismal > curl 这个项目用来做实验,无法代表现实世界中的绝大项目,所以他即使是用 mythos 与其他几个模型对比,也是不能作为靠谱结论的,因为实验方法本身不正确

所有的单例测试都可以被认为是「不完整」「不典型」的:这个项目热度高、找出来漏洞少,你可以说它本身维护得很好、所以结果不典型;那个项目业务性强、找出来漏洞多,我也可以说都是大厂 KPI 赶工产物、所以结果没有代表性。

唯一可靠的办法是 Anthropic 开放出来,各家企业、组织在自己的项目上试用一遍,但显然这一点目前是不现实的,因为它只开放给少数组织使用。

> 但是,相比于 curl 之父用 curl 做实验的错误方式,我更偏向于那些大厂和 anthropic 之间竟然能为了不破坏世界安全、达成协议封闭使用,因为资本通常是用脚投票的

相比于一个大型 Project Leader 和一群可能只会 vibe 的 CEOs ,我还是更相信 technical head 。另外资本是可以利益交换的,否则按照国内资本的走向,华为一定是全世界最强的计算卡制造商吧。考虑到目前没几家公司出来为 Mythos 用数据背书说明如何如何颠覆性,又如何判断这不是资本的造神游戏呢?

扯远了。就事论事,我不认为现阶段可以下什么最终「结论」。正如你倾向于相信资本背书,我倾向于现在业界对此事 overreact 。关于「达成协议封闭使用」,我有个更简单的猜测:模型太大或 harness 太重,算力没法 scale 上去,没有资源支持做足够的 safety alignment ,所以只能小范围测试。

> 如果你认为 curl 可以用来实验,那 Knuth 老爷子的 LaTex 是不是也可以用来测试?结果也一样适用?我要测试一把锤子是不是够好用,用玻璃做实验、敲碎了,和用钢板做实验、敲不碎对比,难道实验方法、实验工具不重要吗?

正因为重要,所以需要大量不同项目的 case reports 。如果有一大批项目证明/证伪了 curl 项目的测试结论,展现出了 Mythos 的颠覆性/平庸性,那我自然会相信的。这是「科学的方法、流程,站在局外的角度」。

更进一步,我要问:为什么 Mythos 在 Curl 上表现不尽人意?是他们使用了错误的 Harness ?难道是 Curl 本身太完美了(这是不成立的,Curl 最近一年都爆出了几次安全漏洞)?以及 Mythos 如何比现有的 Opus 等公开模型表现好?漏洞检出率提升了多少?为什么假阳性率如此高( 4 in 5 )?

至少我会对官方宣称的闭门测试结果打上问号。毕竟我见过的「为了刷榜而暗改 benchmark 的 AI 公司」比「为了反对 AI 而伪造实验结果的 Project Lead 」要多得多。

> 我反对的,单纯就是 curl 之父不严谨的测试工具和方法。

而我想表达的也仅仅是回答楼主的问题:「有大佬实际用过」,Mythos 并没有「那么牛逼」。看来在观点上并没有根本性的冲突啊。
@shyrock2026 > 挺难理解的

读原文即可:This is only natural of course since the first tools we ran had many more and easier bugs to find. As we have fixed issues along the way, finding new ones are slowly becoming harder. Additionally, a bug can be small or big so it’s not always fair to just compare numbers.

作者并没有想用这个说明什么。
@lesismal
> 他的结论来源的基础就不合理,也就是他的观点不合理

我觉得是你随意扩大了对其观点的解释。这是原话:Any project that has not scanned their source code with AI powered tooling will likely find huge number of flaws, bugs and possible vulnerabilities with this new generation of tools. Mythos will, and so will many of the others.

curl 作者想要说明的是,Mythos 本身并没有比其他模型强多少。他所说的噱头是指 "The whole world seemed to lose its marbles. Is this the end of the world as we know it?",或者说「 Mythos 颠覆性地超越了此前所有模型,并且将会引起业界巨大震动」。

他批判的是「 Mythos 强得离谱」这个观点,并没有说「 Mythos 没有提升」「 Mythos 很弱」或「 Mythos 是很一般的模型」。说人话就是要给这个 hype 降温,而不是彻底反对整个观点。这就是我为什么引用来回答楼主的问题:「 Mythos 真的那么"牛逼"么?」

至于说「 curl 作为一个高度精良的项目,拿来做实验不合理」,这就更没道理了。一方面是 Anthropic 的封闭模式导致目前客观上没有办法在「各种语言的 web 服务,还有各种企业级,乱七八糟的系统」上进行有效的评测;另一方面是 Mythos 如果想要证明自己是「颠覆性的强」,「能够在 curl 上找出高危漏洞」自然是一个充分条件,好马配好鞍。如果只是用一般的项目扫描,那现有的模型也可以做到类似的效果,只不过受限于应用 AI 的能力、技术水平、人力成本或意识形态等乱七八糟的原因,没人去做罢了。而 curl 作者用自己的项目验证了「 Mythos 并不能在顶尖开源项目中找出高威胁安全漏洞」,说明其能力并没有炒作中那么颠覆,逻辑是闭环的。
5 月 30 日
回复了 shuang 创建的主题 程序员 寻找 postman、xshell、navicat 的替代软件
@msg7086 「有 2051 个主机需要用 ssh 管理」确实是比较罕见的需求,除了专门做渗透测试,我确实没见过有啥工作会需要很多「其他公司的跳板机」,而且还需要频繁切换访问的。

就我所见,我身边绝大部分人(包括运维)需要管理的机器都没有超过 100 台。超过这个量级的,都用堡垒机或 Web 工具管理集群了,也不太需要记录 ssh 配置。我刚看了下我自己的,只有 60 个 hosts 不到,一页屏幕就能显示完。

不过你说的「给不同主机设置颜色、字体、分组」这个确实 sounds interesting 。我的机器数量没有那么多,如果需要快速选择某台机器,我会直接用 atuin + 键入 "ssh" 来筛选最近最多使用的主机。
@lesismal 讨论的不是一件事啊。

我转发 curl 作者的观点是「 Claude Mythos Preview 这个模型在试用中并没有吹得那么强,商业噱头大于实际」;
你回复我的是「 Mythos 找不出漏洞只能说明 curl 安全性很高,不能说明 Mythos 本身能力不行」;
楼上的观点是「 Claude Opus 也可以用于安全测试,所以不一定非要用 Mythos 」;
你的观点大概是「 AI 未来一定会发展到很强」。

呃,所以呢?我同意 AI 未来会发展,甚至也认可超过人类的可能性,但这和 Claude Mythos Preview 有什么关系?不管是 curl 作者、楼上还是我,都没人说「 AI 作为一个发展方向不行」啊。只是在回答楼主的问题,即「 Claude Mythos Preview 真的这么牛逼吗」。
@GG5332 是的,目前不同项目报告的使用体验差别很大,具体怎么样还是得看公开模型上的效果。

不过我觉得模型本身的噱头成分居多,Cloudflare 也提到这种进步「可能更多来自于 Harness 而不是 Model 自身」。与其说 Anthropic 训练了一个颠覆性的模型,不如说是一个较好的模型 + 一套专为网络安全定制的复杂长时间 Harness 。
https://daniel.haxx.se/blog/2026/05/11/mythos-finds-a-curl-vulnerability/

省流:Curl 作者试用了 Claude Mythos ,在 Curl 项目上进行扫描。在公开投票中,大部分用户认为能发现 10 个或更多 CVEs 。

但 Claude Mythos 最终信心满满地报告「发现了 5 个确信的漏洞」,并且经过开发者复查后,其中 3 个都是误报,剩下 2 个中,1 个被认为是「 bug 而非安全漏洞」,另一个被认定为「低危漏洞」「不会造成严重后果」,不过出于对报告的尊重,依然分配了 CVE 编号并进行了安全修复。

Claude Mythos 确实发现了约 20 个 bugs ,「几乎没有误报」。不过 curl 作者表示,「就发现的问题数量而言,我们之前使用的所有 AI 工具都带来了更多的 bug 报告」。

作者的结论是:「我个人的结论只能是,目前围绕这个模型的种种炒作主要还是营销噱头。我没有看到任何证据表明,与 Mythos 之前的其他工具相比,这个模型在发现问题方面有任何显著的提升或改进。或许这个模型略胜一筹,但即便如此,它的优势也并不足以对代码分析产生实质性的影响。」
5 月 29 日
回复了 shuang 创建的主题 程序员 寻找 postman、xshell、navicat 的替代软件
@msg7086 呃,我还是没明白。你看下面两种场景:

Case 1:给每一台主机起一个人类能理解的名字,显示在一个图形界面的列表里,然后用鼠标点击连接。
Case 2:给每一台主机起一个人类能理解的名字,放进 ssh_config ,然后输入 ssh <人类能理解的名字> 回车连接。

这……有什么区别呢?

你是说 ssh_config 不方便列出所有主机?我是记了个 alias lshost="grep Host ~/.ssh/config" 的别名来做这个事。
1  2  3  4  5  6  7  8  9  10 ... 52  
About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   3051 Online   Highest 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 31ms · UTC 00:23 · PVG 08:23 · LAX 17:23 · JFK 20:23
♥ Do have faith in what you're doing.