V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  sunnysab  ›  全部回复第 1 页 / 共 26 页
回复总数  519
1  2  3  4  5  6  7  8  9  10 ... 26  
您好!用目前最强的 Gemini3.1Pro 和 GPT-5.4 测试了一下,仓库见 https://github.com/sunnysab/BaziQA

结果如下:
OpenAI GPT-5.4 Multi-turn 30.83%
OpenAI GPT-5.4 Structured 31.33%
Gemini-3.1-Pro-Preview Multi-turn 38.33%
Gemini-3.1-Pro-Preview Structured 33.33%

本以为新模型会好一些,但似乎 GPT5.4 并没有什么提升,而 Gemini3.1Pro 多轮测试的效果是更好的。API 使用的是 OpenRouter 官方 API 。有可能是排盘的差异(我不知道我用的库准不准,来源: https://github.com/china-testing/bazi

很有意思的、针对 LLM 的测试角度。从我个人经验看,在使用 AI 做推理前,可以让它回答自己过去的事,这也是测试准确性的方法。
3 月 24 日
回复了 idoubi 创建的主题 分享创造 开源 WeClaw,让微信 ClawBot 接入任意 Agent
@Mzs 成功了,感谢!
我之前缓存过一些微信公众号文章,用 cloudflare workers 做的,效果还不错,没有遇到反爬。
最近用自己的真实 ip 跑,几十几百篇都没啥问题?

---
当前是自用,抓取一百多个公众号。如果开放,可能遇到的问题会比较多。
似乎有点像 AI 去写博客?
有没有人考虑做 claude code 、codex 这种软件的网页版哇? https://i.imgur.com/duWRpIu.png 因为考虑要给普通用户(爸妈)用
@livib #1 不是开源的。仓库里只有个 README 和文档等等。

codex 倒是全开源,代码好多啊
@joyce95 据说哈,腾讯很早以前有过类似内部软件,写着玩的。还弄了个排名
1 月 18 日
回复了 xlianglx 创建的主题 分享创造 写了个 bench 比较能打的智能体框架
是 op 参与的项目吗?

狠狠关注一波,最近相关方向很有前景,粗看了 README 也很棒。明天有空拜读一下论文、跑跑试试。https://i.imgur.com/Cvl7dyN.png
GPT Pro 可能是多 Agent 做的,从推理时长来看就很长,和 Gemini 比不太合适。
倒是楼上 GPT Thinking 也这么强,我还没有遇到过
好棒!如果加上更多的注释、背景资料,优化文字样式,加上预习复习,再根据用户知识做对应的扩展/讲解。可以当商业产品了吧。
1 月 14 日
回复了 tomako 创建的主题 分享创造 终端小说阅读器
摸鱼神器!

我一般喜欢找个盗版站,复制 HTML 让 Gemini 写一个油猴脚本,做自动翻页、可调字体大小、行宽、行距、行高,然后看起来会很舒服!
1 月 14 日
回复了 woodfizky 创建的主题 PostgreSQL 适配信创数据库的人的精神状态 be like
可以在设置中修改数据库的这个行为吗?
2025 年 12 月 31 日
回复了 freedom2030 创建的主题 Google Google AI Studio 求助
是你的项目报 An internal error occurred. 还是 AI studio 报 An internal error occurred.?

我这边之前用某梯子对话( playground )经常出现这个错误,后来换了梯子/节点就好了。可以试一下。怀疑谷歌的模型部署在不同节点,不同节点负载压力不一样。
还有一种情况:输入内容有些不可见字符(特定输入)也会导致出错。我遇到过,改掉输入再重试就好了。

---
回到你这,我不知道你用 Playground 还是 Build ?可以控制变量多尝试一下。
2025 年 12 月 22 日
回复了 freefreesea 创建的主题 分享创造 刚做了个全网突发热点功能
一直有个想法:能不能用 AI 总结新闻并整理出一个事件发展的时间线?像知乎上某个实时问题那样。但我不知道怎么做,可能需要聚类?我做了一套金十的实时新闻,目前只做了获取,觉得理清不同的线才算完美。

op 的网站很棒,但真正用时,信息源太多了一些?(当然不是坏事 hhh )
2025 年 12 月 20 日
回复了 liaanj 创建的主题 分享创造 [开源] 旅游地图,工作太累啦 ~ 不妨进来找找你的梦想
Firefox 145 。鼠标随便放到地图上的一个景点上,能显示出景点详情但不到一秒就消失(有淡入淡出)。很奇怪。
2025 年 12 月 16 日
回复了 cnachen 创建的主题 Windows A 卡+Chrome:全是 Bug
AMD 核显 + Firefox + Linux 才是灾难。硬件加速都不能开……
2025 年 12 月 10 日
回复了 Sunyin 创建的主题 Linux 准备 Linux desktop 当主力一段时间试试 有推荐的么
@nolog #35 +1
2025 年 11 月 12 日
回复了 snailsir 创建的主题 程序员 有没有学信网学历认证的 API 接口啊
有啊,海底捞学生认证,还有一个我忘了啥的连锁店也有(
2025 年 10 月 26 日
回复了 Strikplf 创建的主题 Android 非引战,真的会有用户 5k+ 买红米当主力机吗?🥺
16+512G 的配置,前段时间买了小米 17 ,现在发现 k90 pro max 配置差不多,性价比更高一点……多一个喇叭,电池大一点点。

这个配置,这个价位还行吧?
1  2  3  4  5  6  7  8  9  10 ... 26  
关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   929 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 40ms · UTC 20:51 · PVG 04:51 · LAX 13:51 · JFK 16:51
♥ Do have faith in what you're doing.