sunnysab

sunnysab

V2EX 第 390638 号会员,加入于 2019-03-08 22:14:17 +08:00
根据 sunnysab 的设置,主题列表被隐藏
二手交易 相关的信息,包括已关闭的交易,不会被隐藏
sunnysab 最近回复了
您好!用目前最强的 Gemini3.1Pro 和 GPT-5.4 测试了一下,仓库见 https://github.com/sunnysab/BaziQA

结果如下:
OpenAI GPT-5.4 Multi-turn 30.83%
OpenAI GPT-5.4 Structured 31.33%
Gemini-3.1-Pro-Preview Multi-turn 38.33%
Gemini-3.1-Pro-Preview Structured 33.33%

本以为新模型会好一些,但似乎 GPT5.4 并没有什么提升,而 Gemini3.1Pro 多轮测试的效果是更好的。API 使用的是 OpenRouter 官方 API 。有可能是排盘的差异(我不知道我用的库准不准,来源: https://github.com/china-testing/bazi

很有意思的、针对 LLM 的测试角度。从我个人经验看,在使用 AI 做推理前,可以让它回答自己过去的事,这也是测试准确性的方法。
3 月 24 日
回复了 idoubi 创建的主题 分享创造 开源 WeClaw,让微信 ClawBot 接入任意 Agent
@Mzs 成功了,感谢!
我之前缓存过一些微信公众号文章,用 cloudflare workers 做的,效果还不错,没有遇到反爬。
最近用自己的真实 ip 跑,几十几百篇都没啥问题?

---
当前是自用,抓取一百多个公众号。如果开放,可能遇到的问题会比较多。
似乎有点像 AI 去写博客?
有没有人考虑做 claude code 、codex 这种软件的网页版哇? 因为考虑要给普通用户(爸妈)用
@livib #1 不是开源的。仓库里只有个 README 和文档等等。

codex 倒是全开源,代码好多啊
@joyce95 据说哈,腾讯很早以前有过类似内部软件,写着玩的。还弄了个排名
1 月 18 日
回复了 xlianglx 创建的主题 分享创造 写了个 bench 比较能打的智能体框架
是 op 参与的项目吗?

狠狠关注一波,最近相关方向很有前景,粗看了 README 也很棒。明天有空拜读一下论文、跑跑试试。
GPT Pro 可能是多 Agent 做的,从推理时长来看就很长,和 Gemini 比不太合适。
倒是楼上 GPT Thinking 也这么强,我还没有遇到过
好棒!如果加上更多的注释、背景资料,优化文字样式,加上预习复习,再根据用户知识做对应的扩展/讲解。可以当商业产品了吧。
关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   1007 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 14ms · UTC 19:12 · PVG 03:12 · LAX 12:12 · JFK 15:12
♥ Do have faith in what you're doing.