sunnysab

sunnysab

V2EX member #390638, joined on 2019-03-08 22:14:17 +08:00
Today's activity rank 2343
Per sunnysab's settings, the topics list is hidden
Deals info, including closed deals, is not hidden
sunnysab's recent replies
有个想法,这俩都是开源的,让 AI 写个新的并到一起… 制约因素:token 不够…

其实之前搞过一点,后来烂尾了
真心怕中转站投毒/低价模型替换…
您好!用目前最强的 Gemini3.1Pro 和 GPT-5.4 测试了一下,仓库见 https://github.com/sunnysab/BaziQA

结果如下:
OpenAI GPT-5.4 Multi-turn 30.83%
OpenAI GPT-5.4 Structured 31.33%
Gemini-3.1-Pro-Preview Multi-turn 38.33%
Gemini-3.1-Pro-Preview Structured 33.33%

本以为新模型会好一些,但似乎 GPT5.4 并没有什么提升,而 Gemini3.1Pro 多轮测试的效果是更好的。API 使用的是 OpenRouter 官方 API 。有可能是排盘的差异(我不知道我用的库准不准,来源: https://github.com/china-testing/bazi

很有意思的、针对 LLM 的测试角度。从我个人经验看,在使用 AI 做推理前,可以让它回答自己过去的事,这也是测试准确性的方法。
@Mzs 成功了,感谢!
我之前缓存过一些微信公众号文章,用 cloudflare workers 做的,效果还不错,没有遇到反爬。
最近用自己的真实 ip 跑,几十几百篇都没啥问题?

---
当前是自用,抓取一百多个公众号。如果开放,可能遇到的问题会比较多。
似乎有点像 AI 去写博客?
有没有人考虑做 claude code 、codex 这种软件的网页版哇? 因为考虑要给普通用户(爸妈)用
@livib #1 不是开源的。仓库里只有个 README 和文档等等。

codex 倒是全开源,代码好多啊
@joyce95 据说哈,腾讯很早以前有过类似内部软件,写着玩的。还弄了个排名
是 op 参与的项目吗?

狠狠关注一波,最近相关方向很有前景,粗看了 README 也很棒。明天有空拜读一下论文、跑跑试试。
About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   4189 Online   Highest 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 15ms · UTC 00:54 · PVG 08:54 · LAX 17:54 · JFK 20:54
♥ Do have faith in what you're doing.