V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
爱意满满的作品展示区。
xlianglx
V2EX  ›  分享创造

写了个 bench 比较能打的智能体框架

  •  
  •   xlianglx · 6 天前 · 766 次点击
    https://github.com/polyuiislab/infiAgent
    写了个智能体框架,先用本地 20b 测了 deepresearch 的 bench,竟然比 grok 的 deepresearch 分高😂,然后做了几个常见的智能体类型,AI Scientist (自动化研究实验,半通用型),Cowork (类似 anthropic 的 cowork:编程,做 ppt ,整理桌面,通用型)。AI Scientist 测的挺多,做实验比较方便,写出来的文章过一些 ei 会议投稿没什么问题。Cowork 即使是用 docker 隔离了目标文件夹和宿主机,我感觉还是很危险...不知道 anthropic 官方的 Cowork 有没有出现把人文件删了的事情
    2 条回复    2026-01-19 14:18:02 +08:00
    sunnysab
        1
    sunnysab  
       6 天前
    是 op 参与的项目吗?

    狠狠关注一波,最近相关方向很有前景,粗看了 README 也很棒。明天有空拜读一下论文、跑跑试试。
    xlianglx
        2
    xlianglx  
    OP
       5 天前
    @sunnysab 是的 hh ,个人项目被组里招安了
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   2830 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 37ms · UTC 13:10 · PVG 21:10 · LAX 05:10 · JFK 08:10
    ♥ Do have faith in what you're doing.