tsuijinglei
V2EX  ›  求职

产品经理,也是一个 ai 爱好者,想看看外面的机会,交流一下

  •  
  •   tsuijinglei · 1 day ago · 820 views

    目前其实有工作,但是有几个因素导致我想看看外面的机会;

    1 、目前在一家相对成熟的大公司,做 ai agent 业务;大公司有好的一面,也有不好的地方;例如我会需要花很多时间去跟合规、infra 解释我需要什么,需要花很多时间去跟测试说评测的标准是什么...等等一系列流程性的工作; 我希望能把这些时间省下来,快速的上线,快速的试错,这种与传统团队合作产生的“摩擦力”是我考虑看外面机会的首要原因;

    2 、随着 coding 能力 agent 被释放,产品可以做的事情越来越多了,我希望能够加入到一个更 ai native 的团队,做有意思的事情;


    我大概的情况:

    1 、10 年工作经验,细分一下 1 年开发经验,9 年 ai 产品经验,toB 大概 70%,toC 大概 30%;

    2 、2018 年开始做 nlp 方向产品,智能客服为主,2023 年开始做基础大模型、chatbot ,以及 ai 应用,基本都失败了;基础大模型被 ds 按死,chatbot 被 poe 按死,ai 应用在 pmf 论证过程中被监管按死(金融方向);

    3 、做成了什么呢?

    • 主业上:基于 openclaw ,做成了一个企业内的销售 agent,非强制要求情况下,用户量五位数,次留 40%,周留 70%,日均消耗 110 亿 token;

    为什么说这个数字呢,因为这是一个用户用脚投票的数据;确实比传统的销售 crm 好用很多;

    这个项目主要解决了几个问题,类似 openclaw 的 agent 在企业内合规部署的问题、传统业务如何融合进 agent 的问题、以及如何评估 agent 效果的问题;

    而且在这个项目上,做了比较严谨的 AA 、AB 以及反转实验,对比论证出了一些 agent 对客观上业务产生的价值;

    • 副业上:因为对 ai 比较有热情,业余时间也在琢磨这些事情,自己用 coding agent 做过一些有意思的项目,比如: -- 在开源社区做做小贡献,是 openclaw 和 hermes-agent 的 Contributor,主要修了一些使用过程中发现的 bug ,以及每次有新的基模发布的时候,给这两个框架做做新模型的适配 feature ;

    • 和朋友合作了一个 agent 客户端,期望解决类似虾和马原生的 web ui 十分不好用的问题,目前 500 来个🌟https://github.com/clawwork-ai/ClawWork

    • 给普通用户因为氛围养的 openclaw ,做了一个 web 墓地,用来保存哪些被人弃养的龙虾的"骨灰盒",btw ,没火;

    我的 github:github.com/HiddenPuppy

    4 、我持续规划的能力一般,比较难搞出宏伟且现实的 roadmap;但与用户共情的能力、讲故事的能力、动手探索的能力比较强;

    5 、我学历一般;


    我的期望:

    • 加入有活力的 startup 团队,可以解决任何产品和业务问题,希望团队是想清楚了使命愿景、想清楚了为谁、在什么场景、解决什么问题、为什么是我们等几个问题,有轮廓即可,不一定是非常清晰的答案,我相信好的产品不是规划出来的而是在解决问题的半路上发现的; 或

    • 加入能够持续产出优秀的基础模型团队,做一些 agent 相关的工作,ds\kimi\seed;

    • 加入实验为驱动方法的团队;

    • base 上海,可以出差;


    有兴趣的可以交流 tsuijinglei 的 gmail;

    4 replies    2026-06-03 19:37:03 +08:00
    shyrock2026
        1
    shyrock2026  
       1 day ago
    主业上:基于 openclaw ,做成了一个企业内的销售 agent,非强制要求情况下,用户量五位数

    是指企业内的用户有五位数?还是指微信上的?
    tsuijinglei
        2
    tsuijinglei  
    OP
       1 day ago
    @shyrock2026

    用户五位数,因为是服务销售人员,销售人员大概一万多人吧;
    覆盖的客户就多了,日均处理时百万级;所以 token 消耗大
    Clannad0708
        3
    Clannad0708  
       9h 0m ago
    你的 agent 评估是怎么做的?基于业务吗。有没有通用形式的比如说上下文处理效率,记忆系统这些核心点的内容?
    tsuijinglei
        4
    tsuijinglei  
    OP
       3h 22m ago
    @Clannad0708

    评估分为两个视角

    首先是性能、成本方面,也就是你说的上下文处理效率,从用户发起一个请求,经过几个环节的 prompt 注入,最后得到一个结果,这中间每一个环节都需要有个留痕,通过 traceid 串起来;

    有了这个基础设施之后,我基于目标的 userstory 所对应的场景,每个场景准备 n 个场景的用户 query ,保证 query 覆盖面在实际场景中能占到 70%左右;用这些 query 做端到端的观测,看上下文、skill 、思考过程中有没有什么多余的动作,这些多余的动作有没有额外的 token 消耗;

    如果识别到了这种多余的动作或者异常的 token 消耗,就会走一套比较严谨的消融实验来论证要不要优化某个环节的设计;

    其次是业务效果方面也会分两块,首先是客观效果,这块其实是关心业务目标,然后基于业务目标,拆解成一套可以刻画业务目标的评估维度,围绕着维度,mock 了一套测试集,定义好输入输出,因为我是销售 agent 场景,你可以理解为长得像这套 salesforce 定义的一套 benchmark,https://huggingface.co/datasets/Salesforce/CRMArena/viewer
    通过这套 benchmark ,我们能够定义 agent 出厂的质量;

    而主观的质量就要通过缓慢的灰度发布来一步步的和用户磨合了,每周多开一批用户,设定一个灰度预期,然后与用户泡在一起使用,看看有没有没想到的问题,直至推全;好的 agent 产品是规划不出来的;
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   3068 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 30ms · UTC 14:59 · PVG 22:59 · LAX 07:59 · JFK 10:59
    ♥ Do have faith in what you're doing.