产品经理，也是一个 ai 爱好者，想看看外面的机会，交流一下

This topic created in 52 days ago, the information mentioned may be changed or developed.

目前其实有工作，但是有几个因素导致我想看看外面的机会；

1 、目前在一家相对成熟的大公司，做 ai agent 业务；大公司有好的一面，也有不好的地方；例如我会需要花很多时间去跟合规、infra 解释我需要什么，需要花很多时间去跟测试说评测的标准是什么...等等一系列流程性的工作；我希望能把这些时间省下来，快速的上线，快速的试错，这种与传统团队合作产生的“摩擦力”是我考虑看外面机会的首要原因；

2 、随着 coding 能力 agent 被释放,产品可以做的事情越来越多了，我希望能够加入到一个更 ai native 的团队，做有意思的事情；

我大概的情况：

1 、10 年工作经验，细分一下 1 年开发经验，9 年 ai 产品经验,toB 大概 70%，toC 大概 30%；

2 、2018 年开始做 nlp 方向产品，智能客服为主，2023 年开始做基础大模型、chatbot ，以及 ai 应用，基本都失败了；基础大模型被 ds 按死，chatbot 被 poe 按死，ai 应用在 pmf 论证过程中被监管按死（金融方向）；

3 、做成了什么呢？

主业上：基于 openclaw ，做成了一个企业内的销售 agent,非强制要求情况下，用户量五位数，次留 40%，周留 70%，日均消耗 110 亿 token;

为什么说这个数字呢，因为这是一个用户用脚投票的数据；确实比传统的销售 crm 好用很多；

这个项目主要解决了几个问题，类似 openclaw 的 agent 在企业内合规部署的问题、传统业务如何融合进 agent 的问题、以及如何评估 agent 效果的问题；

而且在这个项目上，做了比较严谨的 AA 、AB 以及反转实验，对比论证出了一些 agent 对客观上业务产生的价值；

副业上：因为对 ai 比较有热情，业余时间也在琢磨这些事情，自己用 coding agent 做过一些有意思的项目，比如: -- 在开源社区做做小贡献，是 openclaw 和 hermes-agent 的 Contributor,主要修了一些使用过程中发现的 bug ，以及每次有新的基模发布的时候，给这两个框架做做新模型的适配 feature ；
和朋友合作了一个 agent 客户端，期望解决类似虾和马原生的 web ui 十分不好用的问题，目前 500 来个🌟https://github.com/clawwork-ai/ClawWork
给普通用户因为氛围养的 openclaw ，做了一个 web 墓地，用来保存哪些被人弃养的龙虾的"骨灰盒"，btw ，没火；

我的 github：github.com/HiddenPuppy

4 、我持续规划的能力一般，比较难搞出宏伟且现实的 roadmap;但与用户共情的能力、讲故事的能力、动手探索的能力比较强；

5 、我学历一般；

我的期望：

加入有活力的 startup 团队，可以解决任何产品和业务问题，希望团队是想清楚了使命愿景、想清楚了为谁、在什么场景、解决什么问题、为什么是我们等几个问题，有轮廓即可，不一定是非常清晰的答案，我相信好的产品不是规划出来的而是在解决问题的半路上发现的；或
加入能够持续产出优秀的基础模型团队,做一些 agent 相关的工作，ds\kimi\seed;
加入实验为驱动方法的团队；
base 上海，可以出差；

有兴趣的可以交流 tsuijinglei 的 gmail;

产品经理

创业

9 replies • 2026-07-11 05:20:07 +08:00

shyrock2026

Jun 2

主业上：基于 openclaw ，做成了一个企业内的销售 agent,非强制要求情况下，用户量五位数

是指企业内的用户有五位数？还是指微信上的？

tsuijinglei

Jun 2

@shyrock2026

用户五位数，因为是服务销售人员，销售人员大概一万多人吧；
覆盖的客户就多了，日均处理时百万级；所以 token 消耗大

Clannad0708

Jun 3

你的 agent 评估是怎么做的？基于业务吗。有没有通用形式的比如说上下文处理效率，记忆系统这些核心点的内容？

tsuijinglei

Jun 3

@Clannad0708

评估分为两个视角

首先是性能、成本方面，也就是你说的上下文处理效率，从用户发起一个请求，经过几个环节的 prompt 注入，最后得到一个结果，这中间每一个环节都需要有个留痕，通过 traceid 串起来；

有了这个基础设施之后，我基于目标的 userstory 所对应的场景，每个场景准备 n 个场景的用户 query ，保证 query 覆盖面在实际场景中能占到 70%左右；用这些 query 做端到端的观测，看上下文、skill 、思考过程中有没有什么多余的动作，这些多余的动作有没有额外的 token 消耗；

如果识别到了这种多余的动作或者异常的 token 消耗，就会走一套比较严谨的消融实验来论证要不要优化某个环节的设计；

其次是业务效果方面也会分两块，首先是客观效果，这块其实是关心业务目标，然后基于业务目标，拆解成一套可以刻画业务目标的评估维度，围绕着维度，mock 了一套测试集，定义好输入输出，因为我是销售 agent 场景,你可以理解为长得像这套 salesforce 定义的一套 benchmark,https://huggingface.co/datasets/Salesforce/CRMArena/viewer
通过这套 benchmark ，我们能够定义 agent 出厂的质量；

而主观的质量就要通过缓慢的灰度发布来一步步的和用户磨合了,每周多开一批用户，设定一个灰度预期，然后与用户泡在一起使用，看看有没有没想到的问题,直至推全；好的 agent 产品是规划不出来的；

Clannad0708

Jun 4

@tsuijinglei #4 挺好的，我也用 langfuse 串行 traceid 观测 agent 全链路调用，不过我们用的是本地小模型，问题特别多。

goofansu

Jun 4

有兴趣可以来一份简历😂 https://www.v2ex.com/t/1217902#reply0

ElroyW

Jun 10

已发邮件，远程工作岗位

19610471

Jun 21

我们这边正在做一个海外跨境 AI 客服 / 客户转化系统，方向是 Chatwoot 二开 + AI Agent + RAG 知识库 + 多语言实时翻译 + 人工接管。

目前已有 Chatwoot 企业版源码、本地测试环境、PostgreSQL / Redis 、部分 AI 客服和翻译验证。现在想找能一起做系统落地的人，第一阶段不是直接大包开发，而是先做技术审计、MVP 架构、AI 回复链路、RAG/no result 、handoff 、渠道接入方案。

比较需要懂这些方向的人：Chatwoot / Rails / Vue 、Go / Python / FastAPI 、React / TS 、RAG 、AI Agent 、客服系统、多渠道消息接入、评测和 trace 。你提到的 agent 评估、traceid 、业务 benchmark 、灰度验证这些点，和我们现在遇到的问题挺接近。

如果你也在看外部机会，方便的话可以交流下。我们更希望找能一起把产品方向、技术边界和 MVP 落地路径梳理清楚的人。

crlang

14 days ago

你好，我们是 ai 创业团队做的是 ai 数字人方面的。目前正在招一个对对话互动比较有经验和熟悉 ai 的产品经理，你感兴趣吗？我们接受兼职和全职，全远程办公。联系方式:MTU2MjYyMjkzNzU=(vx)