有什么 AI Agent 可以自动选择使用哪些模型

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

• 请不要在回答技术问题时复制粘贴 AI 生成的内容

在使用 cherry studio 时，每次对话都要指定哪个模型，且中途切换模型不能共享上下文，（比如使用 cc opus 模型总结后再使用 gemini image 生成图片就没办法达到效果）。

但是从用户角度，很直觉的用法是，比如帮我总结这个文档并生成手绘笔记图片，agent 应该自动选择合适的模型并完成这个任务。

但是目前没有发现类似的产品，或者是我不知道。如果有请大家推荐给我

第 1 条附言 · 4 天前

补充一下背景，可能我的情况比较特殊，因为公司有 ai gatway ，后面接了几乎所有所有主流模型，并提供统一 api 的方式使用,所以平时用的时候并不关心 token 和花费问题。

目前主力还是用 claud code+opus ，但是我又想将 opus 的结果使用 gemini image 生成一些图片，目前做法是将 gemini image 的 API 调用逻辑写到了 claud code skills 里，方便使用。

所以在不 care 花费的时候，应该有 agent 可以做到按需求/规则路由模型

AI Agent

model selection

context sharing

7 条回复 • 2026-01-21 09:42:40 +08:00

lumen

6 天前

你要不要试试 opencode + oh my opencode 插件

https://github.com/code-yeongyu/oh-my-opencode/blob/dev/README.zh-cn.md

Sisyphus 的队友（精选智能体）
- Oracle：设计、调试 (GPT 5.2 Medium)
- Frontend UI/UX Engineer：前端开发 (Gemini 3 Pro)
- Librarian：官方文档、开源实现、代码库探索 (Claude Sonnet 4.5)
- Explore：极速代码库探索（上下文感知 Grep ）(Grok Code)

kneo

5 天前

因为你用的就是个普通的聊天机器人，不是 agent 。

sentinelK

5 天前

这是因为模型的选用，和用户的利益成直接正相关关系。而且和结果不成线性正比。

举个简单粗暴的例子，免费模型和 opus 都可以告诉你 1+1=2 。但是 9.1 和 9.9 哪个大呢？

任何其他人、组织，都不可能客观评判你的问题哪个模型性价比最优。更别提这其中还有利益问题。

Kirkcong

5 天前

@sentinelK op 应该说的是分类选择模型，比如快速问答类的用 chat ，分析文档的用 pro ，生成图片时用 gemini

sentinelK

5 天前

@Kirkcong 一样有这个问题，如果 cherry Studio 决断用 opus 给你分析文档，一个文档分析用掉你几十美金，你会同意吗？

这还不是最恶心的。你花几十美金分析了一个文档，最后出图的时候文生图模型跑飞了。这个损失怎么算？算文生图模型的问题，还是文档分析模型的问题？还是模型调度机制的问题？

再加上你跑一半，你的某个 API token 余额透支了呢？等等这种完全不可控因素非常大。Cherry Studio 这种产品只是一个可视化 API 调度器，他不提供收费服务，自然也没有权利和义务决断你的消费选择，更不会对结果负责。

所以只有以 Request 作为收费单位（而不是 token ），才有可能合理的智能分配模型能力（比如各家的 AI Coding ，都有 Agent 模式）。

但话说回来，这种以 Request 作为收费单位的产品，其“模型选择”其实就是一个黑盒了。即便你选的是“某某模型”，其实也只是选择的收费标准。实际上跑的是不是那个模型，你的提示词被如何加工，对你都是未知的。

chunhuitrue

4 天前

@lumen 只买了一种或者两种模型，用这个插件的效果怎么样？

Kirkcong

4 天前

@sentinelK #5

1. 我应该可以选择用哪些模型，组成一个模型池。不会发生 opus 花我几十美金的情况。

2. 余额透支这个情况在哪里都会有，不是什么问题。至于你说的这些，都是可控因素，只是需要程序对其进行异常处理而已。

3. “自然也没有权利和义务决断你的消费选择，更不会对结果负责”，这说法从何而来呢？我就是为了让他替我分类选择模型才用的他，如果他不能替我做消费选择，那我用他干嘛？如果你指的是他选择了错误的模型，那这是 app 本身这个功能有问题。

4. 我不觉得用 token 为单位有什么问题，如果我发送一个大文档，那我就会有预判这次提问会消耗很多的 token 。
- token 的本质是 gpu 算力，即便改为 request 也是 token 统一打包之后的结果，价格不会有什么变化，甚至更贵。比如 iphone,有人觉得 256 、512 、1T 的存储太贵了，根本不符合市场价，这就是类似 request 打包后统一定价的结果，——消费者不需要管 ios 的开发成本，模具的开发成本，研发成本，所有价格都体现在了存储上。
- request 和 token 也是一样的，token 更细粒度的让你知道钱花在了哪儿，request 方式将中间的过程省去，直接给你打包后的价格。