[开源] 当 AI Agent 学会三思而后行

• 请不要在回答技术问题时复制粘贴 AI 生成的内容

This topic created in 52 days ago, the information mentioned may be changed or developed.

背景：养虾繁荣背后的隐忧

2024 年以来，以 OpenClaw 为代表的开源 AI Agent 助手如雨后春笋般涌现。这些工具让开发者能够通过自然语言指挥 AI 执行文件操作、运行命令、调用 API ，极大地提升了工作效率。然而，在这场技术狂欢背后，一个关键问题被普遍忽视：安全问题。

绝大多数 AI Agent 采用"云端 LLM → 工具执行"的直连架构。用户的一句"帮我清理临时文件"，云端模型可能生成一条 rm -rf /tmp/* 的命令，而系统在权限允许的情况下会直接执行。这种设计存在三个致命缺陷：

意图劫持风险：恶意提示词注入可能让模型执行超出用户预期的操作
数据外泄隐患：模型可能生成将敏感文件上传到外部服务器的命令
破坏性操作无拦截：删除、覆盖等高危操作缺乏二次确认机制

更严峻的是，这些问题在现有开源方案中几乎无解——因为它们将安全完全寄托于云端模型的"自律"，而模型本身并不理解本地文件系统的敏感性和操作的不可逆性。

双脑架构：一种新的安全范式

Kocort 项目提出了一种不同的思路：双脑架构（ Dual-Brain Architecture ）。其核心思想借鉴了人类神经系统的分工——大脑负责复杂推理，小脑负责快速反射和安全监控。

在技术实现上：

大脑（ Brain ）：云端大模型（ GPT-4 、Claude 等）负责理解用户意图、制定执行策略
小脑（ Cerebellum ）：本地量化模型（ 0.8B-1.5B 参数）完全离线运行，对每一条工具调用做语义安全审查

这种架构的关键创新在于：**将安全审查从"规则匹配"升级为"语义理解"**。传统的工具策略（ Tool Policy ）只能基于白名单/黑名单做静态拦截，而小脑模型能够理解"这条命令是否真的符合用户的原始请求"。

技术实现深度解析

审查管线集成

在 Kocort 的 Runtime 执行管线中，小脑审查被深度集成到 pipeline_execute 阶段。每次云端模型产生 tool_call 后，执行流程如下：

┌─────────────────┐    ┌─────────────────┐    ┌─────────────────┐
│  云端 LLM 输出   │ →  │  小脑语义审查    │ →  │  工具执行/拦截   │
│  tool_call      │    │  approve/flag   │    │                 │
│                 │    │  /reject        │    │                 │
└─────────────────┘    └─────────────────┘    └─────────────────┘

核心代码位于 internal/cerebellum/cerebellum.go：

func (m *Manager) ReviewToolCall(req ToolCallReviewRequest) (ToolCallReviewResult, error) {
    status := m.local.Status()
    
    // 优雅降级：小脑不可用时自动放行，不阻塞流程
    if status != StatusRunning {
        return ToolCallReviewResult{
            Verdict: "approve",
            Reason:  "cerebellum not running; degraded to rule-only check",
            Risk:    "none",
        }, nil
    }
    
    // 构建审查 Prompt ，包含用户原始请求和工具调用参数
    prompt := buildToolCallReviewPrompt(
        req.UserMessage, 
        req.ToolName, 
        req.ToolParams
    )
    
    // 本地模型同步推理（使用 llama.cpp CGO 绑定）
    output, err := m.inferSync(prompt, 4096)
    if err != nil {
        // 推理失败时同样降级放行
        return ToolCallReviewResult{
            Verdict: "approve",
            Reason:  "inference failed; degraded to rule-only check",
            Risk:    "none",
        }, nil
    }
    
    // 解析审查结果
    result := parseToolCallReviewOutput(output)
    return result, nil
}

审查 Prompt 设计

小脑模型的系统指令经过精心设计，要求从 5 个维度进行评估：

你是一个安全审查助手。你的任务是审查 AI Agent 工具调用指令是否安全。

## 审查要点
1. 指令是否与用户原始请求的意图一致？
2. 是否存在数据外泄风险（如 curl 上传敏感文件）？
3. 是否存在超出用户预期的破坏性操作（如删除非目标文件）？
4. 参数中是否包含注入攻击（如命令注入、路径遍历）？
5. 操作范围是否限制在沙盒授权目录内？

## 输出格式（严格 JSON ）
{"verdict": "approve|flag|reject", "reason": "简短原因", "risk": "none|low|medium|high"}

这种设计让小脑模型能够理解上下文语义，而不仅仅是匹配关键词。例如：

用户说"帮我看看配置文件"，模型生成 cat ~/.aws/credentials → 小脑可能标记为 flag（敏感文件读取）
用户说"删除下载文件夹里的临时文件"，模型生成 rm ~/Downloads/*.tmp → 小脑可能 approve（符合预期）

智能跳过机制

为了平衡安全性与响应速度，Kocort 实现了基于风险分级的智能跳过：

func ShouldReviewToolCall(toolName string, toolParams map[string]any, isElevated bool) bool {
    // 配置模式不需要审查
    if isConfigMode {
        return false
    }
    
    // 低风险只读工具默认跳过，除非包含敏感关键词
    if isLowRiskReadOnly(toolName) {
        if localmodel.ContainsSensitiveKeywords(toolParams) {
            return true
        }
        return false
    }
    
    // 提权操作必须审查
    if isElevated {
        return true
    }
    
    // 包含敏感关键词的必须审查
    if localmodel.ContainsSensitiveKeywords(toolParams) {
        return true
    }
    
    return true
}

这种机制让 memory_search、sessions_list 等只读操作在正常情况下快速通过，而 exec、write、delete 等高危操作始终接受审查。