2026 年初,一个名为 OpenClaw (被重命名过多次,俗称为“大龙虾”)的开源 AI 个人助理项目在 GitHub 上迅速走红,短短数周内斩获 20 万+ Stars,成为史上增长最快的开源项目之一。它究竟有何魔力?本文将从架构设计出发,带你全面了解 OpenClaw 的核心理念与工作原理。

1. OpenClaw 是什么?

OpenClaw 是由 Peter Steinberger 创建的开源本地化 AI 助理,定位是跑在你自己机器上的「私人 AI 代理」。

与市面上绝大多数 AI 产品不同,OpenClaw 有三大核心特点:

  1. 私有化部署(Privacy First):所有对话历史、工具执行记录和会话状态都保存在你自己的服务器或笔记本上,不上传任何第三方平台。
  2. 无需新 App:它将你已经在使用的即时通讯软件(WhatsApp、Telegram、Slack…)变成 AI 交互界面,你继续在熟悉的聊天界面中工作。
  3. 真正的 Agentic AI:它不只是回答问题的聊天机器人,而是能够自主执行任务的代理——读邮件、发邮件、管理日历、控制浏览器、操作文件系统,一切均在你的授权下自动完成。

2. 整体架构概览

OpenClaw 采用经典的 Hub-and-Spoke(中心辐射) 架构,核心是一个本地运行的 Gateway 守护进程。

graph TB
    subgraph Channels ["📱 Channels(接入层)"]
        WA[WhatsApp]
        TG[Telegram]
        SL[Slack]
        DC[Discord]
        IM[iMessage]
        WC[WebChat]
        MS[MS Teams]
    end

    subgraph Gateway ["🔀 Gateway(控制平面)"]
        direction TB
        GW_CORE[["Gateway Core<br/>会话管理 · 路由 · 鉴权<br/>WebSocket Server"]]
        BUS["Message Bus<br/>异步消息总线"]
        PIPE["Interceptor Pipeline<br/>消息拦截 · 过滤 · 改写"]
        GW_CORE --> BUS --> PIPE
    end

    subgraph AgentRuntime ["🧠 Agent Runtime(智能核心)"]
        direction TB
        LOOP["Agentic Loop<br/>上下文组装 → 模型推理 → 工具调用 → 流式回复"]
        MEM["Memory System<br/>短期记忆(会话上下文)<br/>长期记忆(向量数据库 / Markdown)"]
        LOOP <--> MEM
    end

    subgraph Tools ["🔧 Tools(执行层)"]
        T1["🌐 Browser<br/>Playwright 全浏览器自动化"]
        T2["📁 File System<br/>读写本地文件"]
        T3["💻 Shell / Exec<br/>执行 Shell 命令 / 代码沙箱"]
        T4["📧 Email / Calendar<br/>邮件收发 · 日历管理"]
        T5["🔍 Web Search<br/>Google / Tavily 实时搜索"]
        T6["🔌 API Calls<br/>调用任意第三方 API"]
    end

    subgraph Skills ["⚡ Skills(扩展层)"]
        SK1["AgentSkills(100+)"]
        SK2["任务分解 & 规划"]
        SK3["多 Agent 协作"]
        SK4["数据解析 & 决策"]
        SK5["MCP 工具集成"]
    end

    subgraph AIProviders ["☁️ AI Providers(模型层)"]
        direction LR
        P1["Anthropic<br/>Claude 3.5 Sonnet"]
        P2["OpenAI<br/>GPT-4o"]
        P3["Google<br/>Gemini"]
        P4["DeepSeek"]
        P5["Ollama<br/>本地模型"]
        P6["vLLM / LM Studio<br/>本地推理"]
    end

    Channels -->|"用户消息"| Gateway
    Gateway -->|"分发请求"| AgentRuntime
    AgentRuntime -->|"调用工具"| Tools
    AgentRuntime -->|"加载技能"| Skills
    AgentRuntime -->|"模型推理"| AIProviders
    AIProviders -->|"生成回复"| AgentRuntime
    Tools -->|"执行结果"| AgentRuntime
    Skills -->|"能力扩展"| AgentRuntime
    AgentRuntime -->|"最终回复"| Gateway
    Gateway -->|"推送消息"| Channels

3. 核心组件详解

3.1 Channels — 接入层

Channels 是用户与 OpenClaw 进行交互的”入口”,即各类即时通讯平台。OpenClaw 的精妙之处在于:它不要求你改变使用习惯,直接在你现有的聊天软件里接入 AI。

渠道 实现方式
WhatsApp Baileys 库(非官方 WA Web 协议)
Telegram grammY Bot API
Slack Slack Bolt SDK
Discord Discord.js
iMessage BlueBubbles / JakeSherman
WebChat 内置 Web 管理界面
Microsoft Teams Graph API
Signal / Google Chat / Matrix 社区扩展适配器

每个渠道都有独立的 Channel Adapter,负责将不同平台的消息格式统一规范化,再交给 Gateway 处理。


3.2 Gateway — 控制平面

Gateway 是整个系统的”神经中枢”,是一个常驻运行的守护进程(daemon),承担以下职责:

  • 连接管理:维护所有 Channel 的长连接(WebSocket / polling)
  • 会话路由:根据用户 ID 和上下文将消息分发给对应的 Agent 实例
  • 鉴权验证:管理 AI Provider 的 API 密钥和用户身份校验
  • 消息总线(Message Bus):采用异步消息队列,解耦各组件,支持高并发
  • 拦截管道(Interceptor Pipeline):允许插入独立的逻辑单元对消息进行检查、修改或拦截(类似中间件)

3.3 Agent Runtime — 智能核心

Agent Runtime 是执行 AI 推理的”大脑”,其核心是一个不断循环的 Agentic Loop

1
[接收消息] → [组装上下文] → [调用 AI 模型] → [解析工具调用指令] → [执行工具] → [获取结果] → [再次推理] → [流式输出回复]

这个循环会重复进行,直到任务完成或 AI 判断无需更多工具调用为止。

Memory System(记忆系统) 是 Agent Runtime 的重要组成部分:

  • 短期记忆(Short-term Memory):当前会话的对话上下文,保持在内存中
  • 长期记忆(Long-term Memory):跨会话的持久知识,通过向量数据库(如 ChromaDB)或本地 Markdown 文件存储用户偏好、重要事项和历史摘要

3.4 Tools — 执行层

Tools 是 AI 代理能够直接调用的内置功能,代表 OpenClaw 真正”动手做事”的能力。

工具 功能描述
🌐 Browser 基于 Playwright,可打开网页、抓取内容、填表、截图
📁 File System 读取、写入、搜索本地文件和目录
💻 Shell / Exec 在安全沙箱中执行 Shell 命令和代码片段
📧 Email / Calendar 收发邮件,创建/查询/更新日历事件
🔍 Web Search 接入 Google、Tavily 等实时搜索引擎
🔌 API Calls 向任意 REST API 发起 HTTP 请求
🖥️ Node(远端节点) 连接远程机器(如树莓派、另一台 Mac)提供本地化工具能力

3.5 Skills — 扩展层

Skills 是 OpenClaw 的能力扩展机制,类似于插件系统,允许社区贡献和用户自定义高阶能力。

内置超过 100 个 AgentSkills,主要能力包括:

  • 工具调用编排:将多个 Tool 组合成复杂工作流
  • 任务分解(Task Decomposition):把复杂目标拆解为可执行的子任务并按序执行
  • 多 Agent 协作:协调多个专职 Agent(如调研 Agent、执行 Agent、验证 Agent)并行工作
  • 数据解析与决策:将原始数据(JSON、网页、PDF)转化为结构化决策依据
  • MCP 工具集成:通过 MCP(Meta-Commander Protocol)无缝集成更多外部工具

Skills 正在从旧的 openclaw-* 插件模型迁移到更健壮的 Typed Tool 模型,以提升类型安全性和可测试性。


3.6 AI Providers — 模型层

OpenClaw 采用模型无关(Model Agnostic)设计,支持接入主流云端和本地大模型:

云端模型(Cloud Providers)

提供商 推荐模型 备注
Anthropic Claude 3.5 Sonnet / Claude 3 Opus 官方强烈推荐,工具调用能力最强
OpenAI GPT-4o / o3 综合能力强,生态完善
Google Gemini 2.0 Flash / Pro 长上下文表现优异
DeepSeek DeepSeek-V3 / R1 性价比高,代码能力强
Groq / Mistral 各系列模型 高速推理

本地模型(Local Providers,完全离线)

提供商 说明
Ollama 一键安装,支持 Llama、Qwen、Mistral 等数十个模型
vLLM 高性能 LLM 推理服务,适合企业自建
LM Studio 桌面端本地模型管理器,操作友好

4. 典型交互流程

以”帮我查一下明天上午10点的日历,如果没有安排,帮我预约一个会议”为例:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
1. 用户通过 Telegram 发送消息
       ↓
2. Telegram Channel Adapter 接收并规范化消息
       ↓
3. Gateway 路由到对应的 Agent Runtime
       ↓
4. Agent 组装上下文(包含历史记忆)
       ↓
5. Agent 调用 AI Provider(Claude)进行推理
       ↓
6. Claude 返回:调用 Calendar Tool,查询明天10点时间段
       ↓
7. Calendar Tool 执行查询 → 返回"该时段为空"
       ↓
8. Claude 再次推理:调用 Calendar Tool,创建会议事件
       ↓
9. Calendar Tool 执行创建 → 返回创建成功信息
       ↓
10. Claude 生成最终回复:"已为你在明天上午10点创建了会议..."
       ↓
11. Gateway 通过 Telegram 推送回复给用户

5. 部署方式

5.1 快速安装

1
2
3
4
5
6
7
8
9
# 一键安装脚本
curl -fsSL https://openclaw.ai/install.sh | sh

# 或通过 Docker
docker run -d \
  -e ANTHROPIC_API_KEY=sk-... \
  -v ~/.openclaw:/data \
  -p 3000:3000 \
  openclaw/openclaw:latest

5.2 配置 AI Provider

安装后,通过 Web Admin UI(默认 http://localhost:3000)进行配置:

  1. 进入 Settings → AI Providers,输入 API 密钥
  2. 选择默认模型(建议先用 Claude 3.5 Sonnet 体验)
  3. 进入 Channels 标签页,扫码或填写 Token 接入 WhatsApp / Telegram

5.3 部署拓扑

1
2
3
4
5
[你的手机/电脑] ←→ [WhatsApp / Telegram] ←→ [OpenClaw Gateway]
                                                      ↕
                                             [本地文件 / 邮件 / 日历]
                                                      ↕
                                              [Claude / GPT-4o API]

注意:如果部署在 VPS 上,WhatsApp 和 iMessage 等渠道需要通过”Node”功能将本地设备注册为远端计算节点,才能访问本地化数据。


6. 安全注意事项

OpenClaw 功能强大,但也意味着更高的安全责任:

  • API 密钥保护:确保配置文件(.env)权限严格,避免泄露云端模型密钥
  • Shell 执行风险:默认启用的 Exec 工具可执行任意 Shell 命令,建议在受信环境中使用或配置执行白名单
  • 邮件权限管控:2024年底曾有安全研究员的邮件收件箱因误操作被代理清空的事件,建议仅给予必要的最小权限
  • 数据本地化:OpenClaw 的对话数据默认保存在本地,但建议定期备份 ~/.openclaw 目录

7. 总结

OpenClaw 代表了 AI 助理从”对话型“向”执行型“演进的重要趋势。它的核心价值在于:

  • 你掌控数据:私有部署,会话历史不外流
  • 无缝融入工作流:利用现有聊天软件,零学习成本
  • 真正自动化:不只是建议,而是帮你真正”动手做”
  • 模型灵活切换:既可用 Claude/GPT 等顶级云端模型,也可完全离线运行本地模型

对于 CAD/IT 基础架构团队而言,OpenClaw 提供了一个令人兴奋的可能性:将日常的工单处理、日志查询、环境检查等重复性工作通过 Shell Tool + API Tool 实现自动化,工程师只需在 Slack 或 Telegram 里发一条消息,代理便能自主完成整个操作链路。


参考资料