2026 年初,一个名为 OpenClaw (被重命名过多次,俗称为“大龙虾”)的开源 AI 个人助理项目在 GitHub 上迅速走红,短短数周内斩获 20 万+ Stars,成为史上增长最快的开源项目之一。它究竟有何魔力?本文将从架构设计出发,带你全面了解 OpenClaw 的核心理念与工作原理。
1. OpenClaw 是什么?
OpenClaw 是由 Peter Steinberger 创建的开源本地化 AI 助理,定位是跑在你自己机器上的「私人 AI 代理」。
与市面上绝大多数 AI 产品不同,OpenClaw 有三大核心特点:
- 私有化部署(Privacy First):所有对话历史、工具执行记录和会话状态都保存在你自己的服务器或笔记本上,不上传任何第三方平台。
- 无需新 App:它将你已经在使用的即时通讯软件(WhatsApp、Telegram、Slack…)变成 AI 交互界面,你继续在熟悉的聊天界面中工作。
- 真正的 Agentic AI:它不只是回答问题的聊天机器人,而是能够自主执行任务的代理——读邮件、发邮件、管理日历、控制浏览器、操作文件系统,一切均在你的授权下自动完成。
2. 整体架构概览
OpenClaw 采用经典的 Hub-and-Spoke(中心辐射) 架构,核心是一个本地运行的 Gateway 守护进程。
graph TB
subgraph Channels ["📱 Channels(接入层)"]
WA[WhatsApp]
TG[Telegram]
SL[Slack]
DC[Discord]
IM[iMessage]
WC[WebChat]
MS[MS Teams]
end
subgraph Gateway ["🔀 Gateway(控制平面)"]
direction TB
GW_CORE[["Gateway Core<br/>会话管理 · 路由 · 鉴权<br/>WebSocket Server"]]
BUS["Message Bus<br/>异步消息总线"]
PIPE["Interceptor Pipeline<br/>消息拦截 · 过滤 · 改写"]
GW_CORE --> BUS --> PIPE
end
subgraph AgentRuntime ["🧠 Agent Runtime(智能核心)"]
direction TB
LOOP["Agentic Loop<br/>上下文组装 → 模型推理 → 工具调用 → 流式回复"]
MEM["Memory System<br/>短期记忆(会话上下文)<br/>长期记忆(向量数据库 / Markdown)"]
LOOP <--> MEM
end
subgraph Tools ["🔧 Tools(执行层)"]
T1["🌐 Browser<br/>Playwright 全浏览器自动化"]
T2["📁 File System<br/>读写本地文件"]
T3["💻 Shell / Exec<br/>执行 Shell 命令 / 代码沙箱"]
T4["📧 Email / Calendar<br/>邮件收发 · 日历管理"]
T5["🔍 Web Search<br/>Google / Tavily 实时搜索"]
T6["🔌 API Calls<br/>调用任意第三方 API"]
end
subgraph Skills ["⚡ Skills(扩展层)"]
SK1["AgentSkills(100+)"]
SK2["任务分解 & 规划"]
SK3["多 Agent 协作"]
SK4["数据解析 & 决策"]
SK5["MCP 工具集成"]
end
subgraph AIProviders ["☁️ AI Providers(模型层)"]
direction LR
P1["Anthropic<br/>Claude 3.5 Sonnet"]
P2["OpenAI<br/>GPT-4o"]
P3["Google<br/>Gemini"]
P4["DeepSeek"]
P5["Ollama<br/>本地模型"]
P6["vLLM / LM Studio<br/>本地推理"]
end
Channels -->|"用户消息"| Gateway
Gateway -->|"分发请求"| AgentRuntime
AgentRuntime -->|"调用工具"| Tools
AgentRuntime -->|"加载技能"| Skills
AgentRuntime -->|"模型推理"| AIProviders
AIProviders -->|"生成回复"| AgentRuntime
Tools -->|"执行结果"| AgentRuntime
Skills -->|"能力扩展"| AgentRuntime
AgentRuntime -->|"最终回复"| Gateway
Gateway -->|"推送消息"| Channels
3. 核心组件详解
3.1 Channels — 接入层
Channels 是用户与 OpenClaw 进行交互的”入口”,即各类即时通讯平台。OpenClaw 的精妙之处在于:它不要求你改变使用习惯,直接在你现有的聊天软件里接入 AI。
| 渠道 | 实现方式 |
|---|---|
| Baileys 库(非官方 WA Web 协议) | |
| Telegram | grammY Bot API |
| Slack | Slack Bolt SDK |
| Discord | Discord.js |
| iMessage | BlueBubbles / JakeSherman |
| WebChat | 内置 Web 管理界面 |
| Microsoft Teams | Graph API |
| Signal / Google Chat / Matrix | 社区扩展适配器 |
每个渠道都有独立的 Channel Adapter,负责将不同平台的消息格式统一规范化,再交给 Gateway 处理。
3.2 Gateway — 控制平面
Gateway 是整个系统的”神经中枢”,是一个常驻运行的守护进程(daemon),承担以下职责:
- 连接管理:维护所有 Channel 的长连接(WebSocket / polling)
- 会话路由:根据用户 ID 和上下文将消息分发给对应的 Agent 实例
- 鉴权验证:管理 AI Provider 的 API 密钥和用户身份校验
- 消息总线(Message Bus):采用异步消息队列,解耦各组件,支持高并发
- 拦截管道(Interceptor Pipeline):允许插入独立的逻辑单元对消息进行检查、修改或拦截(类似中间件)
3.3 Agent Runtime — 智能核心
Agent Runtime 是执行 AI 推理的”大脑”,其核心是一个不断循环的 Agentic Loop:
1
[接收消息] → [组装上下文] → [调用 AI 模型] → [解析工具调用指令] → [执行工具] → [获取结果] → [再次推理] → [流式输出回复]
这个循环会重复进行,直到任务完成或 AI 判断无需更多工具调用为止。
Memory System(记忆系统) 是 Agent Runtime 的重要组成部分:
- 短期记忆(Short-term Memory):当前会话的对话上下文,保持在内存中
- 长期记忆(Long-term Memory):跨会话的持久知识,通过向量数据库(如 ChromaDB)或本地 Markdown 文件存储用户偏好、重要事项和历史摘要
3.4 Tools — 执行层
Tools 是 AI 代理能够直接调用的内置功能,代表 OpenClaw 真正”动手做事”的能力。
| 工具 | 功能描述 |
|---|---|
| 🌐 Browser | 基于 Playwright,可打开网页、抓取内容、填表、截图 |
| 📁 File System | 读取、写入、搜索本地文件和目录 |
| 💻 Shell / Exec | 在安全沙箱中执行 Shell 命令和代码片段 |
| 📧 Email / Calendar | 收发邮件,创建/查询/更新日历事件 |
| 🔍 Web Search | 接入 Google、Tavily 等实时搜索引擎 |
| 🔌 API Calls | 向任意 REST API 发起 HTTP 请求 |
| 🖥️ Node(远端节点) | 连接远程机器(如树莓派、另一台 Mac)提供本地化工具能力 |
3.5 Skills — 扩展层
Skills 是 OpenClaw 的能力扩展机制,类似于插件系统,允许社区贡献和用户自定义高阶能力。
内置超过 100 个 AgentSkills,主要能力包括:
- 工具调用编排:将多个 Tool 组合成复杂工作流
- 任务分解(Task Decomposition):把复杂目标拆解为可执行的子任务并按序执行
- 多 Agent 协作:协调多个专职 Agent(如调研 Agent、执行 Agent、验证 Agent)并行工作
- 数据解析与决策:将原始数据(JSON、网页、PDF)转化为结构化决策依据
- MCP 工具集成:通过 MCP(Meta-Commander Protocol)无缝集成更多外部工具
Skills 正在从旧的 openclaw-* 插件模型迁移到更健壮的 Typed Tool 模型,以提升类型安全性和可测试性。
3.6 AI Providers — 模型层
OpenClaw 采用模型无关(Model Agnostic)设计,支持接入主流云端和本地大模型:
云端模型(Cloud Providers)
| 提供商 | 推荐模型 | 备注 |
|---|---|---|
| Anthropic | Claude 3.5 Sonnet / Claude 3 Opus | 官方强烈推荐,工具调用能力最强 |
| OpenAI | GPT-4o / o3 | 综合能力强,生态完善 |
| Gemini 2.0 Flash / Pro | 长上下文表现优异 | |
| DeepSeek | DeepSeek-V3 / R1 | 性价比高,代码能力强 |
| Groq / Mistral | 各系列模型 | 高速推理 |
本地模型(Local Providers,完全离线)
| 提供商 | 说明 |
|---|---|
| Ollama | 一键安装,支持 Llama、Qwen、Mistral 等数十个模型 |
| vLLM | 高性能 LLM 推理服务,适合企业自建 |
| LM Studio | 桌面端本地模型管理器,操作友好 |
4. 典型交互流程
以”帮我查一下明天上午10点的日历,如果没有安排,帮我预约一个会议”为例:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
1. 用户通过 Telegram 发送消息
↓
2. Telegram Channel Adapter 接收并规范化消息
↓
3. Gateway 路由到对应的 Agent Runtime
↓
4. Agent 组装上下文(包含历史记忆)
↓
5. Agent 调用 AI Provider(Claude)进行推理
↓
6. Claude 返回:调用 Calendar Tool,查询明天10点时间段
↓
7. Calendar Tool 执行查询 → 返回"该时段为空"
↓
8. Claude 再次推理:调用 Calendar Tool,创建会议事件
↓
9. Calendar Tool 执行创建 → 返回创建成功信息
↓
10. Claude 生成最终回复:"已为你在明天上午10点创建了会议..."
↓
11. Gateway 通过 Telegram 推送回复给用户
5. 部署方式
5.1 快速安装
1
2
3
4
5
6
7
8
9
# 一键安装脚本
curl -fsSL https://openclaw.ai/install.sh | sh
# 或通过 Docker
docker run -d \
-e ANTHROPIC_API_KEY=sk-... \
-v ~/.openclaw:/data \
-p 3000:3000 \
openclaw/openclaw:latest
5.2 配置 AI Provider
安装后,通过 Web Admin UI(默认 http://localhost:3000)进行配置:
- 进入 Settings → AI Providers,输入 API 密钥
- 选择默认模型(建议先用 Claude 3.5 Sonnet 体验)
- 进入 Channels 标签页,扫码或填写 Token 接入 WhatsApp / Telegram
5.3 部署拓扑
1
2
3
4
5
[你的手机/电脑] ←→ [WhatsApp / Telegram] ←→ [OpenClaw Gateway]
↕
[本地文件 / 邮件 / 日历]
↕
[Claude / GPT-4o API]
注意:如果部署在 VPS 上,WhatsApp 和 iMessage 等渠道需要通过”Node”功能将本地设备注册为远端计算节点,才能访问本地化数据。
6. 安全注意事项
OpenClaw 功能强大,但也意味着更高的安全责任:
- API 密钥保护:确保配置文件(
.env)权限严格,避免泄露云端模型密钥 - Shell 执行风险:默认启用的
Exec工具可执行任意 Shell 命令,建议在受信环境中使用或配置执行白名单 - 邮件权限管控:2024年底曾有安全研究员的邮件收件箱因误操作被代理清空的事件,建议仅给予必要的最小权限
- 数据本地化:OpenClaw 的对话数据默认保存在本地,但建议定期备份
~/.openclaw目录
7. 总结
OpenClaw 代表了 AI 助理从”对话型“向”执行型“演进的重要趋势。它的核心价值在于:
- 你掌控数据:私有部署,会话历史不外流
- 无缝融入工作流:利用现有聊天软件,零学习成本
- 真正自动化:不只是建议,而是帮你真正”动手做”
- 模型灵活切换:既可用 Claude/GPT 等顶级云端模型,也可完全离线运行本地模型
对于 CAD/IT 基础架构团队而言,OpenClaw 提供了一个令人兴奋的可能性:将日常的工单处理、日志查询、环境检查等重复性工作通过 Shell Tool + API Tool 实现自动化,工程师只需在 Slack 或 Telegram 里发一条消息,代理便能自主完成整个操作链路。
参考资料
- OpenClaw GitHub Repository:项目源码(MIT License)
- OpenClaw Documentation:官方文档
- OpenClaw Architecture Deep Dive (Substack):Hub-and-Spoke 架构详解
- Running OpenClaw with Ollama (DigitalOcean):本地模型部署教程
- OpenClaw on Wikipedia:项目历史与背景