我花了好几个小时，终于把 OpenClaw 调到像人类一样控制浏览器了

这篇文章讲什么

AI浏览器自动化不稳定的根本原因并非模型能力不足，而是“浏览器上下文分裂”。当AI通过多种路径（如MCP、Playwright、扩展或本地命令）操作浏览器时，实际上处于不同的浏览器实例、profile与状态中，导致登录态丢失、操作混乱与行为不连续。解决方案在于将所有操作收敛到单一链路：复用系统Chrome，通过Browser Relay接管当前tab，并基于DOM而非截图进行页面读取。同时，需禁止fallback路径，确保环境一致性。最终，使AI从“偶发成功的脚本”进化为“稳定持续操作的浏览器代理”，实现接近人类的自动化体验。

适合谁看

适合关注ai、agent、openclaw的读者。

核心观点

Carry

2026年3月24日

1 0

AI 浏览器自动化不稳定，99%不是模型问题

我刚把 OpenClaw（龙虾🦞）调到像人类一样稳定控制浏览器，才真正搞明白这件事。

很多人遇到的是这种情况：

一会儿乱点按钮
一会儿新开窗口
一会儿掉登录态
一会儿靠截图“猜页面”
一会儿像失忆一样不知道自己在哪个 tab

看起来像什么？

👉 模型不稳定
👉 自动化能力不够

其实都不是。

真正的问题只有一个

AI 没有活在同一个浏览器世界里。

表象：你以为它在一个浏览器里

我一开始也以为很简单：

让 OpenClaw 控制我正在用的 Chrome：

打开 X
搜索
滚动
点链接
切 tab

听起来很基础对吧？

结果一上来就崩：

有时候用我的 Chrome
有时候新开一个浏览器
有时候有登录态
有时候又变未登录

很多人会觉得：

cookie 丢了 ❌
会话过期 ❌
网站抽风 ❌

不是。

本质：浏览器上下文分裂

OpenClaw 在“打开浏览器”这件事上，可能会走很多路径：

browser_* 工具
Playwright MCP
Chrome extension relay
opencli
shell 直接拉起 Chrome

这些路径表面一样，本质完全不同：

不同 profile
不同 cookie
不同 tab
不同 DOM 状态

结果就是：

你以为 AI 在连续操作
其实它每一步都在不同浏览器里

核心结论

浏览器链路是否唯一，决定一切。

为什么浏览器自动化最容易翻车？

不是因为慢，而是：

不一致。

解法：收敛成一条链路

我最后只做了一件事：

把所有路径收敛成一条。

核心方案（一句话）

只保留一条浏览器主链路：系统 Chrome + Browser Relay + DOM 读取

架构拆解（三层）

1️⃣ 浏览器固定为系统 Chrome

不用隔离浏览器，不新开实例。

直接复用已有环境：

X
GitHub
Gmail
飞书
各类后台

👉 本质：复用真实用户上下文

2️⃣ 控制方式固定为 Browser Relay

不是 MCP，不是 opencli。

👉 是真正接管当前 tab 的链路

3️⃣ 用 tab 状态判断是否成功

不要靠感觉。

看这个：

chrome: running (0 tabs) ❌
chrome: running (1 tabs) ✅

👉 这是分水岭

稳定性的关键5步

1️⃣ 默认 browser profile = chrome
（保证路径唯一）

2️⃣ 安装 Browser Relay 扩展
（只是开始）

3️⃣ 填对 gateway token
（极易出错）

4️⃣ 在目标 tab 手动点 ON
（真正 attach）

5️⃣ 禁止 fallback
（不允许偷偷换浏览器路径）

进一步优化（让它“像人”）

✅ 优化1：读取优先 DOM，不是截图

snapshot / evaluate → 结构数据 ✅
screenshot → 猜 ❌

👉 决定是否能连续操作

✅ 优化2：滚动用 JS

固定流程：

window.scrollBy(...)

然后：

wait
再读取

👉 操作必须可重复，而不是临场发挥

调通后的变化（质变）

不再新开未登录窗口
能连续操作 X / GitHub
能滚动 + 读取 + 点击
不再“抽风式自动化”

你会明显感觉：

它不再是“偶尔成功的脚本”
而是“持续操作浏览器的代理”

三句总结（核心认知）

AI 不稳定，不是因为它不聪明
而是因为它活在多个浏览器世界里

浏览器自动化最大的问题
不是慢，而是上下文分裂

关键不是给 AI 一个浏览器
而是让它始终走同一条链路

后续

如果你也在做 AI Agent / 浏览器自动化，这个坑基本绕不过去。

我已经把这套方案整理成一个内部 skill：

👉 auto-chrome-control

后面会放到 DeepCarry 会员社区里。

#agent #openclaw #chrome

OpenClaw Agent Team：多 Agent 分工的判断、组织与验收方法

OpenClaw Agent Team 是 DeepCarry 对多 Agent 协作的实践总结。文章用普通经营决策和内容创作案例，讲清楚主 Agent、子 Agent 与测试验收 Agent 如何分工、综合和交付。

2026年5月17日

你的 OpenClaw 已经暴露在公网，正在被扫描

OpenClaw 爆火仅 2 个月，已有约 54 万个 Agent 暴露在公网，正面临被扫描与攻击的风险。许多用户误以为自己在“本地运行”，但实际上已将整个 AI Agent 系统暴露在互联网。风险不仅是页面访问，而是控制入口、上下文、API Key 与执行权限的全面暴露。一旦被发现，可能迅速演变为漏洞利用、资源滥用甚至实例接管。是否暴露取决于监听地址、公网 IP 和端口开放三项条件。AI Agent 时代的安全问题，本质不再是技术，而是认知——你暴露的不是服务，而是你的 AI 分身控制权。

2026年3月18日

到底什么是 AI Native（AI 原生）？

很多人听过 AI-native，却很难真正解释清楚。本文用一句话拆解 AI-native 的核心定义：不是更快使用 AI，而是把“完成任务的方法”沉淀为可复用、可验证、会进化的系统能力。文章通过结构模型、五级成熟度、自测方法与 7 天升级路径，帮助你判断自己所处阶段，并从“AI 使用者”进化为真正的 AI-native 构建者。

2026年2月20日

我见过最可怕的工位：没人，电脑在上班！AI员工，已经悄然到来......

AI员工正在从概念走向现实。部分科技公司已开始部署可持续运行的AI执行体，它们不再只是工具，而是能够接收任务、操作系统、跨流程执行并交付结果的“岗位能力”。从企业级Agent平台到开源框架的普及，AI执行能力正在被结构性释放。这并不意味着大规模裁员会立刻发生，但意味着组织将逐步从“人类执行结构”转向“人类判断结构”。未来的变化，不是岗位一夜消失，而是执行权的慢慢转移。真正值得思考的，是在这一趋势中，我们的能力结构是否具备不可替代性。

2026年2月12日