agent-browser 是什么?
agent-browser 把浏览器从"给人用的 GUI"变成了"给 AI 用的 API"。
- 定位:专为 AI Agent 设计的浏览器操控工具,自然语言输入、结构化结果输出。
- 两种实现:Vercel agent-browser 是 Rust CLI(二进制 7MB),browser-use 是 Python 框架。
- 核心差异:传统自动化写死每一步,agent-browser 是目标驱动——只关心"做到没有"。
- 底层原理:CDP 直连 + Accessibility Tree 快照,context 用量比完整 DOM 少 90%。
- 实际数据:WebVoyager 成功率 91.3%,单任务成本不到 $0.09。
- 2026 趋势:MCP 集成、本地优先、反 Bot 对抗升级三条主线。
是什么
agent-browser 是一类让 AI Agent 直接操控浏览器的工具。给 Agent 一个自然语言目标("去 GitHub 搜这个项目的 star 数"),它自己打开浏览器、导航、点击、提取信息、返回结果。
区别于 Playwright 和 Puppeteer,agent-browser 的操作者是 LLM,不是人写的脚本。它把浏览器从一个需要编程接口才能操作的环境,变成了 Agent 可以直接"使用"的工具。
目前主流有两个实现:Vercel 开源的 agent-browser(Rust CLI,二进制仅 7MB),以及 Python 生态的 browser-use(GitHub 94k stars)。
底层原理
agent-browser 的核心链路就三步:
不走 DOM,走 Accessibility Tree。
传统工具把完整 HTML 丢给 LLM,一个登录页就要 3000-5000 tokens。agent-browser 通过 Chrome DevTools Protocol 直接读取页面的无障碍树,输出结构化快照:
[3] textbox "邮箱"
[4] textbox "密码"
[5] button "登录"
每个可交互元素分配一个确定性引用(@e3、@e4),LLM 直接说"填 @e3"就行。context 用量减少 90% 以上。
然后通过 CDP 的 Input.dispatchMouseEvent 模拟真实鼠标事件序列(move → press → release),比 element.click() 更接近人类操作,能正确触发 CSS :hover 和页面事件监听器。
相比传统方式
| 维度 | 传统自动化(Playwright) | agent-browser |
|---|---|---|
| 驱动方式 | 人写脚本 | LLM 决策 |
| 元素定位 | CSS/XPath 选择器 | 无障碍树 @ref |
| 容错能力 | 页面一改就挂 | LLM 语义理解,自动适应 |
| Context 用量 | 3000+ tokens | 200-400 tokens |
| 任务描述 | 步骤级(click → wait → type) | 目标级("登录并提取数据") |
说白了:传统方式是给浏览器写操作手册,agent-browser 是让 LLM 自己看、自己想、自己动。
简单例子
from browser_use import Agent
from langchain_openai import ChatOpenAI
agent = Agent(
task="去 Hacker News 首页,把排名前 5 的帖子标题和链接提取出来。",
llm=ChatOpenAI(model="gpt-4o"),
)
result = await agent.run()
print(result)
没有选择器,没有 wait_for_selector,没有"页面改了就要改代码"。你只关心结果对不对。
# Vercel agent-browser 的命令行方式
agent-browser open "https://news.ycombinator.com"
agent-browser snapshot -i
# [12] link "Show HN: My Project"
agent-browser click @e12
agent-browser screenshot --output result.png
使用场景
- 数据采集:目标页面结构多变?LLM 自己找,不用维护选择器。
- 自动化测试:从"验证脚本对不对"变成"验证页面功能对不对"。
- 表单填写:Agent 理解表单语义,"姓名"填姓名、"邮箱"填邮箱,不需要知道 input name 叫什么。
- 多步业务流程:登录 → 搜索 → 筛选 → 导出,Agent 自己规划步骤。
发展趋势
2026 年三个方向:
- MCP 成为标准接口。agent-browser 作为 MCP Server 暴露浏览器能力,Claude、Cursor 等任何 MCP 客户端都能直接调用。
- 本 地优先。Kimi WebBridge 这类方案把浏览器会话留在本地,敏感数据不出设备。
- 反 Bot 对抗。生产环境的 headless 浏览器会被 Cloudflare 等拦截,需要住宅代理、验证码自动处理等能力。
agent-browser 不是玩具。WebVoyager 基准上已经做到 91.3% 成功率,单任务成本 $0.09。如果你的 Agent 需要跟网页交互,这大概是最值得投入的方向。