Skip to main content

agent-browser 是什么?

· 4 min read

agent-browser 把浏览器从"给人用的 GUI"变成了"给 AI 用的 API"。

  1. 定位:专为 AI Agent 设计的浏览器操控工具,自然语言输入、结构化结果输出。
  2. 两种实现:Vercel agent-browser 是 Rust CLI(二进制 7MB),browser-use 是 Python 框架。
  3. 核心差异:传统自动化写死每一步,agent-browser 是目标驱动——只关心"做到没有"。
  4. 底层原理:CDP 直连 + Accessibility Tree 快照,context 用量比完整 DOM 少 90%。
  5. 实际数据:WebVoyager 成功率 91.3%,单任务成本不到 $0.09。
  6. 2026 趋势:MCP 集成、本地优先、反 Bot 对抗升级三条主线。

是什么

agent-browser 是一类让 AI Agent 直接操控浏览器的工具。给 Agent 一个自然语言目标("去 GitHub 搜这个项目的 star 数"),它自己打开浏览器、导航、点击、提取信息、返回结果。

区别于 Playwright 和 Puppeteer,agent-browser 的操作者是 LLM,不是人写的脚本。它把浏览器从一个需要编程接口才能操作的环境,变成了 Agent 可以直接"使用"的工具。

目前主流有两个实现:Vercel 开源的 agent-browser(Rust CLI,二进制仅 7MB),以及 Python 生态的 browser-use(GitHub 94k stars)。

底层原理

agent-browser 的核心链路就三步:

不走 DOM,走 Accessibility Tree。

传统工具把完整 HTML 丢给 LLM,一个登录页就要 3000-5000 tokens。agent-browser 通过 Chrome DevTools Protocol 直接读取页面的无障碍树,输出结构化快照:

[3] textbox "邮箱"
[4] textbox "密码"
[5] button "登录"

每个可交互元素分配一个确定性引用(@e3@e4),LLM 直接说"填 @e3"就行。context 用量减少 90% 以上。

然后通过 CDP 的 Input.dispatchMouseEvent 模拟真实鼠标事件序列(move → press → release),比 element.click() 更接近人类操作,能正确触发 CSS :hover 和页面事件监听器。

相比传统方式

维度传统自动化(Playwright)agent-browser
驱动方式人写脚本LLM 决策
元素定位CSS/XPath 选择器无障碍树 @ref
容错能力页面一改就挂LLM 语义理解,自动适应
Context 用量3000+ tokens200-400 tokens
任务描述步骤级(click → wait → type)目标级("登录并提取数据")

说白了:传统方式是给浏览器写操作手册,agent-browser 是让 LLM 自己看、自己想、自己动。

简单例子

from browser_use import Agent
from langchain_openai import ChatOpenAI

agent = Agent(
task="去 Hacker News 首页,把排名前 5 的帖子标题和链接提取出来。",
llm=ChatOpenAI(model="gpt-4o"),
)
result = await agent.run()
print(result)

没有选择器,没有 wait_for_selector,没有"页面改了就要改代码"。你只关心结果对不对。

# Vercel agent-browser 的命令行方式
agent-browser open "https://news.ycombinator.com"
agent-browser snapshot -i
# [12] link "Show HN: My Project"
agent-browser click @e12
agent-browser screenshot --output result.png

使用场景

  • 数据采集:目标页面结构多变?LLM 自己找,不用维护选择器。
  • 自动化测试:从"验证脚本对不对"变成"验证页面功能对不对"。
  • 表单填写:Agent 理解表单语义,"姓名"填姓名、"邮箱"填邮箱,不需要知道 input name 叫什么。
  • 多步业务流程:登录 → 搜索 → 筛选 → 导出,Agent 自己规划步骤。

发展趋势

2026 年三个方向:

  1. MCP 成为标准接口。agent-browser 作为 MCP Server 暴露浏览器能力,Claude、Cursor 等任何 MCP 客户端都能直接调用。
  2. 本地优先。Kimi WebBridge 这类方案把浏览器会话留在本地,敏感数据不出设备。
  3. 反 Bot 对抗。生产环境的 headless 浏览器会被 Cloudflare 等拦截,需要住宅代理、验证码自动处理等能力。

agent-browser 不是玩具。WebVoyager 基准上已经做到 91.3% 成功率,单任务成本 $0.09。如果你的 Agent 需要跟网页交互,这大概是最值得投入的方向。

References