做过浏览器自动化的都知道,以前要么写一堆Selenium、Playwright脚本,要么配无头浏览器、写复杂的XPath/CSS选择器,繁琐还容易出错。现在阿里开源的PageAgent直接把门槛拉到最低——纯前端JS、一行引入、自然语言控制、不用写冗余代码,彻底改变网页自动化玩法 。
一、PageAgent到底是什么?
PageAgent是阿里巴巴2026年开源的纯前端GUI智能体框架,定位是「住在网页里的AI操作员」。
- 核心:用自然语言直接控制网页,不用写选择器、不用后端、不用浏览器扩展 。
- 运行:完全在浏览器JS环境里跑,直接解析DOM、执行点击/输入/导航等操作。
- 优势:零环境依赖、纯前端、低延迟、可接入任意LLM 。
- 协议:MIT开源,可商用、可修改。
- 数据:截至2026年3月,GitHub已获超14000星,是当前最火的AI浏览器自动化开源项目之一。
二、对比传统方案:为什么说它是降维打击?
以前做浏览器自动化,痛点一堆:

- 要装Python/Node、配无头浏览器、写大量定位代码 。
- 动态页面、反爬、元素变化,脚本经常失效 。
- 依赖截图/OCR/多模态模型,成本高、速度慢 。
PageAgent直接解决这些问题:
1. 部署:一行代码搞定,零后端零扩展
- 传统:环境搭建+配置+写脚本,半天起步 。
- PageAgent: [xss_clean][xss_clean] 直接用。
- 不用Python、不用无头浏览器、不用装插件(可选插件支持多标签) 。
2. 交互:自然语言代替代码,不用写选择器
- 传统: driver.find_element(By.XPATH, "//button[text()='登录']").click() 。
- PageAgent: agent.execute("点击登录按钮") 一句话搞定 。
- 支持复杂指令:「帮我填表单、提交订单、导出数据」「找到最近3条订单并导出Excel」 。
3. 原理:直接操作DOM,不依赖视觉识别
- 传统:依赖选择器,页面改版就失效。
- PageAgent:读取DOM结构,发给LLM做语义理解,再执行操作,不用截图、不用OCR 。
- 优势:速度快、成本低、兼容性好 。
4. 灵活性:可接入任意LLM,支持本地离线
- 支持通义千问、GPT、Claude、DeepSeek等主流模型。
- 可接入Ollama实现本地离线运行,数据不离开浏览器 。
- 生产环境可替换为自有LLM,安全可控。
三、快速上手:3分钟体验,零门槛
方式一:CDN一行代码接入(体验版)
1. 新建HTML文件,加入以下代码:
html
<!-- 引入PageAgent -->
[xss_clean][xss_clean]
2. 打开文件,右下角出现AI助手图标。
3. 输入指令:「点击登录按钮」「填写用户名和密码」,自动执行。
方式二:NPM安装(生产推荐)
1. 安装依赖: npm install page-agent 。
2. 引入并初始化:
javascript
import { PageAgent } from 'page-agent'
const agent = new PageAgent({
model: 'qwen3.5-plus',
baseURL: 'https://dashscope.aliyuncs.com/compatible-mode/v1',
apiKey: '你的API密钥',
language: 'zh-CN',
})
// 执行指令
await agent.execute('帮我填写表单并提交')
3. 支持切换为OpenAI、Claude等模型。
四、实用场景:覆盖90%日常需求
1. 智能表单填写
- 报销、入职、报名等表单,一句话自动填写,告别重复操作 。
- 适合ERP、CRM、后台管理系统,提升效率50%以上 。
2. SaaS产品AI副驾
- 几行代码给产品加AI助手,不用改后端,用户用自然语言操作 。
- 降低用户学习成本,提升产品体验 。
3. 网页数据采集
- 「帮我抓取页面所有商品名称和价格」,自动提取并整理数据 。
- 不用写爬虫,不用处理反爬,适合临时数据需求。
4. 无障碍访问
- 支持语音指令,让视力障碍用户通过自然语言操作网页 。
- 零代码实现无障碍功能,符合国家相关规范 。
5. 自动化测试
- 快速生成测试用例,用自然语言描述测试步骤。
- 适合快速原型测试、临时验证,不用写复杂测试脚本。
五、优势与局限:客观看待,合理使用
核心优势
- 零门槛:一行代码接入,不用环境配置 。
- 自然语言:不用写代码,降低自动化门槛 。
- 纯前端:数据在浏览器内处理,安全可控 。
- 灵活扩展:支持任意LLM,可本地离线运行 。
- MIT开源:可商用、可修改、可审计。
局限与注意事项
- 依赖LLM能力,复杂指令可能需要优化。
- 生产环境需接入自有LLM,避免使用公共Demo接口。
- 不适合超大规模、高稳定性的自动化测试场景(推荐Playwright)。
- 遵守网站使用协议,不用于非法爬虫、恶意操作 。
六、总结
PageAgent的出现,让浏览器自动化从「写代码」变成「说人话」,真正实现了零代码、纯前端、自然语言控制。不管是开发者、产品经理,还是普通用户,都能快速上手,解决日常网页操作痛点。
它不是要替代Selenium、Playwright,而是提供了一种更轻量、更灵活的新选择。在快速原型、临时需求、产品赋能等场景,PageAgent的优势无可替代。
#话题讨论# 你用过PageAgent吗?觉得它最适合解决什么场景的问题?欢迎在评论区分享你的体验和想法!
#PageAgent #浏览器自动化 #AI工具 #前端开发 #阿里开源