微软开源 Webwright：网页智能体从点击操作迈向代码驱动

2,044 0

近日，微软正式开源了 **Webwright**——一款专为网页智能体设计的新型自动化框架。这一项目的核心突破在于，它将传统基于“点击-等待”的 RPA（机器人流程自动化）模式，升级为以代码生成为核心的智能交互范式，标志着网页自动化技术从“模拟人类操作”向“理解并生成程序”的质变。

从“录制回放”到“代码生成”

传统网页智能体（如早期 Selenium、Playwright 甚至部分 RPA 工具）本质上是对浏览器事件的机械模拟：通过定位 DOM 元素、发送点击或输入事件，并等待页面响应。这种方式依赖固定的选择器，对页面结构变化高度敏感，维护成本高昂。Webwright 则完全扭转了这一思路——它利用大语言模型（LLM）的代码理解与生成能力，将用户意图（例如“从某电商网站抓取商品价格”）拆解为高级指令，再由智能体动态生成可执行的浏览器操作代码（如 JavaScript 或 Playwright 脚本）。这意味着，智能体不再“假装是人类”，而是像一个真正的程序员那样直接支配浏览器 API。

技术架构与核心优势

Webwright 的底层采用“任务分解-代码合成-执行反馈”循环。给定自然语言目标后，它先调用多模态模型分析当前页面截图，识别可交互元素；随后基于上下文生成一组原子操作代码（如 `page.click()`、`page.fill()`），并实时执行；若执行失败（如弹窗干扰），则自动回滚并修正代码。这一设计带来了两大优势：**鲁棒性**——代码不依赖固定 CSS 选择器，而是通过语义匹配定位元素，即使页面重构也能自适应；**可解释性**——每一步操作都以代码形式记录，开发者可直接审计、修改或复用，而非查看晦涩的事件日志。

行业影响与未来展望

Webwright 的开源，实质上是将“AI 自动化”从试验性 Demo 推向工程化实践。对于开发者，它降低了对 DOM 细节的依赖，使网页爬虫、测试脚本甚至跨平台自动化工具的开发门槛大幅下降；对企业，它意味着业务流程自动化（如数据录入、报表生成）能够随网站变更自动适应维护成本。不过，挑战依然存在：复杂动态页面（如重 JavaScript SPA）的代码生成精度、多步推理中的错误累积，以及安全合规（防止智能体越权操作）仍是后续需要攻克的难点。可以预见，Webwright 将加速混合人类-AI 协作的网页交互生态——未来我们或许不再需要“教”智能体点击哪里，而是直接告诉它“做什么”，由代码代劳一切。