谷歌 Chrome 149 联手 Gemini 3.5 Flash，AI 框选即问截屏交互升级

谷歌 Chrome 149 联手 Gemini 3.5 Flash：AI 框选即问，截屏交互迈入语义时代

事件概述

在浏览器智能化竞赛持续升温的背景下，谷歌于 Chrome 149 版本中正式引入了一项突破性交互功能——基于 Gemini 3.5 Flash 模型的“框选即问”截屏分析。用户在任何网页中按住快捷键或点击扩展按钮，即可对屏幕任意区域进行矩形框选，系统将自动识别该区域内的文字、图像、图表甚至代码，并直接唤起 Gemini 3.5 Flash 进行上下文理解与即时问答，而无需手动复制、粘贴或切换应用。这一更新标志着浏览器从“被动显示”向“主动理解”的关键跃迁。

技术内核：轻量级多模态推理引擎

Gemini 3.5 Flash 作为谷歌最新一代高效多模态模型，在保持接近旗舰级理解能力的同时，将推理延迟压缩至毫秒级。Chrome 149 将其以原生扩展插件形式集成于浏览器进程内，并通过 WebGPU 和 WebNN API 实现客户端本地加速推理。当用户框选区域后，系统首先通过 OCR 与视觉编码器提取多模态特征，随后由 Gemini 3.5 Flash 执行实体识别、关系抽取与意图匹配。例如框选一段包含“2024 Q3 revenue”的折线图，模型不仅能提取数字，还能自动关联上下文并回答“最大增幅出现在哪个月份”，完全摆脱了传统 OCR+搜索的碎片化处理方式。

交互体验升级：从“复制粘贴”到“框选即得”

与以往需要截图后上传第三方平台（如 ChatGPT 图片识别）不同，Chrome 149 实现了端到端的无感闭环。框选后屏幕右下角会弹出半透明浮窗，直接显示模型生成的摘要或回答，用户可继续追问或一键导出分析结果。此外，系统支持多轮对话——框选的区域将成为“锚点”，后续问题自动绑定该区域进行约束推理。例如在电商页面框选商品图片和价格，连续询问“同品牌低价款”“用户评价关键词”等，Gemini 3.5 Flash 能保持上下文连续性，大幅减少重复操作。

竞争格局与未来影响

微软 Edge 此前已通过 Copilot 侧边栏提供类似能力，但 Chrome 149 的框选即问在以下方面形成差异化：一是原生集成无需额外扩展；二是 Gemini 3.5 Flash 对复杂图表和手写内容的识别准确率优势；三是本地推理保证了隐私数据不出终端。不过，该功能目前仅限 Chrome 149 及以上版本，且对 GPU 内存要求较高，老旧设备可能出现响应延迟。随着 WebNN 标准的普及，预计该功能将逐步下放至 Chromium 内核的第三方浏览器。长远来看，这种“所见即所问”的交互模式可能重塑网页内容消费方式——用户不再被动阅读，而是主动通过视觉+语言对话来获取信息，这将倒逼网页内容结构更加语义化，并催生一批专门针对多模态框选优化的应用生态。