谷歌 Chrome 149 联手 Gemini 3.5 Flash:AI 框选即问,截屏交互迈入语义时代
事件概述
在浏览器智能化竞赛持续升温的背景下,谷歌于 Chrome 149 版本中正式引入了一项突破性交互功能——基于 Gemini 3.5 Flash 模型的“框选即问”截屏分析。用户在任何网页中按住快捷键或点击扩展按钮,即可对屏幕任意区域进行矩形框选,系统将自动识别该区域内的文字、图像、图表甚至代码,并直接唤起 Gemini 3.5 Flash 进行上下文理解与即时问答,而无需手动复制、粘贴或切换应用。这一更新标志着浏览器从“被动显示”向“主动理解”的关键跃迁。
技术内核:轻量级多模态推理引擎
Gemini 3.5 Flash 作为谷歌最新一代高效多模态模型,在保持接近旗舰级理解能力的同时,将推理延迟压缩至毫秒级。Chrome 149 将其以原生扩展插件形式集成于浏览器进程内,并通过 WebGPU 和 WebNN API 实现客户端本地加速推理。当用户框选区域后,系统首先通过 OCR 与视觉编码器提取多模态特征,随后由 Gemini 3.5 Flash 执行实体识别、关系抽取与意图匹配。例如框选一段包含“2024 Q3 revenue”的折线图,模型不仅能提取数字,还能自动关联上下文并回答“最大增幅出现在哪个月份”,完全摆脱了传统 OCR+搜索的碎片化处理方式。
交互体验升级:从“复制粘贴”到“框选即得”
与以往需要截图后上传第三方平台(如 ChatGPT 图片识别)不同,Chrome 149 实现了端到端的无感闭环。框选后屏幕右下角会弹出半透明浮窗,直接显示模型生成的摘要或回答,用户可继续追问或一键导出分析结果。此外,系统支持多轮对话——框选的区域将成为“锚点”,后续问题自动绑定该区域进行约束推理。例如在电商页面框选商品图片和价格,连续询问“同品牌低价款”“用户评价关键词”等,Gemini 3.5 Flash 能保持上下文连续性,大幅减少重复操作。
竞争格局与未来影响
微软 Edge 此前已通过 Copilot 侧边栏提供类似能力,但 Chrome 149 的框选即问在以下方面形成差异化:一是原生集成无需额外扩展;二是 Gemini 3.5 Flash 对复杂图表和手写内容的识别准确率优势;三是本地推理保证了隐私数据不出终端。不过,该功能目前仅限 Chrome 149 及以上版本,且对 GPU 内存要求较高,老旧设备可能出现响应延迟。随着 WebNN 标准的普及,预计该功能将逐步下放至 Chromium 内核的第三方浏览器。长远来看,这种“所见即所问”的交互模式可能重塑网页内容消费方式——用户不再被动阅读,而是主动通过视觉+语言对话来获取信息,这将倒逼网页内容结构更加语义化,并催生一批专门针对多模态框选优化的应用生态。