DeepSeek灰度测试“识图模式”，上线多模态图片理解功能

DeepSeek灰度测试“识图模式”：多模态能力补全，AI竞争进入新维度

近日，DeepSeek悄然启动“识图模式”的灰度测试，正式上线多模态图片理解功能。这一动作标志着DeepSeek从纯文本模型向多模态交互迈出关键一步，也意味着国内大模型在视觉-语言融合赛道上迎来又一位重量级玩家。

技术路径与功能亮点

从已曝光的测试界面来看，DeepSeek的“识图模式”支持用户上传图片并围绕图像内容进行问答、描述、推理等操作。与早期多模态模型依赖OCR+外部视觉模型拼接不同，DeepSeek此次采用端到端的视觉-语言对齐架构，能够直接理解图像中的物体关系、场景语义乃至隐含的抽象信息（如图表趋势、漫画隐喻）。灰度测试阶段主要面向部分API用户和网页端内测用户，预计将在数据反馈稳定后逐步开放全量。

战略意义：补全能力拼图，直面GPT-4V竞争

此前DeepSeek凭借极致的推理效率和开源策略，在文本生成、代码辅助、数学推理等领域建立了口碑，但在多模态维度长期缺位。此次识图模式的上线，直接对标GPT-4V、Gemini Pro Vision等竞品，使其在“看、读、想、写”全链路具备完整能力。尤其在企业级场景中，文档理解、票据识别、产品质检、医疗影像分析等需求高度依赖多模态输入，DeepSeek此举意在争夺B端高价值场景的入场券。

灰度测试的深层考量

选择灰度而非全量发布，反映了DeepSeek对多模态模型安全性和幻觉控制的高度审慎。图片理解任务中，模型容易因视觉歧义产生错误解读（如将“猫”误判为“狗”），或生成与图像无关的幻觉内容。通过小范围用户反馈，DeepSeek可以针对性优化视觉编码器与语言模型的注意力对齐机制，同时收集对抗样本以增强鲁棒性。此外，灰度测试也能降低因不当内容（如敏感图像识别）引发的合规风险。

行业影响与展望

DeepSeek入局多模态，将进一步拉低视觉AI的应用门槛。其开源传统意味着未来可能开放多模态模型权重，推动社区生态繁荣。但挑战同样存在：多模态模型的训练成本是纯文本模型的数倍，数据标注难度更高；且与GPT-4V等成熟产品相比，DeepSeek在复杂场景理解（如艺术风格、图表细节）上仍有追赶空间。

可以预见，2025年将是多模态大模型“能力对齐”的关键年。DeepSeek此次灰度测试，既是技术能力的宣告，也是市场策略的试探——当文本能力趋同，谁能更好地“看懂世界”，谁就能在下一轮AI竞赛中占据主动。

AI资讯

DeepSeek灰度测试“识图模式”，上线多模态图片理解功能

OpenAI 今年消费者订阅用户预计达 1.22 亿

3年20倍增长！AI原生游戏风口临近，超半数主流厂商已实现技术会师

相关文章

最新！马斯克 xAI 计划在密西西比州投资超 200 亿美元建设数据中心

蚂蚁集团启动2026春招：技术岗占85%超七成专攻AI

神经网络：前瞻！沃尔玛与谷歌 Gemini 联手推出更便捷的购物体验

杨植麟 GTC 首秀谈大模型 Scaling：聚焦 Token 效率与 Agent 集群布局

最新资讯

DeepSeek灰度测试“识图模式”，上线多模态图片理解功能

OpenAI 今年消费者订阅用户预计达 1.22 亿

3年20倍增长！AI原生游戏风口临近，超半数主流厂商已实现技术会师

相关文章

最新！马斯克 xAI 计划在密西西比州投资超 200 亿美元建设数据中心

蚂蚁集团启动2026春招：技术岗占85%超七成专攻AI

神经网络：前瞻！​沃尔玛与谷歌 Gemini 联手 推出更便捷的购物体验

杨植麟 GTC 首秀谈大模型 Scaling：聚焦 Token 效率与 Agent 集群布局

最新资讯

神经网络：前瞻！沃尔玛与谷歌 Gemini 联手推出更便捷的购物体验