商汤科技进军智能体领域:全新全模态基座即将亮相

# 商汤科技进军智能体领域:全新全模态基座即将亮相

随着大模型技术从“对话式AI”向“自主智能体”演进,商汤科技宣布将正式推出其新一代全模态智能体基座。这一举措标志着商汤从传统的计算机视觉与多模态大模型厂商,向具备感知、推理、规划与执行能力的“通用智能体”平台跃迁。据悉,该基座将支持文本、图像、语音、视频乃至3D空间信息的统一理解与生成,并具备调用工具、访问环境、分解任务等自主行为能力。

## 背景与战略意义

智能体(AI Agent)被视为大模型落地的核心形态,其关键在于将静态的模型能力转化为动态的任务闭环。商汤此前在“日日新”大模型系列中已积累多模态理解与生成经验,但在面向复杂场景(如自动驾驶、机器人、数字孪生)时,单一模态或纯文本推理往往难以胜任。此次进军智能体领域,商汤意在补齐“规划-执行-反馈”的闭环能力,从而在工业自动化、智慧城市、具身智能等万亿级市场中抢占先机。

## 技术架构与差异化

据了解,该全模态基座并非简单的模型堆叠,而是通过统一的多模态编码器与可插拔的“行动模块”实现端到端协同。其核心突破在于:一是跨模态对齐精度提高,能够在大规模异构数据中建立一致表征;二是引入“世界模型”雏形,使智能体在虚拟环境中进行因果推理与长周期规划。与传统依赖规则或简单工具调用的框架相比,商汤的方案更强调对物理世界的理解与自适应——例如,在机器人抓取任务中,基座可同时参考视觉纹理、深度信息及物体材质描述,动态调整抓取策略。

## 行业挑战与展望

尽管全模态基座前景广阔,但商汤仍需面对“数据稀缺”与“实时性”两大痛点:真实世界多模态交互样本获取成本极高,且复杂任务的推理延迟不易满足工业级需求。若该基座能实现“低延迟+高泛化”的平衡,则有望在2025年智能体爆发期形成差异化优势。同时,商汤在AI芯片与边缘计算上的积累,或成为其落地部署的关键壁垒。未来,智能体不再只是“回答问题”,而是真正“解决问题”——商汤的这一步,或将重新定义多模态AI的边界。

相关文章