商汤发布 SenseNova-MARS：Agentic VLM 让 AI 具备自主思考与行动能力

4,411 0

# 商汤发布 SenseNova-MARS：Agentic VLM 开启AI“自主思考与行动”新纪元

## 技术突破：从“被动响应”到“主动规划”

近日，商汤科技正式发布**SenseNova-MARS**（Multi-Agent Reasoning and Acting System），标志着视觉语言模型（VLM）向**Agentic AI**（具身智能体）迈出了关键一步。与传统的视觉语言模型仅能完成识别、描述等被动任务不同，MARS系统通过引入**自主思考与行动能力**，使AI能够像人类一样进行多步骤规划、动态决策与环境交互。

该系统核心架构包含三个层次：**感知理解层**负责解析多模态输入；**推理规划层**通过链式思维（Chain-of-Thought）技术分解复杂任务；**行动执行层**调用工具API或生成控制指令完成实际操作。这种设计使MARS不仅能回答“图像中有什么”，更能主动规划“如何根据图像信息采取行动”。

## 应用场景：跨越虚拟与现实的智能边界

SenseNova-MARS的突破性体现在其**跨场景应用能力**上。在工业质检场景中，系统可自主识别缺陷、分析成因并生成维修方案；在医疗辅助领域，它能结合医学影像与病历数据，提出分诊建议或治疗步骤规划；对于家庭服务机器人，MARS可实现“看到冰箱食材不足→生成购物清单→下单订购”的完整闭环。

商汤在发布会演示中特别展示了**多智能体协作**能力：多个MARS实例可分工合作完成复杂任务，如一个实例负责环境监测，另一个专注工具调用，通过通信机制协调行动。这种架构为未来AI在开放环境中的自主运行奠定了基础。

## 行业影响：重新定义人机协作模式

从技术演进角度看，SenseNova-MARS代表了AI发展的新方向——**从感知智能迈向认知智能**。传统AI虽在图像识别、自然语言处理等领域达到甚至超越人类水平，但始终缺乏将多种能力有机整合、主动解决实际问题的“主体性”。MARS通过赋予AI目标驱动、动态调整的能力，使人机协作从“人类主导、AI执行”向“AI提议、人类监督”的模式转变。

值得注意的是，商汤在发布中强调了系统的**安全边界控制**，包括行动范围约束、人类干预机制和伦理对齐模块。这些设计反映出行业对Agentic AI潜在风险的清醒认知——在追求能力突破的同时，必须建立可靠的控制框架。

## 未来展望：自主AI的技术与伦理挑战

SenseNova-MARS的发布只是Agentic VLM发展的起点。要实现真正可靠的自主AI，仍需攻克**长期规划稳定性**、**复杂环境适应性**和**价值对齐精准性**三大挑战。随着全球在具身智能领域的竞争加剧，商汤此次突破或将加速行业从大语言模型向“大行动模型”的范式转移。

业内专家认为，2024年可能成为“Agentic AI元年”，而SenseNova-MARS展现的技术路径，为AI从工具向伙伴的转型提供了重要参照。其成功与否不仅取决于技术性能，更在于能否建立社会信任——这需要技术创新与治理框架的同步演进。

AI资讯

商汤发布 SenseNova-MARS：Agentic VLM 让 AI 具备自主思考与行动能力

腾讯混元大模型引入顶尖学者庞天宇，清华博士助力多模态强化学习研究

建筑业迈向智能未来：2033年人工智能市场预计突破320亿美元

相关文章

马斯克公布SpaceX太空AI计算计划Starmind 目标发射100万颗卫星

告别低效教学！知达AI以全闭环智能工具重塑教育生产力

美团进军AI社交，首个数字生命共生社区“觅游”启动公测

对话办公：阿里千问表格Agent上线，Excel一键生成与编辑

最新资讯