昆仑万维推出天工高性能 Agent 模型 SkyClaw-v1.0,国产模型实现重大突破!

昆仑万维推出天工高性能 Agent 模型 SkyClaw-v1.0,国产模型实现重大突破!

2025年4月,昆仑万维正式发布旗下天工系列新一代高性能 Agent 模型——**SkyClaw-v1.0**。该模型以“智能体(Agent)”能力为核心设计目标,在复杂任务自主规划、多模态感知融合、工具调用与执行链推理等维度实现了系统性突破,标志着国产大模型从“对话式生成”向“自主执行型智能体”的关键跃迁。

技术架构与核心能力

SkyClaw-v1.0 采用 **“视觉-语言-行动”三模态统一架构**,首次在天工系列中引入原生 Agent 框架。模型通过自研的“认知-执行双循环”推理机制,能够在接收到用户指令后,自动分解任务目标、调用外部 API/工具、执行代码或操作界面,并在执行过程中实时反馈与纠错。据官方披露,SkyClaw-v1.0 在 **GAIA(通用AI助手评估)** 与 **SWE-bench(软件工程基准)** 两项国际权威 Agent 测评中,综合得分超越 GPT-4o 与 Claude 3.5 Sonnet,达到业界领先水平。

突破性亮点:多轮自主决策与鲁棒性

相较于此前国产模型在“被动应答”上的长足进步,SkyClaw-v1.0 的突破在于**端到端的主动决策能力**。例如,当用户提出“分析这份财报并生成PPT”时,模型不仅能理解PDF中的图表与文字,还能自主选择数据分析工具(如Python pandas)、调用绘图库、编排幻灯片结构,并最终生成可编辑的 PPTX 文件。模型在长链推理(超过15步)中的任务完成率提升至 87.3%,较上一代天工模型提高了近40个百分点,且对异常输入的鲁棒性显著增强。

行业意义与生态影响

SkyClaw-v1.0 的发布,打破了此前以 OpenAI、Anthropic 等海外厂商主导的 Agent 模型垄断格局。在国产大模型普遍聚焦“语言理解与生成”的竞争红海中,昆仑万维率先开辟了“自主执行型智能体”的差异化赛道。这一方向对金融、软件开发、科研分析等需要复杂任务自动化的行业具有直接赋能价值——企业可基于 SkyClaw-v1.0 快速构建智能客服、自动化运维、代码审查等垂直 Agent 应用,而无需依赖昂贵的外挂编排框架。

当然,Agent 模型的安全性与可控性仍是严峻挑战。昆仑万维同步公布了针对 SkyClaw-v1.0 的“护栏”机制,包括指令违规检测、敏感操作确认与执行日志追溯,为商业化落地提供了必要保障。随着 SkyClaw-v1.0 的开源计划逐步推进,国产 Agent 生态有望迎来新一轮技术爆发。这不仅是昆仑万维的里程碑,更是中国 AI 从“能用”到“好用、善用”的重要一步。

相关文章