突破算力壁垒：智谱携手华为推出首个多模态大模型GLM-Image全流程国产化版本

4,898 0

智谱正式宣布联合华为开源新一代图像生成模型GLMImage。该模型最大的突破在于，它是首个在国产芯片算力底座上完成从数据预处理到大规模训练全流程的 SOTA州级水平多模态模型。GLMImage采用了创新的自回归扩散解码器混合架构，成功实现了图像生成与语言模型的深度融合。这一架构设计让模型在处理知识密集型生成任务时表现优异，能够精准理解全局指令并刻画局部细节，有效解决了海报排版、PPT制作及复杂科普图生成等长期困扰 AI 绘画的难题。GLMImage 支持在单个模型中同时进行文本到图像和图像到图像的生成。文本转图像:根据文本描述生成高细节图像，在信息密集的场景中表现尤为出色。图像到图像:支持多种任务，包括图像编辑、风格迁移、多主体一致性以及人物和物体的身份保留生成。在技术指标上，GLMImage展现了极强的中文理解与渲染能力。在多项复杂视觉文本生成榜单中，它均位列开源模型第一，尤其擅长处理极具挑战性的汉字生成任务。此外，该模型原生支持从1024到2048尺寸的任意比例图像生成，无需额外训练即可自适应多种分辨率。目前，GLMImage已在GitHub和Hugging Face等平台全面开源。为了降低使用门槛，其 API 调用价格低至每张图01元，智谱方面表示，未来还将推出经过速度优化后的新版本，进一步提升商用性价比。 GitHub:https:githubcomzaiorgGLMImageHugging Face:https:huggingfacecozaiorgGLMImage划重点: 国产全栈自研:基于华为昇腾 Atlas800T A2设备与昇思 MindSpore 框架完成全流程训练，验证了国产算力训练顶尖模型的可行性。文图融合突破:采用混合架构，在 LongTextBench 等长文本渲染榜单中获得开源第一，大幅提升了汉字与复杂图文的生成准确率。高性价比开源:模型支持多种分辨率自适应生成，并以极低的 API 价格向创作者开放，旨在推动国产认知型生成技术的普及。。

AI资讯

突破算力壁垒：智谱携手华为推出首个多模态大模型GLM-Image全流程国产化版本

谷歌重塑电商格局：发布Agentic AI购物平台，Gemini CX+UCP协议打通“搜索即下单”体验

特朗普施压科技巨头，微软承诺放弃AI数据中心电费优惠

相关文章

阿里巴巴发布通义千问AI，重塑淘宝购物体验

智谱推出0.9B轻量GLM-OCR：性能领跑，千次处理成本低至0.1元

SpaceX豪掷600亿美元全股票收购Cursor，扩张AI版图

MiniMax 推出 MMX-CLI：全模态模型一键原生接入

最新资讯