腾讯清华联手推出SongGeneration 2，音素错误率仅8.55%，Suno承压

2,375 0

腾讯清华联手推出SongGeneration 2，AI音乐生成技术实现新突破

近日，腾讯音乐娱乐集团与清华大学联合发布了新一代AI音乐生成模型 **SongGeneration 2**，该模型在技术评测中实现了**音素错误率低至8.55%**的突破性表现，标志着中文AI音乐生成技术在音准与语音清晰度方面迈入新阶段。这一进展不仅展示了国内科研团队在跨模态生成领域的创新能力，也对当前国际主流音乐生成平台如Suno构成了直接的技术竞争压力。

技术突破：音素错误率大幅降低
SongGeneration 2的核心突破在于其**音素级别的高精度生成能力**。音素错误率（PER）是衡量生成语音或歌声中发音单元准确性的关键指标，8.55%的表现已接近专业录音的清晰度门槛。该模型通过融合清华大学在语音合成领域的深度表征学习技术，以及腾讯音乐在音乐内容理解与多模态对齐方面的数据优势，显著提升了生成歌词与旋律的匹配度与自然感。相比上一代模型，其在中文多音字处理、旋律与音节对齐等方面均有系统性优化。

行业影响：Suno面临技术竞争压力
当前，以Suno为代表的AI音乐生成平台凭借简易的操作与丰富的风格覆盖，在全球消费级市场占据领先地位。然而，SongGeneration 2在**专业度与本地化适配**上展现出独特优势：
– **语言针对性**：针对中文声调与发音特点进行优化，在中文歌曲生成场景中表现更为精准；
– **多模态融合**：实现了歌词、旋律、节奏的更细粒度控制，支持创作导向的交互编辑；
– **产业协同**：腾讯音乐的曲库资源与发行渠道为技术落地提供了从生成到分发的闭环可能。

未来展望：技术深化与生态构建
尽管技术指标亮眼，AI音乐生成仍面临**版权归属、艺术原创性、情感表达深度**等长期挑战。SongGeneration 2的推出预示行业竞争将从“能否生成”转向“生成质量与可控性”的比拼。未来，技术团队需进一步探索：
1. 个性化声音建模与风格迁移；
2. 跨语种音乐生成的无缝适配；
3. 创作者与AI协同的工具化集成。

此次合作体现了“产学研”联动在AI内容生成领域的加速效应，也为全球AI音乐赛道增添了新的技术变量。随着生成质量持续提升，行业或将迎来从辅助创作到原生内容生产的关键转折点。

AI资讯

腾讯清华联手推出SongGeneration 2，音素错误率仅8.55%，Suno承压

中国大模型周调用量全球第一连冠：MiniMax M2.5 持续领跑

阿里云CTO周靖人接任Qwen模型负责人

相关文章

香港用户喜迎谷歌Gemini网页版解锁：图像与音乐生成功能全面开放

月之暗面估值破200亿美元，“拆墙”赴港上市，AI独角兽开启资本新篇章

黄仁勋夫妇基金会捐出价值1.08亿美元的算力，支持科研机构AI研究

腾讯公测AI设计智能体Ardot：自然语言生成界面，一键转化为代码

最新资讯