美团开源LongCat-AudioDiT：首创波形潜空间建模，刷新音色克隆SOTA纪录

2,135 0

技术背景与突破意义

近日，美团语音团队开源了**LongCat-AudioDiT**模型，这是首个将**波形潜空间建模**引入音频扩散变换器（AudioDiT）框架的创新方案，在音色克隆任务上取得了新的**SOTA（State-of-The-Art）性能**。这一突破标志着音频生成领域从传统的梅尔频谱建模向更精细的波形级表征迈出了关键一步。

传统音色克隆系统通常基于梅尔频谱或声学特征进行建模，虽然取得了显著进展，但在**音质保真度、情感自然度和长时稳定性**上仍存在瓶颈。LongCat-AudioDiT的核心创新在于构建了一个**高压缩比的波形潜空间**，将原始音频波形映射到低维潜变量，再通过扩散变换器进行迭代去噪生成。这一设计既保留了波形级别的细节信息，又显著降低了计算复杂度。

核心架构与技术亮点

LongCat-AudioDiT的架构包含三个关键模块：
1. **波形编码器**：采用卷积网络将原始波形压缩为潜变量，压缩比可达**128倍**，极大提升了后续扩散过程的效率。
2. **条件扩散变换器**：引入**长上下文注意力机制（LongCat）**，支持长达**30秒**的音频生成，同时保持音色一致性。
3. **多尺度条件注入**：在扩散过程中分层注入说话人嵌入、文本韵律等条件信息，实现对音色、语速、语调的精细控制。

实验表明，在LibriTTS和VCTK等基准数据集上，LongCat-AudioDiT在**主观自然度（MOS）和说话人相似度（SIM）** 两项关键指标上均超越此前最优模型，尤其在跨语言音色克隆任务中表现突出。

行业影响与开源价值

美团此次开源不仅公开了**预训练模型、训练代码和推理工具链**，还提供了完整的复现指南，降低了音频生成技术的应用门槛。这一工作对**虚拟人交互、有声内容创作、个性化语音助手**等领域具有直接推动作用。

从技术趋势看，LongCat-AudioDiT的成功验证了**潜空间建模与扩散模型结合**在音频领域的潜力，为后续的实时生成、多说话人混合等方向提供了新思路。随着代码的全面开放，预计将加速产业界对高效音频生成技术的落地探索，推动AI语音合成向更自然、更个性化的方向发展。