通义实验室推出语音双模型:Fun-CosyVoice3.5及Fun-AudioGen-VD发布

2,088 0

通义实验室发布语音双模型：Fun-CosyVoice3.5与Fun-AudioGen-VD，AI语音生成迈向“情感化”与“可控化”新阶段

模型核心定位与技术突破

通义实验室近期正式推出两款语音生成领域的重要模型——**Fun-CosyVoice3.5**与**Fun-AudioGen-VD**。这标志着AI语音合成技术正从“清晰可懂”的基础阶段，向“富有表现力”与“高度可控”的深水区迈进。

**Fun-CosyVoice3.5** 定位为“情感化、拟人化语音合成模型”。其核心突破在于，在保证极高音质与自然度的基础上，实现了对语音中**情感、语调、节奏**等副语言信息的精细控制。用户可以通过简单的文本提示（如“欢快的”、“温柔的”、“急促的”），驱动模型生成带有相应情感色彩的语音，极大提升了合成语音的生动性与感染力。这背后 likely 依赖于大规模、高质量的情感语音数据训练，以及先进的风格建模与迁移技术。

**Fun-AudioGen-VD** 则聚焦于“可控音频生成与编辑”。其名称中的“VD”很可能指代“Voice Design”或类似概念，强调其**精细化、模块化的声音设计与生成能力**。该模型不仅能够根据文本生成对应音频（如鸟鸣、风声、特定音效），更关键的是支持对生成结果的**属性进行动态编辑与混合**。例如，用户可以调整一个“雨声”音效的雨点密度、远近、是否夹杂雷声等参数，实现“用描述生成，用参数微调”的创作流程。

行业影响与未来展望

双模型的发布，揭示了语音AI发展的两个明确趋势：

1. **交互体验的升维**：Fun-CosyVoice3.5使得虚拟助手、有声内容、游戏NPC的语音不再平淡，为更自然、更具共情力的人机交互铺平道路。这将对内容创作、教育、心理健康服务等领域产生深远影响。

2. **创作工具的民主化**：Fun-AudioGen-VD将专业音频设计的部分能力封装为易用的AI工具，降低了音效创作、媒体内容配乐的门槛。创作者可以快速原型化声音创意，实现“所想即所得”。

然而，挑战依然存在。情感模型的**情感标注标准化、跨文化情感表达的普适性**，以及可控生成中**用户意图的精准对齐**，都是需要持续攻关的课题。此外，强大的生成能力也伴随着被滥用的风险，如何建立有效的伦理与安全护栏，是产业必须同步考虑的问题。

总体而言，通义实验室此次发布，不仅是两个模型的简单迭代，更是为整个语音AI赛道指明了“情感智能”与“可控创造”并重的发展路径。未来，融合了情感理解、可控生成与多模态交互的下一代语音AI，或将真正成为连接数字世界与人类感知的桥梁。