阿里通义实验室推出Fun-ASR1.5语音识别大模型，支持30种语言及方言，古诗转写瞬间完成

1,845 0

阿里通义实验室发布Fun-ASR 1.5：多语言语音识别大模型再升级，古诗转写精度引关注

近日，阿里通义实验室正式推出**Fun-ASR 1.5**语音识别大模型，在技术能力与应用场景上实现显著突破。该模型不仅支持包括英语、日语、西班牙语等在内的**30种主流语言与方言**，更在中文古典诗歌、方言口语等复杂场景的识别转写中表现出色，标志着通用语音识别技术向更广泛、更精细的适用领域迈进。

技术突破：多语言混合识别与高精度转写
Fun-ASR 1.5基于大规模多语言语音数据训练，采用端到端的深度学习架构，在模型泛化能力和推理效率上均有提升。其核心亮点包括：
– **30种语言与方言覆盖**：除常见语种外，涵盖粤语、四川话、闽南语等方言，适应多元语音环境；
– **古诗文转写专项优化**：针对古典诗歌的韵律、生僻字及特殊句式进行定向训练，在测试中可实现近**98%** 的转写准确率；
– **低资源语言增强**：通过迁移学习与数据增强技术，提升小语种识别鲁棒性。

应用场景与行业影响
该模型的推出，将进一步推动语音交互在跨境商务、文化遗产数字化、在线教育等领域的落地。例如：
– **文化保护**：快速、准确地将方言戏曲、口头文学转化为文本，助力非物质文化遗产的保存与研究；
– **跨语种沟通**：在实时翻译、国际会议转录等场景中提供高可靠性的语音转写支持；
– **教育创新**：通过古诗文朗读转写与纠错功能，辅助语言教学与学习评估。

挑战与展望
尽管Fun-ASR 1.5在多数场景中表现优异，但方言识别仍受训练数据规模限制，尤其在语音语调差异较大的地区需进一步优化。未来，通义实验室计划通过开放API与社区协作，持续扩充方言数据库，并探索在边缘设备上的轻量化部署。

Fun-ASR 1.5的发布，不仅是阿里在语音AI领域技术积累的体现，也为多语言数字生态的构建提供了重要基础设施。随着模型迭代与应用深化，语音识别有望成为打破语言壁垒、促进文化传承的关键技术支点。