模型上新：阿里推出 Fun-ASR-Flash，从“听清楚”走向“听明白”

在标准普通话、清晰录音的条件下，语音识别主流模型的准确率早已相当高。现实中的语音很少是“标准”的。它可能是一口浓重的家乡方言，可能中外夹杂、不时蹦出小语种，也可能藏着需要结合上下文才能判断的同音词。当说话人换成方言，对话里夹杂着小语种，或者一句话里出现只有联系前后文才听得懂的歧义，模型还能不能听明白？

2026 年 6 月，阿里正式推出 Fun-ASR 语音识别大模型的 Flash 版本，正是冲着这些“听不明白”的场景而来。作为 Fun-ASR 端到端语音识别大模型的重要升级，Flash 版本以混合专家架构为基础，单模型支持全球三十种语言、八大方言区共十六种方言的自由识别，并能结合热词与对话上下文，更准确地理解模糊语音。

方言：支持八大方言区，十六种方言

方言之所以难，是因为它在语音和用词上往往已经接近一门独立的语言。Fun-ASR-Flash 这次将方言能力做了系统升级，覆盖官话、吴语、粤语、闽语、客家话、赣语、湘语、晋语八大方言区，共十六种方言。

Fun-ASR-Flash 在内部的工业级方言评测集上，模型取得了 87.8% 的平均语义准确率，相比上一代 Fun-ASR-1.5 有明显提升。在与主流竞品的公开对比中，优势同样稳定。下图展示了 Fun-ASR-Flash 与腾讯云、讯飞、豆包在十六种方言上的语义准确率对比：Fun-ASR-Flash 平均准确率为 87.8%，高于腾讯云的 74.3%、豆包的 72.2% 与讯飞的 69.4%，也高于上一代 Fun-ASR-1.5 的 77.6%。

模型上新：阿里推出 Fun-ASR-Flash，从“听清楚”走向“听明白” — （图1：Fun-ASR-Flash 在 16 种方言评测中全面领先，平均准确率 87.8%）

具体来看，模型在官话方言上的表现已经接近人工水平，河南话达到 97.4%，济南话 96.8%，四川话 95.9%。在公认较难的吴语方言上，它同样保持领先，温州话和宁波话分别达到 79.7% 和 81.7%。

多语种：一个模型听懂三十种语言

随着出海客服、国际会议、海外内容理解等需求增长，小语种识别变得越来越重要，而这恰恰是语料稀缺、最容易出错的部分。

Fun-ASR-Flash 单模型支持全球三十种语言，涵盖中日韩、东南亚多语、印地语与阿拉伯语，以及英、法、德、西、葡、俄等欧洲主流语言，并针对东亚与东南亚场景做了专项优化。

在权威开源评测集 GigaSpeechBench 上，Fun-ASR-Flash 取得了当前最佳表现。在东亚与东南亚多语种评测中（以语义错误率衡量，数值越低越好），它的平均错误率为 17.09，低于 Azure 的 22.00、ElevenLabs Scribe v2 的 22.11、Gemini 3.0 Flash 的 27.02，也低于上一代的 22.00。其中泰语等语种的识别准确率提升约 20%，在语料稀缺的小语种和真实跨境场景下依然保持稳定。

上下文：减少语义歧义

在交互场景中，识别最难处理的往往不是生僻字，而是同音异义带来的语义歧义。同样的发音 “wei lai”，既可能是“未来”，也可能是“蔚来”。如果模型缺乏背景信息，遇到同音词时就失去了判断依据，识别结果会与真实意图错位。

为此，Fun-ASR-Flash 面向泛 Context 做了专项强化。这里的“上下文”包含两部分：一是历史对话话题，二是用户自定义的专属热词，例如人名、产品名。模型在解码过程中会利用这些信息，将声学特征与当前语义逻辑对齐，从而完成消歧。

这种能力在两类场景中得到了验证。在对话场景下，研究专门选取了“没有上下文就会产生严重歧义”的句子作为测试集。结果显示，引入上下文后，当上下文与当前内容相关时，句准率从 26.8% 提升到 48.2%；即便上下文与当前内容无关，句准率也能从 60.6% 提升到 69.1%。一个典型例子是：历史对话中出现过“新能源车”，模型据此将当前语音中的 “wei lai” 正确识别为“蔚来”，而不是按高频词写成“未来”。

在输入法场景下，引入上下文与热词后，字错率从 4.24 降至 3.40，相对下降约 20%；召回率从 73.3% 提升至 84.2%，提升 11 个百分点；句准率从 66.0% 提升至 70.6%。例如通过注入人名热词“暴珑”，模型不再将 “baolong” 写成更常见的“暴龙”，而是识别为正确的“暴珑”。