自2010年上线至今,讯飞输入法已历过十一个春秋。十一年来,讯飞输入法为无数用户提供了高效精准的语音输入体验,现在每分钟可输入400字、识别精度超过98%。尤其是前不久刚刚发布的v11.0版本,搭载了新一代语音识别框架,语音识别更准,为复杂场景带来更精准、更快速语音识别与输入能力。讯飞输入法V11.0的新一代语音识别框架是什么?为什么有如此神奇的功效?下面我们就来看看。

科大讯飞输入法业务部总经理程坤此前在谈到这问题时曾表示,相对于拼音输入和手写输入来说,语音输入最大的挑战非复杂场景莫属,因为用户的输入场景不可能是装有隔音墙的录音室,无处不在的噪声、混响直接影响着语音识别的准确率,进而左右用户的输入体验,如何保证一个比较好的识别效果是需要重点去突破的技术难点。

为此讯飞输入法从启动深度学习语音识别研究以来,一直在优化迭代其语音识别模型框架,从DNN到RNN到DFCNN再到Encode-decode,不断提升语音识别的效果,进而保证讯飞输入法语音输入等讯飞语音相关产品的功能持续优化。

受到人耳具备的听觉选择性注意能力的启发,讯飞提出复杂场景下的前后端一体化语音识别框架TFMA(Temporal feedback end-end multi-channel ASR)框架,将原有的语音识别过程进行重构。

讯飞输入法V11.0搭载的正是TFMA框架。

TFMA框架的灵感源于著名的“鸡尾酒会”效应,即人耳在嘈杂的环境下可以巧妙地“离开”一段对话,去听一听旁边的人在说什么,属于典型的自上(大脑)而下(听觉系统)的机制。而传统的语音识别系统,往往是由麦克风阵列对音频做降噪处理,得到单路音频信号进行识别,遵循的是自下而上的机制。

科大讯飞由此提出了TFMA前后端一体化的方案,将语音识别的前后端联合优化,直接训练多通道信号的识别模型,然后将后端模型的隐层信息反馈到前端,指导前端基于神经网络的波束形成器更新,形成一套自下而上和自上而下结合的流程,同时引入大量的专家知识,融合神经网络和信号处理的优势,保证了系统的鲁棒性。

通过运用TFMA语音识别框架,包括讯飞输入法、讯飞智能录音笔、讯飞翻译机和智能办公本等在内软硬件产品大大受益,这些产品在高噪声、多人说话、轻声说话等复杂场景下的语音识别能力再次提升,特别是-10分贝至-15分贝等恶劣场景下的识别由不可用变为好用,识别结果越来越“懂你”!

除了语音识别准确率的提升,讯飞输入法V11.0还有几大新功能值得一提:一是语音识别和翻译的语种,从过去的4种语言扩充到12种,包括中文、英语、俄语、法语、越语、韩语、日语、泰语、德语等等;二是候选项的合理化,用户语音输入结果更符合预期结果,即便是中英混合输入也有近乎完美的呈现。三是对不标准普通话的识别效果更好。

讯飞输入法V11.0是如何做到这几点的?对此,程坤解释道,讯飞V11.0多语种和之前的方言语音输入方式的实现都依赖于讯飞的统一建模的技术,将各种语种、方言的语料统一放到一个模型中训练,训练过程中各种语料并不拆开,训练完成后直接输出,这样即使用户的普通话没那么标准的情况下,讯飞输入法也能保证一个很好的识别效果。

免责声明:市场有风险,选择需谨慎!此文仅供参考,不作买卖依据。

推荐内容