从不温不火到炙手可热语音识别技术简史

2019-08-23 05:57:05 阅读：8130 作者：责任编辑NO。邓安翔0215

编者按：本文来自微信群众号“AI科技大本营”（ID：rgznai100），作者陈孝良、冯大航、李智勇，36氪经授权发布。

【导读】语音辨认自半个世纪前诞生以来，一向处于不温不火的状况，直到 2009 年深度学习技能的长足开展才使得语音辨认的精度大大前进，尽管还无法进行无约束范畴、无约束人群的运用，但也在大多数场景中供应了一种便当高效的交流办法。本篇文章将从技能和工业两个视点来回忆一下语音辨认开展的进程和现状，并剖析一些未来趋势，期望能协助更多年青技能人员了解语音职业，并能发作爱好投身于这个职业。

语音辨认，一般称为主动语音辨认，英文是Automatic Speech Recognition，缩写为 ASR，首要是将人类语音中的词汇内容转换为核算机可读的输入，一般都是可以了解的文本内容，也有或许是二进制编码或许字符序列。可是，咱们一般了解的语音辨认其实都是狭义的语音转文字的进程，简称语音转文本辨认（ Speech To Text, STT ）更适宜，这样就能与语音组成(Text To Speech, TTS )对应起来。

语音辨认是一项交融多学科常识的前沿技能，掩盖了数学与核算学、声学与言语学、核算机与人工智能等根底学科和前沿学科，是人机天然交互技能中的要害环节。可是，语音辨认自诞生以来的半个多世纪，一向没有在实践运用进程得到遍及认可，一方面这与语音辨认的技能缺点有关，其辨认精度和速度都达不到实践运用的要求；另一方面，与业界对语音辨认的期望过高有关，实践上语音辨认与键盘、鼠标或触摸屏等应是交融联系，而非替代联系。

深度学习技能自 2009 年鼓起之后，现已获得了长足前进。语音辨认的精度和速度取决于实践运用环境，但在安静环境、规范口音、常见词汇场景下的语音辨认率现已逾越 95%，意味着具有了与人类相仿的言语辨认才干，而这也是语音辨认技能其时开展比较炽热的原因。

跟着技能的开展，现在口音、方言、噪声等场景下的语音辨认也到达了可用状况，特别是远场语音辨认现已跟着智能音箱的鼓起成为全球消费电子范畴运用最为成功的技能之一。因为语音交互供应了更天然、更便当、更高效的交流办法，语音必定将成为未来最首要的人机互动接口之一。

当然，其时技能还存在许多缺少，如关于强噪声、超远场、强搅扰、多语种、大词汇等场景下的语音辨认还需求很大的前进；别的，多人语音辨认和离线语音辨认也是其时需求要点处理的问题。尽管语音辨认还无法做到无约束范畴、无约束人群的运用，可是至少从运用实践中咱们看到了一些期望。

本篇文章将从技能和工业两个视点来回忆一下语音辨认开展的进程和现状，并剖析一些未来趋势，期望能协助更多年青技能人员了解语音职业，并能发作爱好投身于这个职业。

语音辨认的技能进程

现代语音辨认可以追溯到 1952 年，Davis 等人研制了国际上第一个能辨认 10 个英文数字发音的试验体系，从此正式敞开了语音辨认的进程。语音辨认开展到今日现已有 70 多年，但从技能方向上可以大体分为三个阶段。

下图是从 1993 年到 2017 年在 Switchboard 上语音辨认率的开展状况，从图中也可以看出 1993 年到 2009 年，语音辨认一向处于 GMM-HMM 年代，语音辨认率前进缓慢，尤其是 2000 年到 2009 年语音辨认率根本处于阻滞状况；2009 年跟着深度学习技能，特别是 DNN 的鼓起，语音辨认结构变为 DNN-HMM，语音辨认进入了 DNN 年代，语音辨认精准率得到了显着前进；2015 年今后，因为“端到端”技能鼓起，语音辨认进入了百家争鸣年代，语音界都在练习更深、更杂乱的网络，一起运用端到端技能进一步大幅前进了语音辨认的功用，直到 2017 年微软在 Swichboard 上到达词错误率 5.1%，然后让语音辨认的精确性初次逾越了人类，当然这是在必定约束条件下的试验成果，还不具有遍及代表性。

GMM-HMM年代

70 年代，语音辨认首要会集在小词汇量、孤立词辨认方面，运用的办法也首要是简略的模板匹配办法，即首要提取语音信号的特征构建参数模板，然后将测验语音与参阅模板参数进行逐个比较和匹配，取间隔最近的样本所对应的词标示为该语音信号的发音。该办法对处理孤立词辨认是有用的，但关于大词汇量、非特定人接连语音辨认就力不从心。因而，进入 80 年代后，研讨思路发作了严重改动，从传统的依据模板匹配的技能思路开端转向依据核算模型（HMM）的技能思路。

HMM 的理论根底在 1970 年前后就现已由 Baum 等人树立起来，随后由 CMU 的 Baker 和 IBM 的 Jelinek 等人将其运用到语音辨认傍边。HMM 模型假定一个音素含有 3 到 5 个状况，同一状况的发音相对安稳，不同状况间是可以依照必定概率进行跳转；某一状况的特征散布可以用概率模型来描绘，运用最广泛的模型是 GMM。因而 GMM-HMM 结构中，HMM 描绘的是语音的短时平稳的动态性，GMM 用来描绘 HMM 每一状况内部的发音特征。

依据 GMM-HMM 结构，研讨者提出各种改进办法，如结合上下文信息的动态贝叶斯办法、区别性练习办法、自适应练习办法、HMM/NN 混合模型办法等。这些办法都对语音辨认研讨发作了深远影响，并为下一代语音辨认技能的发作做好了预备。自上世纪 90 年代语音辨认声学模型的区别性练习原则和模型自适应办法被提出今后，在很长一段内语音辨认的开展比较缓慢，语音辨认错误率那条线一向没有显着下降。

DNN-HMM年代

2006年，Hinton 提出深度信任网络（DBN），促进了深度神经网络（DNN）研讨的复苏。2009 年，Hinton 将 DNN 运用于语音的声学建模，在 TIMIT 上获得了其时最好的成果。2011 年末，微软研讨院的俞栋、邓力又把 DNN 技能运用在了大词汇量接连语音辨认使命上，大大下降了语音辨认错误率。从此语音辨认进入 DNN-HMM 年代。

DNN-HMM首要是用 DNN 模型替代本来的 GMM 模型，对每一个状况进行建模，DNN 带来的优点是不再需求对语音数据散布进行假定，将相邻的语音帧拼接又包含了语音的时序结构信息，使得关于状况的分类概率有了显着前进，一起DNN还具有强壮环境学习才干，可曾经进对噪声和口音的鲁棒性。

简略来说，DNN 便是给出输入的一串特征所对应的状况概率。因为语音信号是接连的，不只各个音素、音节以及词之间没有显着的鸿沟，各个发音单位还会遭到上下文的影响。尽管拼帧可以增加上下文信息，但关于语音来说仍是不行。而递归神经网络（RNN）的呈现可以记住更多前史信息，更有利于对语音信号的上下文信息进行建模。

因为简略的 RNN 存在梯度爆破和梯度散失问题，难以练习，无法直接运用于语音信号建模上，因而学者进一步探究，开发出了许多合适语音建模的 RNN 结构，其间最有名的便是 LSTM 。LSTM 经过输入门、输出门和忘记门可以更好的操控信息的活动和传递，具有长短时回忆才干。尽管 LSTM 的核算杂乱度会比 DNN 增加，但其全体功用比 DNN 有相对 20% 左右安稳前进。

BLSTM 是在 LSTM 根底上做的进一步改进，不只考虑语音信号的前史信息对其时帧的影响，还要考虑未来信息对其时帧的影响，因而其网络中沿时间轴存在正向和反向两个信息传递进程，这样该模型可以更充分考虑上下文关于其时语音帧的影响，可以极大前进语音状况分类的精确率。BLSTM 考虑未来信息的价值是需求进行语句级更新，模型练习的收敛速度比较慢，一起也会带来解码的推迟，关于这些问题，业届都进行了工程优化与改进，即便现在依然有许多大公司运用的都是该模型结构。

图画辨认中干流的模型便是 CNN，而语音信号的时频图也可以看作是一幅图画，因而 CNN 也被引进到语音辨认中。要想前进语音辨认率，就需求战胜语音信号所面对的多样性，包含说话人自身、说话人所在的环境、收集设备等，这些多样性都可以等价为各种滤波器与语音信号的卷积。而 CNN 适当于规划了一系列具有部分重视特性的滤波器，并经过练习学习得到滤波器的参数，然后从多样性的语音信号中抽取出不变的部分，CNN 实质上也可以看作是从语音信号中不断抽取特征的一个进程。CNN 比较于传统的 DNN 模型，在相同功用状况下，前者的参数量更少。

综上所述，关于建模才干来说，DNN 合适特征映射到独立空间，LSTM 具有长短时回忆才干，CNN 拿手削减语音信号的多样性，因而一个好的语音辨认体系是这些网络的组合。

端到端年代

语音辨认的端到端办法首要是价值函数发作了改动，但神经网络的模型结构并没有太大改动。全体来说，端到端技能处理了输入序列的长度远大于输出序列长度的问题。端到端技能首要分红两类：一类是 CTC 办法，另一类是 Sequence-to-Sequence 办法。传统语音辨认 DNN-HMM 架构里的声学模型，每一帧输入都对应一个标签类别，标签需求重复的迭代来保证对齐更精确。

选用 CTC 作为丢失函数的声学模型序列，不需求预先对数据对齐，只需求一个输入序列和一个输出序列就可以进行练习。CTC 关怀的是猜测输出的序列是否和实在的序列附近，而不关怀猜测输出序列中每个成果在时间点上是否和输入的序列正好对齐。CTC 建模单元是音素或许字，因而它引进了 Blank。关于一段语音，CTC 终究输出的是尖峰的序列，尖峰的方位对应建模单元的 Label，其他方位都是 Blank。

Sequence-to-Sequence 办法本来首要运用于机器翻译范畴。2017 年，Google 将其运用于语音辨认范畴，获得了十分好的作用，将词错误率下降至5.6%。如下图所示，Google 提出新体系的结构由三个部分组成：Encoder 编码器组件，它和规范的声学模型相似，输入的是语音信号的时频特征；经过一系列神经网络，映射成高档特征 henc，然后传递给 Attention 组件，其运用 henc 特征学习输入 x 和猜测子单元之间的对齐办法，子单元可以是一个音素或一个字。终究，attention 模块的输出传递给 Decoder，生成一系列假定词的概率散布，相似于传统的言语模型。

端到端技能的打破，不再需求 HMM 来描绘音素内部状况的改动，而是将语音辨认的一切模块一致成神经网络模型，使语音辨认朝着更简略、更高效、更精确的方向开展。

语音辨认的技能现状

现在，干流语音辨认结构仍是由 3 个部分组成：声学模型、言语模型和解码器，有些结构也包含前端处理和后处理。跟着各种深度神经网络以及端到端技能的鼓起，声学模型是近几年十分抢手的方向，业界都纷繁发布自己新的声学模型结构，改写各个数据库的辨认记载。因为中文语音辨认的杂乱性，国内在声学模型的研讨开展相对更快一些，干流方向是更深更杂乱的神经网络技能交融端到端技能。

2018年，科大讯飞提出深度全序列卷积神经网络（DFCNN），DFCNN 运用许多的卷积直接对整句语音信号进行建模，首要学习了图画辨认的网络装备，每个卷积层运用小卷积核，并在多个卷积层之后再加上池化层，经过累积十分多卷积池化层对，然后可以看到更多的前史信息。

2018年，阿里提出 LFR-DFSMN（Lower frame Rate-Deep Feedforward Sequential Memory Networks）。该模型将低帧率算法和 DFSMN 算法进行交融，语音辨认错误率比较上一代技能下降 20%，解码速度前进 3 倍。FSMN 经过在 FNN 的隐层增加一些可学习的回忆模块，然后可以有用的对语音的长时相关性进行建模。而 DFSMN 是经过跳转防止深层网络的梯度消失问题，可以练习出更深层的网络结构。

2019 年，百度提出了流式多级的切断注意力模型 SMLTA，该模型是在 LSTM 和 CTC 的根底上引进了注意力机制来获取更大规划和更有层次的上下文信息。其间流式表明可以直接对语音进行一个小片段一个小片段的增量解码；多级表明堆叠多层注意力模型；切断则表明运用 CTC 模型的尖峰信息，把语音切割成一个一个小片段，注意力模型和解码可以在这些小片段上打开。在线语音辨认率上，该模型比百度上一代 Deep Peak2 模型前进相对 15% 的功用。

开源语音辨认 Kaldi 是业界语音辨认结构的柱石。Kaldi 的作者 Daniel Povey 一向推重的是 Chain 模型。该模型是一种相似于 CTC 的技能，建模单元比较于传统的状况要更粗颗粒一些，只要两个状况，一个状况是 CD Phone，另一个是 CD Phone 的空白，练习办法选用的是 Lattice-Free MMI 练习。该模型结构可以选用低帧率的办法进行解码，解码帧率为传统神经网络声学模型的三分之一，而精确率比较于传统模型有十分显着的前进。

远场语音辨认技能首要处理实在场景下舒适间隔内人机使命对话和服务的问题，是 2015 年今后开端鼓起的技能。因为远场语音辨认处理了杂乱环境下的辨认问题，在智能家居、智能轿车、智能会议、智能安防等实践场景中获得了广泛运用。现在国内远场语音辨认的技能结构曾经端信号处理和后端语音辨认为主，前端运用麦克风阵列做去混响、波束构成等信号处理，以让语音更明晰，然后送入后端的语音辨认引擎进行辨认。

语音辨认别的两个技能部分：言语模型和解码器，现在来看并没有太大的技能改动。言语模型干流仍是依据传统的 N-Gram 办法，尽管现在也有神经网络的言语模型的研讨，但在有用中首要仍是更多用于后处理纠错。解码器的中心方针是速度，业界大部分都是依照静态解码的办法进行，行将声学模型和言语模型构形成 WFST 网络，该网络包含了一切或许途径，解码便是在该空间进行查找的进程。因为该理论相对老练，更多的是工程优化的问题，所以不论是学术仍是工业现在重视的较少。

语音辨认的技能趋势

语音辨认首要趋于远场化和交融化的方向开展，但在远场可靠性还有许多难点没有打破，比方多轮交互、多人噪杂等场景还有待打破，还有需求较为火急的人声别离等技能。新的技能应该完全处理这些问题，让机器听觉远超人类的感知才干。这不能仅仅仅仅算法的前进，需求整个工业链的一起技能晋级，包含更为先进的传感器和算力更强的芯片。

单从远场语音辨认技能来看，依然存在许多应战，包含：

（1）回声消除技能。因为喇叭非线性失真的存在，单纯依托信号处理手法很难将回声消除洁净，这也阻止了语音交互体系的推行，现有的依据深度学习的回声消除技能都没有考虑相位信息，直接求取的是各个频带上的增益，能否运用深度学习将非线性失真进行拟合，一起结合信号处理手法或许是一个好的方向。

（2）噪声下的语音辨认仍有待打破。信号处理拿手处理线性问题，深度学习拿手处理非线性问题，而实践问题必定是线性和非线性的叠加，因而必定是两者交融才有或许更好地处理噪声下的语音辨认问题。

（3）上述两个问题的共性是现在的深度学习仅用到了语音信号各个频带的能量信息，而疏忽了语音信号的相位信息，尤其是关于多通道而言，怎样让深度学习更好的运用相位信息或许是未来的一个方向。

（4）别的，在较少数据量的状况下，怎样经过搬迁学习得到一个好的声学模型也是研讨的热门方向。例如方言辨认，若有一个比较好的普通话声学模型，怎样运用少数的方言数据得到一个好的方言声学模型，假如做到这点将极大扩展语音辨认的运用范畴。这方面现已获得了一些开展，但更多的是一些练习技巧，间隔终极方针还有必定间隔。

（5）语音辨认的意图是让机器可以了解人类，因而转换成文字并不是终究的意图。怎样将语音辨认和语义了解结合起来或许是未来更为重要的一个方向。语音辨认里的 LSTM 现已考虑了语音的前史时间信息，但语义了解需求更多的前史信息才干有协助，因而怎样将更多上下文会话信息传递给语音辨认引擎是一个难题。

（6）让机器听懂人类言语，仅靠声响信息还不行，“声光电热力磁”这些物理传感手法，下一步必定都要交融在一起，只要这样机器才干感知国际的实在信息，这是机器可以学习人类常识的条件条件。而且，机器必定要逾越人类的五官，可以看到人类看不到的国际，听到人类听不到的国际。

语音辨认的工业进程

语音辨认这半个多世纪的工业进程中，其间共有三个要害节点，两个和技能有关，一个和运用有关。第一个要害节点是 1988 年的一篇博士论文，开发了第一个依据隐马尔科夫模型（HMM）的语音辨认体系—— Sphinx，其时完结这一体系的正是现在的闻名投资人李开复。

从 1986 年到 2010 年，尽管混合高斯模型作用得到继续改进，而被运用到语音辨认中，而且的确前进了语音辨认的作用，但实践上语音辨认现已遭受了技能天花板，辨认的精确率很难逾越 90%。许多人或许还记得，在 1998 年前后 IBM、微软都从前推出和语音辨认相关的软件，但终究并未获得成功。

第二个要害节点是 2009 年深度学习被体系运用到语音辨认范畴中。这导致辨认的精度再次大幅前进，终究打破 90%，而且在规范环境下迫临 98%。有意思的是，尽管技能获得了打破，也呈现出了一些与此相关的产品，比方 Siri、Google Assistant 等，但与其引起的重视度比较，这些产品实践获得的成果则要差劲得多。Siri 刚一问世的时分，时任 Google CEO 的施密特就高呼，这会对 Google 的查找事务发作根本性要挟，但事实上直到 Amazon Echo 的问世，这种根本性要挟才真的有了详细的载体。

第三个要害点正是 Amazon Echo 的呈现，朴实从语音辨认和天然言语了解的技能甚至功用的视角看这款产品，相关于 Siri 等并未有什么实质性改动，中心改动仅仅把近场语音交互变成了远场语音交互。Echo 正式问世于2015年6月，到 2017 年销量现已逾越千万，一起在 Echo 上扮演相似 Siri 人物的 Alexa 渐成生态，其后台的第三方技能现已打破 10000 项。凭借落地时从近场到远场的打破，亚马逊一举从这个赛道的落后者变为职业领导者。

但自从远场语音技能规划落地今后，语音辨认范畴的工业竞赛现已开端从研制转为运用。研制比的是规范环境下朴实的算法谁更有优势，而运用比较的是在实在场景下谁的技能更能发作优异的用户体会，而一旦比拼实在场景下的体会，语音辨认便失掉独立存在的价值，更多作为产品体会的一个环节而存在。

所以到 2019 年，语音辨认好像进入了一个相对安静期，全球工业界的首要参加者们，包含亚马逊、谷歌、微软、苹果、百度、科大讯飞、阿里、腾讯、云知声、思必驰、声智等公司，在一路狂奔往后纷繁开端反思自己的定位和下一步的打法。

语音赛道里的标志产品——智能音箱，以一种大跃进的姿势呈现在群众面前。2016 年曾经，智能音箱玩家们对这款产品的知道还都停留在：亚马逊出了一款叫 Echo 的产品，功用和 Siri 相似。先行者科大讯飞叮咚音箱的出师不利，更是加剧了其它人的张望心态。实在让许多玩家从张望转为活跃参加的转折点是逐步曝光的 Echo 销量，2016 年末，Echo 近千万的美国销量让整个国际震动。这是智能设备从未到达过的高点，在 Echo 曾经除了 Apple Watch 与手环，像恒温器、摄像头这样的产品打破百万销量已是惊人体现。这种销量以及智能音箱的 AI 特点促进 2016 年下半年，国内各大巨子几乎是一起转变态度，活跃打造自己的智能音箱。

未来，回看整个开展进程，2019 年是一个清晰的分界点。在此之前，全职业是日新月异，但 2019 年之后则开端进入对细节范畴浸透和打磨的阶段，人们重视的焦点也不再是单纯的技能方针，而是回归到体会，回归到一种“新的交互办法究竟能给咱们带来什么价值”这样更为一般的、朴实的商业视角。技能到产品再到是否需求与详细的形象进行交互结合，比方人物形象；流程主动化是否要与语音结合；酒店场景应该怎样运用这种技能来前进体会，诸如此类终究都会逐个呈现在从业者面前。而此刻职业的主角也会从本来的产品方过渡到渠道供应方，AIoT 纵深过大，没有任何一个公司可以全线打造一切的产品。

语音辨认的工业趋势

当语音工业需求四处开花的一起，职业的开展速度反过来会受限于渠道服务商的供应才干。跳出详细事例来看，职业下一步开展的实质逻辑是：在详细每个点的投入产出是否到达一个遍及承受的边界。

离这个边界越近，职业就越会挨近滚雪球式开展的临界点，不然全体增速就会相对陡峭。不论是家居、酒店、金融、教育或许其他场景，假如处理问题都是十分高投入而且长周期的作业，那对此承当本钱的一方就会犹疑，这适当于试错本钱过高。假如投入后，没有可感知的新体会或许销量促进，那对此承当本钱的一方也会犹疑，显着这会影响值不值得上的判别。而这两个作业，归根到底都有必要由渠道方处理，产品方或许处理方案方对此力不从心，这是由智能语音交互的根底技能特征所决议。

从中心技能来看，整个语音交互链条有五项单点技能：唤醒、麦克风阵列、语音辨认、天然言语处理、语音组成，其它技能点比方声纹辨认、哭声检测等数十项技能通用性略弱，但别离呈现在不同的场景下，并会在特定场景下成为要害。看起来相关的技能现已相对杂乱，但切换到商业视角咱们就会发现，找到这些技能间隔打造一款体会上佳的产品依然有绝大间隔。

一切语音交互产品都是端到端打通的产品，假如每家厂商都从这些根底技能来打造产品，那就每家都要树立自己云服务安稳，保证响应速度，适配自己所挑选的硬件渠道，逐项整合详细的内容（比方音乐、有声读物）。这从产品方或许处理方案商的视角来看是不行承受的。这时分就会催生相应的渠道服务商，它要一起处理技能、内容接入和工程细节等问题，终究达到试错本钱低、体会却足够好的方针。

渠道服务并不需求凭空捏造，渠道服务的条件是要有能屏蔽产品差异的操作体系，这是 AI+IOT 的特征，也是有所参照的，亚马逊曩昔近 10 年里是同步着手做两件事：一个是继续推出面向终端用户的产品，比方 Echo，Echo Show等；一个是把一切产品所内置的体系 Alexa 进行渠道化，面向设备端和技能端同步敞开SDK和调试发布渠道。尽管 Google Assistant 声称单点技能更为抢先，但从各方面的成果来看 Alexa 是名副其实的最为抢先的体系渠道，惋惜的是 Alexa 并不支撑中文以及相应的后台服务。

国内则缺少亚马逊这种统治力的体系渠道供应商，其时的渠道供应商分为两个阵营：一类是以百度、阿里、讯飞、小米、腾讯为代表的传统互联网或许上市公司；一类是以声智等为代表的新式人工智能公司。新式的人工智能公司比较传统公司产品和服务上的前史包袱更轻，因而在渠道服务上反倒是可以主推一些更为面向未来、有特征的根底服务，比方兼容性方面新式公司做的会愈加完全，这种兼容性关于一套产品一起掩盖国内国外市场是适当有利的。

类比曩昔的 Android，语音交互的渠道供应商们其实面对更大的应战，开展进程或许会愈加的弯曲。曩昔经常被说到的操作体系的概念在智能语音交互布景下事实上正被赋予新的内在，它日益被分红两个不同但有必要紧密结合的部分。

曩昔的 Linux 以及各种变种承当的是功用型操作体系的人物，而以 Alexa 为代表的新式体系则承当的则是智能型体系的人物。前者完结完好的硬件和资源的笼统和处理，后者则让这些硬件以及资源得到详细的运用，两者相结合才干输出终究用户可感知的体会。功用型操作体系和智能型操作体系注定是一种一对多的联系，不同的 AIoT 硬件产品在传感器（深度摄像头、雷达等）、显示器上（有屏、无屏、小屏、大屏等）具有巨大差异，这会导致功用型体系的继续分解（可以和 Linux 的分解相对应）。这反过来也就意味着一套智能型体系，有必要一起处理与功用型体系的适配以及对不同后端内容以及场景进行支撑的两层职责。

这两头在操作上，特点具有巨大差异。处理前者需求参加到传统的产品出产制作链条中去，而处理后者则更像运用商铺的开发者。这里边蕴含着巨大的应战和机会。在曩昔功用型操作体系的打造进程中，国内的程序员们更多的是运用者的人物，但智能型操作体系尽管也可以参照其他，但这次有必要自己来从头打造完好的体系。（国外巨子不论在中文相关的技能上仍是内容整合上事实上都十分单薄，不存在侵犯国内市场的或许性）

跟着渠道服务商两头的问题处理的越来越好，根底的核算形式则会逐步发作改动，人们的数据消费形式会与今日不同。个人的核算设备（其时首要是手机、笔记本、Pad）会依据不同场景进一步分解。比方在车上、家里、酒店、作业场景、路上、事务处理等会依据地址和事务进行分解。但分解的一起背面的服务则是一致的，每个人可以自在的依据场景做设备的搬迁，背面的服务尽管会针对不同的场景进行优化，但在个人偏好这样的点上则是一致的。

人与数字国际的接口，在现在越来越一致于详细的产品形状（比方手机），但跟着智能型体系的呈现，这种一致则会越来越一致于体系自身。作为成果这会带来数据化程度的继续加深，咱们越来越挨近一个百分百数据化的国际。

总结

从技能开展和工业开展来看，语音辨认尽管还不能处理无约束场景、无约束人群的通用辨认问题，可是现已可以在各个实在场景中遍及运用而且得到规划验证。更进一步的是，技能和工业之间构成了比较好的正向迭代效应，落地场景越多，得到的实在数据越多，发掘的用户需求也更精确，这协助了语音辨认技能快速前进，也根本满意了工业需求，处理了许多实践问题，这也是语音辨认相对其他 AI 技能最为显着的优势。

不过，咱们也要看到，语音辨认的内在有必要不断扩展，狭义语音辨认有必要走向广义语音辨认，致力于让机器听懂人类言语，这才干将语音辨认研讨带到更高维度。咱们信任，多技能、多学科、多传感的交融化将是未来人工智能开展的干流趋势。在这种趋势下，咱们还有许多未来的问题需求讨论，比方键盘、鼠标、触摸屏和语音交互的联系怎样改动？查找、电商、交际是否再次重构？硬件是否逆袭变得比软件愈加剧要？工业链中的传感、芯片、操作体系、产品和内容厂商之间的联系又该怎样改动？

本文得到许多语音辨认范畴专家的辅导，并引用了一些参阅资料的配图，在此表明感谢，本文中的缺少之处还请批评指正。

参阅资料

[1] W. Minhua, K. Kumatani, S. Sundaram, N. Ström and B. Hoffmeister, "Frequency Domain Multi-channel Acoustic Modeling for Distant Speech Recognition,"ICASSP 2019 - 2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Brighton, United Kingdom, 2019, pp. 6640-6644.

[2] Li B, Sainath TN, Narayanan A, Caroselli J, Bacchiani M, Misra A, Shafran I, Sak H, Pundak G, Chin KK, Sim KC. Acoustic Modeling for Google Home. InInterspeech 2017 Aug 20 (pp. 399-403).

[3] Chiu CC, Sainath TN, Wu Y, Prabhavalkar R, Nguyen P, Chen Z, Kannan A, Weiss RJ, Rao K, Gonina E, Jaitly N. State-of-the-art speech recognition with sequence-to-sequence models. In2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) 2018 Apr 15 (pp. 4774-4778). IEEE.

[4] Li J, Deng L, Gong Y, Haeb-Umbach R. An overview of noise-robust automatic speech recognition. IEEE/ACM Transactions on Audio, Speech, and Language Processing. 2014 Feb 5;22(4):745-77.

[5] 俞栋,邓力. 解析深度学习：语音辨认实践. 电子工业出版社. 2016年.

[6] 韩纪庆,张磊,郑铁然. 语音信号处理. 清华大学出版社. 2005年.

[7] 王东. 语音辨认技能的现状与未来. 2017年.

[8]https://developer.amazon.com/zh/blogs/alexa/post/92bb9391-e930-464b-8ece-1fd8b476702a/amazon-scientist-outlines-multilayer-system-for-smart-speaker-echo-cancellation-and-voice-enhancement

[9]https://venturebeat.com/2019/04/01/alexa-researchers-develop-2-mic-speech-recognition-system-that-beats-a-7-mic-array/

[10]https://yq.aliyun.com/articles/704173

[11]http://azero.soundai.com

[12]http://research.baidu.com/Blog/index-view?id=109

“如果发现本网站发布的资讯影响到您的版权，可以联系本站！同时欢迎来本站投稿！

上一篇：iPhone壁纸 | 高清手机锁屏壁纸原图

下一篇：再次确认三星在中国手机市场惨败将关闭最后