黄学东：语音识别词错率低至5.9%背后的故事_行业芯闻_慧聪电子网

“当计算机和人类在理解力上完全对等的时候，语音科学世界才具备了更坚实的基础，人类才能让计算机具备真正的人工智能。”

日前，美国计算机协会(AssociationforComputingMachinery，简称ACM)在旧金山举行图灵奖50周年及2016年度ACM院士颁奖典礼。湘籍科学家黄学东凭借其在人工智能语音识别方面作出的巨大贡献，获得该荣誉称号。据悉，ACM院士是由美国计算机协会授予的资深会员荣誉，以表彰全球计算机相关领域有卓越贡献的学者，每年遴选一次。目前全世界计算机学界只有500多位ACM院士，华裔院士仅20余人。记者带你一起走近黄学东和他的人工智能语音识别人生。

黄学东：语音识别词错率低至5.9%背后的故事

萌芽>>

语言困难促成“语音识别”之梦

初到苏格兰爱丁堡大学攻读博士课程，自动语音识别(ASR)就深深的吸引住了黄学东。回忆起用本科水平的美式英语试图听懂带有苏格兰口音的教授讲话时的难度，黄学东说：“刚离开中国，当时的我只希望每一位讲师和教授在教室里授课时，都能够带有字幕。”

正因为学习中的这点语言困难成就了他日后在人工智能语音识别领域的丰收。

1993年，黄学东加入微软，开始了他的“人工智能语音识别梦”。黄学东认为人工智能就像孟子讲,“劳心者治人，劳力者治于人。”有脑子、能推理，能理解周围的环境、能了解人心，有EQ、有IQ，这才是最强大的。

语音识别是把音频转换成文字的过程，这个过程相当复杂，体现了人工智能今天最优秀的技术能达到的水平。

图象识别也类似，都是从A到B转换的学习。理解语言、语义、深刻地领会意思，就不再是简单的A到B的映射过程。黄学东解释道：“因为语意没有音义，我讲了一句话具体是什么意思，你要把它翻译成文字定义是非常清楚的，但意义每个人都有不同的理解。这才是人工智能最核心的关键。”

通过语音识别做机器翻译，或是通过计算机视觉技术描述图像，只是做到了感知。人工智能不仅仅要有感知，还要有认知，除了认知还要有情感。

现在黄学东和他的团队所做的仍然处在感知和认知的过渡阶段。今后两年，语音识别的水平没有问题。下一步大的任务是认知：自然语音的理解、语意的理解和知识的积累。如果能理解语言，人工智能会更强大，它可以读世界上所有的教科书和文章。

成长>>

语音识别词错率低至5.9%背后的故事

2016年9月14日，由黄学东带领的微软语音团队在产业标准Switchboard语音识别基准测试中实现了对话语音识别词错率(worderrorrate,简称WER)低至6.3%的突破，创造当时该领域内错误率最低纪录。仅仅一个月后的10月18日，黄学东团队进一步将词错率降低至5.9%，首次达成与专业速记员持平而优于绝大多数人的表现。这被认为是人工智能领域2016年最大的突破性进展之一。

黄学东表示，“在对话语音识别中，我们已经实现了和人类同等的水平，这是一个历史性的突破，意味着有史以来第一次有计算机能像人类一样识别对话中的每一个单词。”

黄学东：语音识别词错率低至5.9%背后的故事

值得注意的是，微软宣布的此项研究成果，是基于英文的。那么，中文和英文有着完全不同的语法结构，对它们的语义理解哪个可能最先突破呢?黄学东表示，从语音识别的角度来讲，中文识别更容易，中文只有四百个音节。微软内部用同样的技术分别评测中英文，中文识别率要高一些。在所有语言里面，意大利文、西班牙文、中文，这三种语言，语音识别率比法文、英文之类要高，其中法文是最难的。然而语义理解对任何语言都很难，这是最有挑战的课题。

微软一项著名的技术——深度残差网络，在黄学东团队的语音识别技术中发挥了重要作用。事实上，这个人类水平的对话语音识别系统用到了10个不同的神经网络。通过10个神经网络合力得出最佳结果。这可以称得上是“一场工程的奇迹”。

具体过程为：首先是用6个不同的神经网络组合并行工作，包括了残差网络、LSTM(时间递归神经网络)等，最后的结果再通过4个新的神经网络再组合之后输出，最终获得达到了人类水平的对话语音识别结果。

据黄学东介绍，在这个模型中，每个神经网络首先分别用长达2000小时的数据单独训练，每个系统具有超过2万个senone(多元音素)。其中CNN单独训练的效果最出众。

如此复杂的工程，微软在不到一年的时间完成并取得很好效果。黄学东认为CNTK功不可没。CNTK是黄学东团队在研究过程中开发的一个开源深度学习工具包，现在不仅仅是语音团队，图像、自然语言处理、医疗服务等团队都在使用这个工具。

据介绍，CNTK具有灵活的模型定义，同时能够有效地扩展到多个GPU(图形处理器)和服务器。即使长达2000个小时的语料库，CNTK也能以很高的性能应对这样的训练挑战。同时CNTK中既可以使用自定义的函数语言Brain，也可以用Python。

黄学东说微软的内部工程需要很多数据来训练，做了很多的优化，因此CNTK非常快。这也是他们迅速训练出达到人类水平语音识别AI的关键因素。

绽放>>

共享人工智能黄金时代

黄学东曾与卡耐基梅隆大学教授以及Dragon创始人在ACM杂志上合写一篇语音识别过去40年的回顾，而这个回顾的东西已经过时，由此可见语音识别、人工智能发展速度有多么快。

“人和机器的最大区别，即是人的鲁棒性非常好，一个新的课题过来，他可以通过会话的方式跟你沟通，也能得到很好的结果。而机器对噪音的抗噪性不够强，对新的课题会话沟通能力比较差。最重要的一点是，语音识别并没有理解你的语义。理解语义是人工智能下一个需要攻克的难题，这也是我们团队花很多时间和精力正在做的事情。”黄学东说。

黄学东和他的团队所进行的人工智能语音识别研究的正确率已经达到人类水平，而达到这一水平的时间点比预期提前了许多，这让他对人工智能的未来充满期待。人工智能的黄金时代已经到来，而在无人驾驶汽车、智能客服、病症的自动诊断方面，人工智能更是能够帮助人类社会解决在这些领域资源短缺的问题。中国的科技发展日新月异，百度、阿里、腾讯等高科技巨头也是早早在人工智能方向布下大量的资源和精力进行深耕，包括一些国内的初创企业，也展示出了令人兴奋的前景。

“不久前我得知，中国一家人工智能的创业企业，运用微软的人工智能技术平台，依靠大量的医疗数据，对于病例的诊断已经接近专业医生的水准，假以时日，等到技术更为成熟，我们将看到医院大排长龙的情况得到很大缓解，这对于社会、大众以及科技从业者，都非常具有意义。”

黄学东这位微软“老男孩”，历经技术发展沉浮，依然对语音技术保持信仰。他相信未来5年，语音识别将通过图灵测试。这将真正使星际迷航般的移动设备愿景成为现实。他也认为语音识别和机器翻译技术可帮助缩小消除我们与机器之间的隔阂，大大促进和增强人与人之间的沟通融合。

人物名片：

黄学东，湖南长沙人。1978—1982年就读于湖南大学，1989年前往美国卡耐基梅隆大学致力于语言识别研究，1993年加入微软。现为微软首位华人“全球技术院士”、微软首席语音科学家，目前领导微软在美国、德国、埃及、以色列的全球团队，负责研发微软企业人工智能客服对话解决方案等最新人工智能产品和技术。