智能语音已经成为人工智能领域的鸿沟？_滚动新闻_慧聪电子网

曾几何时，AI（人工智能）成为了诸多企业的口头禅，不管这个企业身处什么产业，是什么样的企业，好像不带上AI就落伍了，媒体更是天天充斥着各种AI的报道，我们也是听得耳朵磨出了糨子。在此我们不妨以业内公认的AI或技术或市场中的代表IBM、谷歌和亚马逊为例，看看AI的技术和市场究竟如何？

提及沃森，这个自从6年前在美国答题秀节目Jeopardy中打败人类选手，就占据了无数的新闻头条，并最早商业化（主要用于医疗领域癌症的检测和预防）的所谓AI系统。不过，随着时间的推移，近期沃森却屡屡遭受业内的质疑。

例如华尔街投行杰富瑞分析师詹姆斯?基斯纳（JamesKisner）发布的关于IBM人工智能“沃森”（IBMWatson）的研究报告就称：IBM对沃森的投资很难给股东带来价值回报，并用案例说明了IBM沃森存在的广泛问题，即该案例来自IBM沃森与MD安德森癌症中心之间的合作，即在向沃森项目浪费了6000万美元之后，MD安德森癌症中心最终停止了与IBM在这方面的合作，并承认这项技术尚未准备好临床使用。而MD安德森癌症中心的情况并非个案。多名人工智能领域的创业者都表示，他们在金融服务和生物科技领域的客户在与IBM打交道时都有过类似经历。

与华尔街投行的分析相比较，今年五月，在CNBC的金融市场观察栏目“ClosingBell”上，风险投资人ChamathPalihapitiy更是语出惊人：“实话实说，Watson就是个笑话。我认为，IBM非常擅长利用销售和营销手段，来诱导信息不对称的人掏腰包。”

而美国认知科学会创始人RogeSchank认为沃森根本不是认知计算系统，IBM有夸大吹嘘嫌疑，并做了如下论证，即为了展示沃森的超凡智能，IBM从2015年以来在热播电视节目中投放了沃森的广告。在广告中，沃森程序与摇滚灵魂人物鲍勃?迪伦进行了对话。

对此，Schank指出，这个广告恰恰说明沃森完全没有理解迪伦的作品。尽管“时间流逝”之类的词汇在迪伦的作品中时常出现，但所有熟悉迪伦作品的人都知道，迪伦是一位抗争歌手，他的歌曲最关心的是民权、反战这些主题。不过，迪伦歌的歌词里并没有直白地写着“反战歌曲”、“民权运动”。沃森只根据词频统计等方式找到“时间流逝”、“爱情凋零”，而没有真正理解迪伦作品的真正主题。

智能语音已经成为人工智能领域的鸿沟？

图二

谷歌DeepMind：除了围棋技术与商业化类“沃森”前景不明

至于谷歌，去年AlphaGo依赖人工智能挑战号称最难的人类游戏围棋大获成功，让人工智能背后的“深度学习”广为人知，也把谷歌此前收购的AI科技公司DeepMind推到了公众面前。对此，就像前微软亚洲研究院常务副院长芮勇所言，想要实现真正的人工智能还有很长的路要走，今天所有的人工智能几乎都是来自于人类过去的大数据，没有任何一个领域的能力源自自我意识，不管是象棋还是围棋，计算机都是从人类过去的棋谱中学习。假如让AlphaGo去下跳棋，它就会完全傻掉。甚至说把围棋的棋盘稍作修改，AlphaGo都招架不住，但是人类就没有问题。AlphaGo可以打败三十多岁的李世石，但它的学习能力不及一个5岁的小孩，这二者是有很大区别的。

与沃森相比，DeepMind则刚刚进入商业领域的应用。去年七月，谷歌宣布DeepMind已找到方法将谷歌数据中心的制冷用电量减少2/5。它的算法先分析数据中心的操作日志来理解任务，然后通过反复模拟运行来优化过程。同样，DeepMind也已经进入医疗行业。去年11月，公司获得了首个付费项目，与NHS公立医院皇家自由伦敦医院（RoyalFreeLondon）签下五年的合同，为其处理170万份病历。此外，DeepMind还获得了访问其它伦敦医院两个数据库的权限，即DeepMind利用AI软件分析了约100万份视网膜扫描报告成功找到了退行性眼疾的早期征兆，或通过头颈部癌症图像让AI软件学会区分健康和癌组织之间的不同。

从上述DeepMind的商业化看，与沃森类似，均需要首先获取现实世界的大数据，即使拥有大量数据的可供挖掘的谷歌，运用AI及机器学习技术改进医院、电网及工厂等系统时，获取其具体操作数据也非常重要。原因很简单，没有人类提供的背景数据，哪怕极为简单的挑战，现有的AI技术也无法胜任。因此，当前的AI技术实际上并不“智能”，也不是解决问题的万能手。

提及数据，在人机大战前，DeepMind耗费了数年时间学习围棋。参加《危险边缘》问答的沃森，研发人员输入了数TB有关问答节目和自然语言实例的数据，来帮助它理解这一节目的问答模式。只有靠人类这样有针对性的密集“训练”，这些机器才能表现得如此出色。会议安排助手X.ai这类看似简单的应用程序却花费了数年时间学习与会议安排相关的事项，才达到可投入商用的水平。而它们运作的过程，更类似于基于计算力提升之下的大数据分析和输出，远没有创造性的推理。而众所周知的事实是，在数据的处理（其实就是一种高速的运算），机器的能力早已经远远超过人类。

对此，有分析称，DeepMind未来可能无法单单通过利用AI程序解决复杂问题的方式创造大量营收，但DeepMindAI软件通过分析数据所获取的有用信息已经足够让谷歌为当初的竞标所投入的巨资值回票价。看到这里，相信业内应该知道DeepMind的本质以及谷歌打着AI旗号的真实目的了吧。

亚马逊Alexa：仍属快速信息检索涉及自然语言识别折戟沉沙

最后看亚马逊。其所谓的AI是随着采用智能语音技术Alexa的Echo音箱的热销而为业内所知，某种程度上也代表了亚马逊AI的水平。但从其应用看，智能语音服务范围大都是在信息检索，帮助用户获得资讯。绝大多数的内容是不牵涉“推理”（对用户自然语言的理解）的查询类信息服务。如果用户问到在基础信息以上，一旦牵涉推理的问题，不仅是Alexa，几乎所有的智能语音识别（包括谷歌、微软）都无能为力。

从IBM、谷歌、亚马逊看当下AI的泛化

以亚马逊的Alexa为例，去年一名六岁的女孩在跟Echo内置人工智能语音助手Alexa聊天时，意外订下了价值170美元的玩具和一盒重达四磅的饼干。虽然孩子的妈妈在收到一个不知打哪来的订单确认电话后立刻进行了取消操作，但该订单却已经被处理，且一个跟孩子身高几乎相同的玩偶就在隔天送来了。最后，他们无奈地决定将这一玩偶捐赠给当地儿童医院。

又如亚马逊Alexa误听指令向孩子提供成人内容，即小孩向亚马逊Alexa下达指令：“Alexa，请播放‘Diggerdigger（一首儿童歌曲）’。”之后，亚马逊个人助手通过算法进行识别，竟然认为孩子想听情色内容。稍后，孩子的父母才意识到发生了什么事，可惜他们已经无法阻止Alexa继续播放声音。

上述说明自然语言（真正的AI能力）的“难题”离最终的解决依然存有差距。因为不同的应用（问答、情感分析、机器翻译、部分语音标签）需要有不同的模型架构：强监督式记忆神经网络、树形长短记忆网络、双向LSTM限制随机域（CRF）、动态记忆网络等。即使在研究中出现一些非常有潜力的新想法，设计、工程合成、可扩展的对话系统与这些想法的结合依然处于非常复杂的状态，离商用还很遥远。所以，当被问及何时才能通过自然语言与数字助理交流，并得到满意的答案时，就连吴恩达这样的顶尖科学家也无法给出确切答案。即便是对最高水平的神经网络学家而言，这项技术仍然有很多谜团尚待解开。有很多工作只能通过不断试错来改进，没有人敢保证某项技术调整可能产生什么样的后果。根据现有的技术和方法，这一过程大约要耗费数年时间。

智能语音已经成为人工智能领域的鸿沟？

图二

正是在这些科技大佬的鼓动下，AI正有走向泛化的趋势。据统计，到去年年底，在财富500强企业中，就有180家对外宣称自己要启动相关的人工智能项目。甚至有广告研究公司大胆预估，到了2020年，人工智能技术可能会出现在几乎所有的新科技产品的宣传之中。另据Gartner在研究了1000家宣称自己使用了人工智能的技术供应商后发现，大部分所谓的人工智能技术，采用的依旧是基础的、基于规则的机器学习和分析技术（例如上述的IBM的沃森和谷歌的DeepMind）。这些技术，早在人工智能这个概念被热炒之前，就已经出现并被业内所使用。更为关键的是，这些技术的能力远远未达到可以被称得上“人工智能”的程度。

恰逢国务院《新一代人工智能发展规划》颁布之际，在彰显我国政府对于科技产业前瞻性和势在必得决心的同时，也应该警惕当下产业界AI泛化的趋势，尤其是在每逢大的利好的产业政策或者纲要出台，总是泥沙俱下的中国，切莫让真正的AI淹没在AI的泛化中。