据外媒报道,此前谷歌曾表示他们已经在语音识别领域获得了突破,将错误率降低到了30%。不过,最近IBM在他们的官网上宣布,他们已经创造了自家语音识别的新纪录,错误率仅为5.5%,与去年的6.9%相比又一次的实现了提升。
IBM宣布语音识别错误率接近人类(图片来自于baidu)
这些主要是在非常困难的语音识别任务中测试得来的,纪录人与人之间日常对话如“买汽车”,计算出来的结果。这种纪录的语料库被称为“SWITCH BOARD”,20多年来一直用于检验语音识别系统。通过这种数据库还能够得到5.5%的错误率,已经是非常难得的了。
此前,谷歌高级研究员杰夫·迪恩(Jeff Dean)日前在人工智能前沿峰会(AIFrontiers)上表示,自2012年以来,谷歌已经把语音识别的词错率(WER)降低了30%以上。词错率指的是谷歌将一个词语从语音转录成为文字时的错误率。
迪恩称,词错率的下降得益于神经网络的使用,后者是谷歌和其他公司在深度学习中使用的一种系统。研究人员使用大量数据对神经网络进行训练,例如语音片段,然后让他们对新数据作出推断。谷歌在2012年首次将神经网络用于语音识别中,当时正值“果冻豆”Android系统发布。谷歌并不是经常讨论公司在语音识别技术上取得的进展,该技术影响着越来越多的谷歌产品,从Google Home智能音箱到Gboard输入法。
精彩评论