人工智能技术的演进可以概括为三个层次:感知智能、认知智能、通用智能。目前AI技术正从感知迈入认知阶段。而感知智能是指将物理世界的信号通过摄像头、麦克风或者其他传感器的硬件设备,借助语音识别、图像识别等前沿技术,映射到数字世界,再将这些数字信息进一步提升至可认知的层次,比如记忆、理解、规划、决策等等。而在这个过程中,人机界面的交互至关重要。
人机交互是人工智能技术的基本,交互模式有图像识别、手势识别和语音识别等。而在人类进化过程中,语言不仅起着非常重要的作用,也承载着非常丰富的信息,这令智能语音在交互方式方面具备得天独厚的优势。语音识别技术的迭代演进让智能语音市场前景无限。很多产品场景下,深度学习已与芯片紧密结合,如远场唤醒、打断,包括离线识别,都已在芯片级技术层面实现。
面对智能语音交互,两大互联网巨头这回同时出手了
7月5日早10点,百度AI开发者大会在北京国家会议中心开始。百度度秘事业部总经理景鲲宣布百度DuerOS开放平台发布,并介绍了语音交互在AI领域的战略方向以及相关技术和解决方案等问题。而仅仅相隔4小时后,阿里人工智能实验室也召开了2017夏季新品发布会,发布与智能语音相关的消费级产品天猫精灵。
在DuerOS开放平台发布会上,景鲲从衣兜里接连掏出三款DuerOS开发套件和一款硬件参考设计(据说他还想带更多芯片,但是口袋实在放不下了)。
1、搭载树莓派,利用科胜讯技术的个人版。即刻申请就可以搭载一个个人可以对话的语音设备;
2、轻量版。把一元钱大小的芯片放在任何一个设备里面,设备就可以对话;
3、标准版。两麦、四麦、六麦、八麦的标准版都可以即可申请;
4、完整一体化的参考设计。如开放电路板设计、开放结构设计、开放麦克风阵列等等。手机、电视、冰箱等任何设备,都可以搭载DuerOS,变成一个能”听懂”的设备。景鲲说,开发者使用这些开发套件,只要接一个电源,接一个麦克风,就可以让身边的家电说话。通过打造AI时代的安卓——DuerOS,让每个人,无论你是大公司还是小公司,甚至普通开发者,都能够以低门槛打造属于自己的智能语音交互设备。
同样是语音AI领域,不同于DuerOS开放设备平台,阿里巴巴选择推出公司首款智能音箱产品—天猫精灵,看上去更类似于中国版的Echo。天猫精灵的负责人浅雪指出,这不只是具有语音识别和理解能力的智能音箱,其音箱中搭载的人工智能AliGenie系统是产品的核心所在,代表着产品具备NLP支持的理解力、执行力和基于数据的进化能力。AliGenie使用了FPGA云端硬件定制化逻辑电路加速,算法上载入了混合神经网络。
与百度相仿,AliGenie也发布了开发者平台,面向不同类型的开发需求。在发布会中,功能演示与产品介绍交替进行,演示内容涉及听音乐、网购、找手机、定时器、充话费、连接智能家电等功能,能看出阿里以语音与金融结合想要达成产品捆绑与消费方式变革的目标。
语音交互核心三要素:听清、听懂、满足
景鲲表示,DuerOS是人工智能时代的安卓系统,DuerOS希望成为一个开放赋能的生态系统。”有什么核心的要素需要满足,才能推动时代变革?我们总结出核心三要素:听清、听懂、满足。很多厂商可以做到听清,但是做不好听懂和满足,只有把这三个都做好,才能满足。”“听清”:百度的语音识别率做到了近场识别的准确率97%以上,但这些在AI时代还不够。在AI时代,技术要与场景相结合。百度希望把语音放到真正的场景里面去解决问题,研发了麦克风阵列、回声消除、语音唤醒、人像识别等技术。
“听懂”:数据多、介入深是打造对话系统的必然条件,具备这两点才能做好一个真正可以对话的”听懂”系统。百度是具备数据量最大的公司,拥有亿级的多轮对话数据、十亿级的知识图谱数据。
“满足”:满足”听一首某某的歌”这样的用户需求还不够,真正用户想要的是更自然、更复杂的需求,比如”我要听我手一杯品尝你的美这首歌”,比如”想听哥哥的歌”,只有把用户在真实场景中表达的复杂请求做好,才能真正做出一个真正听懂用户需求的产品。
他认为在这个时代,只有百度在中国市场是唯一具备听清、听懂、满足的实力。在现场,景鲲还演示了百度语音系统多轮交互的能力,现场演示了一台HTC手机利用DuerOS的多轮交互过程,这种交互只有百度的技术才能驱动。通过连续发问:“找一找本地人气最火爆的家常菜”、“雍和宫附近有吗”、“第二家有什么推荐菜”、“有wifi吗”、“好停车吗”……多轮连续展开的对话。他说,“听懂”的目标,就是要FreeStyle,让用户最自然地跟设备进行交互。
现场,景鲲宣布百度将全资收购人工智能公司Kitt.AI,把KITT.AI的语音能力和自然语言处理能力融入到百度平台中,全面免费向百度的合作伙伴赋能开放。KITT.AI联合创始人、CTO陈果果先生现在演示了如何使用KITT.AI语音唤醒技术快速打造一个语音唤醒设备。根据陈果果先生演示,进入Snowboy的唤起词库并新建唤起词“你好景鲲”后,接着只需要说三遍“你好景鲲”,即可完成唤起词的训练。在测试环节,设备只会对唤起词“你好景鲲”进行响应。
来自度秘的百度工程师罗兴演示了“如何将百度DuerOS的能力接入搭载Alexa的Anker音箱”。罗兴通过十七行代码,用1分钟的时间,让原本只会英文的音箱马上变得能听懂中国话。
揭秘百度DuerOS背后的声学设计英雄
科胜讯(Conexant)CX20924四麦克风和CX20921双麦克风语音输入处理解决方案,是百度DuerOS平台开发套件和参考设计的幕后英雄。科胜讯公司总裁SaleelAwsare在接受本刊采访时表示,远距离语音识别和控制需要克服大量的声学挑战,这涉及回声消除、背景噪声、混响,麦克风和扬声器的选择和放置等许多因素,而AudioSmart语音输入处理器、CODEC以及软件实现智能设备的远距离语言识别和语音控制功能则是克服上述挑战的利器。百度DuerOS开发套件
科胜讯AudioSmart语音输入处理器(用于四麦克风应用的CX20924,以及用于双麦克风应用的CX20921)是百度所宣布的开发套件之中的核心组件,其关键优势在于:
•只需两个或四个麦克风实现稳定的远场声音交互
•独家的智能音源定位SmartSourceLocator技术可以用于音源定位(仅限四麦克风配置)
•加强版噪声抑制SmartSourcePickup–对环境噪音的处理性更好,针对非定频音源,比如电视,以及非指令使用者的音源,可以智能地予以过滤,使得引擎识别率更高
•通过全双工回声消除技术(AEC)实现语音打断功能,即使设备在大声播放音乐或者做语音播报的时候,也能够准确识别唤醒词
远场(far-field)语音技术可为用户带来真正解放双手的体验。AudioSmart语音打断功能,用户无需动手则可自由控制设备。当设备的音频系统处于空闲状态时,只需要简单地说出触发词即可控制设备,即便音频系统处于播放状态,也能达到同样的效果。据称,该远场功能可实现对设备实现五米远的无缝语音控制,即使在嘈杂的真实世界中,也能将语音命令从背景噪音中过滤出来。此外,360度语音收音功能,能在大多数家庭和办公环境下提供精准的语音识别。百度DuerOS智能音箱参考设计
作为语音识别技术的先锋,科胜讯的AudioSmart技术在亚马逊Echo及其Alexa语音服务(AVS)的推动之下,已快速成为各类智能家庭与IoT装置最令人惊艳的用户交互接口。在与亚马逊合作于去年十二月推出支持AVS的2-Mic开发套件之后,科胜讯成为亚马逊AVS开发工具包的第一供货商。不同于其他方案,AudioSmart只需要2个麦克风就可以实现与现在使用5-8个麦克风的其他产品有相同或更好的性能,更不用说最新推出的全新4-micAVS开发套件。
除了百度DuerOS和亚马逊Alexa外,其顶级客户还包括微软、腾讯、SKTelecom、韩国电信KoreanTelecom、Naver等,从而为家电、机器人、家用影音设备(如机顶盒、喇叭、音响等)、家庭网络装置、安全设备、玩具、以及语音虚拟助理等提供语音交互功能。
科胜讯业务成长的另一个重要增长点来自耳机市场。目前,科胜讯正随着耳机制造商向新一代的USB-C标准技术迁移,其最新的CODEC解决方案是专为协助耳机制造商在此新兴领域取得竞争优势而设计,能让耳机现在可自带电源并能接受数字音频信号,还可通过电缆直接与源设备进行数据交换,从而给繁荣的耳机市场进行更伟大的创新提供了无限可能。
精彩评论