在机器不能达到人类智力水平的时候,我们只好去迁就机器,用机器能懂的方式和它交流。但是当机器逐渐具备了理解人类能力的时候,语音才是回归到对自己来说最有效,也最自然的沟通方式。
语音识别已经从近场发展到远场
人工智能入口除了软件和应用,背后的技术发展是其承载的重要基础,包含了语音合成、语音识别和自然语言处理,叫NLP,三项主要技术。
在语音语义识别方面,国外要算IBM和Nuance,国内要数科大讯飞、小i机器人和近期将要赴美上市的搜狗。科大讯飞是国内最早研究语音识别和语音合成的,相当于中国的Nuance,小i机器人则是最早进行人机互动的,积累了大量实战的互动数据,而搜狗正在借助搜索和输入法积累的大量数据,在语义理解上急起直追。
语音识别已经从近场发展到了远场,其中关键的两个技术:麦克风阵列技术和远场语音识别,现在各家技术发展差别不大,这方面已经不是很大的壁垒了。虽然这意味着各大巨头间的竞争上升了一个档次,但也给面向应用的初创公司留下了很多想象空间。
自然语言处理,NLP技术虽然在搜索引擎中早就有应用,但在人机交互领域中还属于浅层,其中,语义识别还是个难点。
由于中文经常存在一词多义,机器分析还是停留在简单的句子结构分析和浅层词义理解。所以目前我们与中文系统互动起来总是感到不那么顺畅,还需要深度学习加大量数据来驯化。这也是中国的智能语音助手迟迟火不起来的原因之一。人们在几次与机器沟通不畅后往往会热情冷却。
当然,随着人工智能的进展,我们有理由相信对语义的理解也会迅速突破。
精彩评论