日前Google华为12亿美元收购HTC的手机部门,这件事引发了大家的广泛讨论。
「为软件打造专属硬件」这种思维,从笔电时代开始,就逐渐显示其意义。到了智能手机的时代,则成为苹果不断创新与拉大竞争者距离的关键。到了AR/MR/AI的时代,更将大幅放大Apple的领先优势。或许,这也是促使Microsoft与Google这两个纯软件公司,先后买下手机硬件公司的根本原因。
苹果的思维:为软件打造专属硬件
长期以来,苹果与整个资讯产业最大的不同就是:它一直都是「基于软件与应用的观点,去寻找技术与开发专属硬件」这个策略。
而其他公司,几乎都是遵循「先打造通用硬件,再寻求硬件的软件应用」这种思维。这种根本思维上的差别,基本上反应当年影响Apple最大的电脑科学家凯伊(AlanKay)的名言:Peoplewhoarereallyseriousaboutsoftwareshouldmaketheirownhardware.
「为软件打造专属硬件」这种思维,在个人电脑桌机的时代,并没有为苹果带来任何优势,反而使苹果陷于倒闭边缘。然而,同样的思维,从笔电时代开始,就逐渐显示其意义。到了智能手机的时代,则成为苹果不断创新与拉大竞争者距离的关键。
到了AR/MR/AI的时代,更将大幅放大苹果的领先优势。或许,这也是促使Microsoft与Google这两个纯软件公司,先后买下手机硬件公司的根本原因。
Apple的硬件护城河
四十年来,人与电脑之间的互动方式,从早期一维的屏幕Commandline搭配键盘,到二维的视窗与图像介面搭配滑鼠,再到触控屏幕搭配各种多点触控手势。在这段历史中,虽然这些技术几乎无一源自苹果,但苹果却无疑的产业中推动电脑人机介面演进最重要的推手。
可以想像的,人类生活在三度空间的世界,人的动作,周围的环境与物体都是三维的。所以,对人类而言,最自然的人机互动方式,当然也是三维的。如何将虚拟的数位化影像或资讯物件,和真实世界中的事物自然的融合呈现在三度空间中,并且以三度空间的肢体动作或手势来操作这些数位物件,就是所谓的ArgumentedReality甚至是MixedReality。
未来十年,AR/MR将成为手机,手表,电视机上盒,智能汽车这类的智能装置的主要操作介面,并与我们日常生活全无缝的接轨。
要实现这样的愿景,所需的关键技术,包括:电脑3D绘图与影像处理,人工智能,3D感测。其实都已经发展与酝酿一段时间。而iPhoneX则是更进一步的将这些技术缩小并且整合在手机的处理机,单芯片模组,与作业系统之中。而其中最重要的一块拼图就是:移动化的3D感测
移动化的3D感测
所谓的3D感测,就是想办法把二维的摄影,加入三维的资讯。就以智能手机的镜头为例,过去十年来,虽然感光元件画素由2M增加到12M,其核心技术依旧是在二度空间上去记录三度空间物体的投影。因此,如何去捕捉在摄影过程所失去的维度(包括距离,体积),自然也是科学家与工程师们一直在追寻的。关于这个问题,目前有三种主流的作法。
1.立体影像StereoImage
这种方式是模拟人的眼睛,利用双眼(双镜头)在两个位置上同时取得两张类似的影像后,透过影像的交叠比对,去算两张照片之间的视角差。因为镜头之间的距离是固定的,所以有了视角差之后,就可以用简单的三角函数就去推算出「距离」,也就是影像的「深度」资讯。我们所熟悉的立体电影,在拍摄的阶段,也是利用类似的原理来完成。
在消费性电子产品的领域,像三星的手机,以及搭载Intel的RealSense模组的摄影机都是采用这个方式来增添二维影像中的深度资讯。这种方式最大的好处是,适用于绝大多数自然光充足的场合,也没有太多距离上的限制。
2.光子飞行时间计算TimeOfFlight
这种方式,是去使用不可见光的低功率雷射,在雷射光中带着一个时序编码,发射到物体,反射回来后接收。透过芯片辨识这个编码,就可以计算出光线从由发射到返回的时间差(也就是光线旅行的时间TimeofFlight),把这个时间乘上光速除以二,就可以知道物体精确的距离。
市场上,包括KineticV2,GoogleTango,以及iPhone7在内都是采用这种方式。这种方式最大的好处是,它所得到的距离,是精确的距离,而非推估的。而且由于半导体技术的进步,这种元件已经可以单芯片化,并且用realtime的方式来感知镜头前方物体距离的变化。
3.结构光StructuredLight
这是当年第一代xBox的Kinetic所使用的方式,发展出这个技术的以色列公司PrimeSense,在2013年被苹果收购,也布下今日iPhoneX采用结构光技术的局。
要理解结构光的工作原理之前,要先知道什么是光斑Lightcode。以下试着用最生活化的例子来解释:晚上关掉电灯,拿一个高聚光的手电筒照在一片木板上,如果木板与手电筒完全垂直,木板上的光影会是一个正圆。而木板与手电筒的距离,会改变这个圆的大小。如果木板有某个倾斜角度,正圆则会变成椭圆。
倾斜角度不同,椭圆的形状也会不同。如果木板不动,而手电筒任意移动与木板之间的角度与距离,光影就会变成各种不同大小与的椭圆。反过来说,我们就可以用这些不同大小的椭圆来反推手电筒与木板之间的角度与距离。这就是光斑的最原始的想法。
而所谓的结构光,就是先想办法在感测空间中有计划,有规则的散布红外线雷射光。如果感测空间中有物体存在,那么这些光线就会在物体上形成各种不可见的光斑。然后用红外线相机拍下这些光斑,再利用这些光斑的形状变异,我们就可以推算出空间中所存在物体的距离,大小,甚至形状。结构光的好处是只要两张照片就可以完成计算,所以成像速度比ToF快。如果搭配专用的处理机核心,甚至可以轻易做到即时(realtime)的成像。
事实上,上述三种技术,在笔电或桌机的环境都不算稀奇。但如果要整合起来,成为AR/MR的一部分,最大的关键挑战就是「体积尺寸」与「功率耗能」。举例而言,不论是ToF还是StructuredLight,它们的主要限制来自于雷射光的功率,会限制适用的距离侦测范围。
像手机这种等级的电力,雷射光的功率就只能低到只适用于五十公分内的距离侦测,而像xBox这样的电玩,雷射光功率就可以大到数公尺范围的侦测。
以iPhone为例,苹果在iPhone7之后,为后置镜头加入了双镜头与立体影像的能力,并在前置镜头中加入了光子飞行时间距离感测模组,至于最新的iPhoneX,则在前镜头同时采用了ToF与StructuredLight的技术。
未来的应用方向
更重要的,苹果不是只有硬件,它透过FaceID,PortraitLighting,Animoji这三个初步的应用,来验证这些硬件技术的整合应用。而这三个应用,其实也正代表未来十年内人机介面演进的三大方向。
FaceID代表完全HandFree,而且更安全的身分认证技术即将成熟。在过往,影像辨识的演算法虽然趋于成熟,但限于二维影像资料所提供的资讯有限,要拿脸部影像作为主要的身分辨识方式,还是有很大的困难。但加入三维的资讯与深度学习的技术之后,可以轻易处理包括「发型,彩妆,眼镜,面具,照片」等类型的问题,脸部辨识的应用就是完全不同的境界。
Animoji示范了如何在近距离内以即时的速度,精密辨别人脸或肢体的微小动作。如进一步结合AI的动作识别,它就会是下一代AR人机互动的主流形式。
PortraitLighting揭示摄影与影像处理软件的新世界。经由在照片中加入3D的资讯,透过程式来人为修正照片(也就俗称的P图),将拥有更宽阔的空间。更进一步的,以往已经很成熟的3D影像处理技术,不只可以用来渲染(render)人造的3D物件或模型,未来还可以拿来渲染真实世界中的物体与影像。更白话的说,现在我们还不难区分由电脑3D绘图所产生的影像,和真实照片之间的差别,但未来这个疆界会更加模糊,而这也正是混合实境(MixedReality)的基础。
细看这上面三种类型的应用,都需要依赖高速影像处理,3D感测与成像,AI运算,以及高度整合的软硬件,才能实现。所以,苹果为这些应用打造了专属的感测器SoC,专属的光学元件,专属的GPU,甚至内建专属AI引擎的CPU。也正因为这样的软硬件结合优势,凯基证券分析师郭明錤认为苹果在3D感测的领域,至少领先业界一年半到两年。
换句话说,苹果很明显的打算利用iPhone这个全球最大规模的硬件平台,有计划的验证与实验各种3D感测技术在行动装置上的可能应用,并且建议专属硬件的门槛。而其最终的目的,就是利用其软硬件整合的优势,为未来的智能装置打造下一世代的人机介面。
iPhoneX的真正意义
正如同十年前第一代iPhone揭示了mobileinternet与触控时代的全面来临,今日的iPhoneX也恰如其分的揭示了下一个十年,个人运算环境迈向AI与MixedReality时代的可能样貌,以及软硬件技术的发展方向。
精彩评论