3D成像助计算机实现智能三维定位

下载贤集网APP入驻自媒体

普通摄像头都是2D平面成像的，丢失了物理世界中的第三维信息(尺寸和距离等几何数据)，计算机只能实现影像记录和平面图像特征识别，分析算法难度极大，目前能够实现的智能分析功能十分有限。3D成像能够识别视野内空间每个点位的三维坐标信息，从而使得计算机得到空间的3D数据并能够复原完整的三维世界并实现各种智能的三维定位。

1 三种主流的3D成像技术：结构光、TOF和双目

主流的3D成像技术有三种： 1)结构光(Structure Light)。结构光投射特定的光信息到物体表面后，由摄像头采集。根据物体造成的光信号的变化来计算物体的位置和深度等信息，进而复原整个三维空间;2)TOF(Time Of Flight，飞行时间)。通过专有传感器，捕捉近红外光从发射到接收的飞行时间，判断物体距离;3)双目测距(Stereo System)。利用双摄拍摄物体，再通过三角形原理计算物体距离。

2 交互向三维升级，想象空间巨大

触摸屏和摄像头仍属于2D的交互方式。在触摸屏上，我们只能实现平面范围内的感应和触控，即使出现了3D Touch等新的触控方式，人机交互也依然只局限在一个平面上。而现有的摄像头则只能实现2D图片的拍摄，无法实现3D图像的交互。

而到了以AR为代表的下一代计算平台，则需要3D的交互方式，这是由AR设备的定义所要求的。AR技术是指借助计算机视觉技术和人工智能技术产生物理世界中不存在的虚拟对象, 并将虚拟对象准确“放置”在现实世界中。通过更自然的交互，呈现给用户一个感知效果更丰富的新环境。

由于现实环境是3D的，所以AR技术为了实现逼真的效果，也需要产生3D的虚拟对象，并把3D的虚拟对象叠加显示在现实的物理环境中，这就要求AR设备可以实现3D的输入和输出。

由于AR所需要的是3D的交互，所以现有的触摸屏和摄像头等2D的交互方式并不满足AR的要求，需要新的交互技术。三维交互的应用广泛：精确的脸部识别可以用于解锁、支付;精确的手势及动作识别可以用于家庭游戏娱乐;精确的人形建模可以让网购更有效率，让移动社交更真实。而全球生物识别(2015年130亿美金)、游戏(2016年996亿美金)、B2C电商(2015年2.2万亿美金)加在一起粗略统计是一个超过2万亿美金级别的市场。哪怕三维成像应用渗透率只有10%，都将造就一个万亿人民币级别的市场规模。3D成像的未来想象空间巨大。

3 已实现商用，预计成为2017年顶级品牌手机杀手锏

从技术角度来说，3D成像并不是近年才新出现的。自2009年微软发布基于3D成像的游戏体感交互设备Kinect已经有8年时间，而Google的Project Tango也提出了4年。随着图像处理芯片技术的更新换代，AR需求的不断涌现以及AI大数据技术的风起云涌，进一步坐实了一个事实：3D成像已经过了技术基础期，即将进入长达5年以上的高速成长期。

3.1 微软Kinect，体感识别游戏终端

2009年6月2日，微软在东京电玩展上首次发布针对XBOX360的体感周边外围设备Kinect，Kinect V1采用PrimeSense(2013年被苹果收购)结构光方案，硬件上由三个镜头组成，中间的镜头是 RGB彩色摄像头，用来采集彩色图像。左右两边镜头则分别为红外激光发射器和红外CMOS摄像头所构成的3D结构光深度感应器，用来采集深度数据(场景中物体到摄像头的距离)。彩色摄像头最大支持640*480分辨率成像，红外摄像头最大支持320*240成像。同时，Kinect V1还搭配了追焦技术，底座马达会随着对焦物体移动跟着转动。Kinect V1也内建阵列式麦克风，由四个麦克风同时收音，比对后消除杂音，并通过其采集声音进行语音识别和声源定位。

PrimeSense的结构光方案，通过Infrared projector发射一副具有三维纵深的“立体”编码近红外激光(光源通过准直镜头和DOE器件形成衍射光斑)，再通过接收端的Infrared camera收集经人体反射回来的红外光线。这种光斑具有高度的随机性，而且随着距离的不同会出现不同的图案，也就是说在同一空间中任何两个地方的散斑图案都不相同。只要在空间中打上这样的结构光然后加以记忆就让整个空间都像是被做了标记，然后把一个物体放入这个空间后只需要从物体的散斑图案变化就可以知道这个物体的具体位置。

当然，首先后台需要保存空间标定数据，假设Kinect规定的用户空间是距离电视机的1米到4米范围，每个10cm取一个参考平面，那么标定下来我们就保存了30幅散斑图像，需要进行测量的时候，拍摄一副待测量的散斑图像，作为基准数据信息。将这幅图像和我们保存下来的基准数据信息依次做互相关运算，这样我们会得到30幅相关度图像，而空间中的物体存在的位置，在相关图像上会显示出峰值，把这些缝制一层层叠加在一起，在经过插值运算就会得到整个场景的三维形状了。

3.2 Google Project Tango, 全球首款AR智能手机

Tango在谷歌已存在4年时间，2013年初谷歌的ATAP(先进科技与计划)团队就已开始着手相关的研发。Project Tango的技术主要是使用传感器和摄像头来对室内建筑进行3D建模，同时还具备无限宽广的应用场景，包括绘制3D地图，帮助盲人在陌生的地方导航，让人们能利用家中的环境玩拟真的3D游戏等。

搭载Tango的首款商用机型联想Phab2 Pro于2016年Tech World大会正式发布，价格为499美元，Phab2 Pro尺寸达到了6.4"。同时，配有全金属机身和2.5D盖板玻璃。

由于PrimeSense被苹果收购，Google在Phab 2 Pro改用TOF技术进行3D成像，设有三种摄像头：最上方一颗是三星的1600万像素RGB CMOS摄像头，用于常规拍照;最下方是OV鱼眼镜头，用于动作捕捉;两者之间则是TOF系统构成，有上方的Princeton提供的IR VCSEL，和下方英飞凌及pmd共同提供的IR Depth sensor。这三颗摄像头模组均由大陆模组厂商舜宇光学提供。

为了提供三维场景，三种摄像头各司其职，并与其它传感器“合作”，以实现以下功能：

(1)运动追踪(Motion Tracking)：通过移动设备自带的多种传感器，在不通过外界信号的情况下，实时获取设备的姿态与位置，追踪设备在三维空间中的运动轨迹。Tango创新性地采用了摄像头与惯性测量单位(IMU)结合的方法来实现精确的运动追踪功能。

(2)环境学习(Area Learning)：利用视觉信息记录与索引外界环境，自动矫正环境构建与运动追踪中积累的误差，识别重复环境。该功能描述起来很容易，但实施起来则相当的困难，首先设备会对其拍摄的每一帧照片提取特征，然后对出现的特征进行保存和引索，再利用一些高效的储存和搜索算法，实时地判断新的一帧是否跟过去曾经拍摄的环境有相似之处，如果匹配准确的话，设备可以立即利用之前已经收集的环境信息。

(3)深度感知(Depth Perception)：利用自带的三维飞行时间摄像头扫描外界三维环境，构筑三维模型，再配合运动追踪，即可告诉设备在空间中的位置，与四周障碍物的距离。