天空上的无人机,地上的无人⻋,AR/VR的头盔。这些看似不相关的事物,都用到了同一种技术—SLAM。
SLAM 全称是 Simultaneous Localization and Mapping(同时定位与地图构建),是机器人和计算机视觉领域的关键技术,可以在未知环境中确定自身方位并同时构建环境三维地图,有着非常广泛的应用场景,比如说增强现实、虚拟现实、机器人、自动驾驶等。
SLAM 包括激光 SLAM、视觉 SLAM等。早在 2005 年的时候,激光 SLAM 就已经被研究得比较透彻,框架也已基本定型。
随着计算机视觉的迅速发展,视觉 SLAM 因为无需预先布置场景、适用范围广和硬件成本低廉等优点受到广泛关注。顾名思义,视觉 SLAM 以视觉摄像头为主,结合其他传感器,比如手机上比较廉价的 IMU(惯性测量单元)、GPS 或深度摄像头。
10 月 25 日,2019 TIC PRO 科技创新大会在杭州召开,浙江大学教授、浙大-商汤三维视觉联合实验室副主任章国锋带来演讲《视觉SLAM在AR领域的创新突破》,详解视觉 SLAM 面临的挑战和解决方案。
(章国锋演讲视频)
视觉 SLAM 的挑战与解决方案
“经过几十年的发展,视觉 SLAM 在理论上已经比较成熟,但是在实际产品应用中,往往会面临两方面的挑战。”章国锋说。
一是关于精度和稳定性。实际场景中,难免会存在动态变化,而且很多区域没有足够的纹理,或有相似的重复纹理。这些都会导致匹配比较困难,从而导致优化计算不稳定。
二是实时性,在一些非常大尺度的场景下,甚至是城市级的场景下,SLAM的计算复杂度会非常高。要在一个低功耗的移动设备上做到实时计算,这个难度非常大的。
“为了解决这两方面的挑战,我们近几年做了不少的研究工作。总结起来主要三方面:提升稳定性,提高计算效率以及通过云-边-端结合的方式来实现大规模场景的高精度定位与重建。”章国锋说。
提升稳定性的主要思路是如何让目标函数优化变得稳定。SLAM 计算其实就是一个目标函数的优化问题,因此优化方程的正确性和充分性就显得非常重要。
章国锋解释道:“我们尽可能去将错误的匹配剔除掉,然后引入额外的约束。比如,为相邻帧之间增加运动的约束,引入场景的结构先验,比如平面结构,另外可以采用多传感器信息融合的方式增加约束提高求解的稳定性。”
要提高计算效率,一方面是采用分治求解,提高大场景的求解效率。另一方面通过增量式计算,充分利用上一次优化计算的结果,减少冗余计算,从而大幅提高计算效率。
“基于这些研究成果,我们和商汤科技联合研发了SenseSLAM。”章国锋说,“目前可以支持单目、双目、RGB-D和IMU等多种传感器组合,支持6DoF实时位姿恢复,精度与ARCore相当。”
为了实现大规模场景的高精度定位与重建,章国锋团队提出了云-边-端结合的方式。
这种实现方式将预先重建好的高精度地图存储在云端。需要用的时候,通过云和边强大的计算能力,结合预先存储的高精度地图数据,将云或边优化的结果和三维地图信息反馈到移动端。
移动端接收到的信息,可以耦合到SLAM的优化里面去,从而实现低功耗设备在大尺度甚至城市级的这样场景下的高精定位,支撑起室内外定位导航和多人共享AR这样一些应用。
高精度地图是这种方法的基础。在采集高精度三维地图上,章国锋团队原来是用手机去拍,后来改用全景相机。
在接受 PingWest 品玩采访时,章国锋说:“手机拍摄效率不是很高,稳定性也不是非常好。我们后来改用全景相机去拍,效率非常高,也非常稳定,基本上只要拿着走一圈就行了。”
视觉 SLAM 应用于室内 AR 导航
传统的定位导航方案是GPS,而且只适合于室外,精度通常只有10米级别。
室内一般较常采用的方案有WiFi、蓝牙,通常定位精度也基本上只能到米级, 而且要预先去布置设备,工程量比较大、成本比较高。
相比而言,基于视觉的方案定位,精度可以达到分米甚至厘米级别,而且不需要额外布置设备,成本相对比较低。
章国锋说,“当然,视觉定位的挑战还是比较大的,因为室内容易缺乏视觉特征,环境改变要及时更新,而且计算量相对也比较大。”
基于视觉的定位与AR导航,主要分为三大模块,分别是稀疏地图重建、稠密地图重建和视觉定位与跟踪。
稀疏地图重建,首先从拍摄图象序列或者视频数据中抽取视觉特征,并恢复三维结构。
“我们可以进一步重建出稠密三维几何模型。这个模型可以用来处理碰撞检测和遮挡等。”章国锋说。
基于重建的高精度三维地图,用户可以基于手机拍摄一张或若干张照片,甚至视频序列,跟地图进行比对查询,得到若干二维和三维点的对应,从而求解出对应的位姿, 再结合SLAM技术可以实现连续跟踪和导航。
稀疏地图构建,面临着不少挑战,比如场景可能存在大量的弱纹理区域,存在视觉歧义以及通过云-边-端结合的方式来实现大规模场景的高精度定位与重建。
“我们可以通过拍摄全景视频,将SLAM与 SfM(Structure from motion)结合,以及采用分而治之的求解策略,来提升求解效率和稳定性。”章国锋解释道。
稠密三维重建也面临类似的问题,解决办法是通过精准的稠密深度图估计和融合,特别是结合多层次特征的精准匹配,来提高重建的稳定性。对于大型场景,可通过外存处理技术,来实现可拓展的大规模稠密网格重建。
基于视觉的定位与跟踪,主要挑战是如何在各种环境下保持高定位的成功率,特别是视点变化、光照、外观变化带来的影响,以及⻓距离、⻓时间的稳定跟踪。
“我们发现基于学习的视觉特征可以提高定位的成功率,通过将基于高精地图的重定位和SLAM做紧耦合,可以实现⻓距离的稳定跟踪。”章国锋说。
松耦合模式是直接使用云端重定位的位姿,并没有加入到SLAM的优化里。而紧耦合是在定位初始化完成之后,频繁地向云端发送请求,把云端相应的地图信息数据跟移动端拍摄图像提取的特征点进行匹配,并把获得的三维先验约束加入到SLAM目标函数优化里面去,从而能够减少误差。松耦合的误差累积很明显,紧耦合的精度明显更高一些。
除了误差累积的问题之外,松耦合也可以频繁调用重定位,但它不是放在目标函数里面优化,如果频繁调用,求解的位姿就会频繁抖动。但紧耦合因为是通过把高精度地图的三维先验约束加入到SLAM的目标函数里面优化,所以它在抑制误差累积的同时,也会保证恢复的位姿依旧很平滑。
AR 的未来
“我觉得AR未来会跟AI技术深度融合,借助AI带来的智能化,可以进一步提升AR应用的想象空间,融入到人们生活和工作的方方面面。 ”章国锋说。
AR场景的规模会越来越大,未来甚至会出现整个地球级的虚实融合。
一方面,需要对大规模的物理世界进行高效的三维数字化,然后提取出不同粒度的语义信息。如果物理世界发生了改变,需要对它重新进行数字化和及时的更新。
除了物理世界的三维数字化的重建之外,还需要对人的行为进行三维数字化,包括运动的行为、消费的行为,社交行为等等。
“5G很快就要到来,甚至要普及了。基于空间计算的AR应用,我相信也很快会流行起来。”在演讲最后,章国锋说道,“因为5G有着高带宽和低时延,得益于快速高效的数字化重建和云端高精度地图与移动终端SLAM的紧耦合,我们未来可以做到⻓时间甚至城市级场景的精准定位。”