从物品识别,到尺寸测量、产品检测,再到机器臂定位,机器视觉作为“智慧之眼”,已经走到了技术和资本相互激励的舞台中间。而嵌入式系统,使得软硬件配置更加自如,生产过程更富柔性,视觉产品的市场容量和多元程度大大提高。
任何智能化系统,功能强大、硬件轻便、成本低都是开发人员所要考虑的首要原则。就和经济学揭示的“生产约束条件下的最大产出”和“个人预算前提下的效用最大化”同样道理。如同济大学沈斌教授所言,外国注重卖软件,国内则着重卖产品,软件这方面,杭州部分企业做得比较好一些。
对于机器视觉和计算机视觉来说,自动驾驶和人工智能等复杂系统的效率要求更高,卷积神经网络被广泛应用于智慧视觉领域。最近,FaceBook团队独辟蹊径,提出一种神经网络压缩的新方法——Bit Goes Down,将系统对硬件要求的降低又向前大大推进了一步,这到底会带来哪些启示呢?
小—又—精
FaceBook团队对图像检测Mask R-CNN(何恺明)进行25倍压缩,用上8块V100 GPU来训练,结果显示压缩后的模型Mask AP只下降4%左右。团队又对ResNet-18和ResNet-50等图像分类残差网络模型压缩后运行的结果进行比对,发现ResNet-50在压缩到5MB大小时效能达到最佳!
插播一下,何同学去年刚刚获得第31届计算机视觉和模式识别大会的PAMI年轻学者奖。此前,该同学作为第一作者还获得过CVPR 2009,CVPR 2016和ICCV 2017(Marr Prize)最佳论文奖,以及ICCV 2017最佳学生论文奖。2009年,就已经成为首获计算机视觉领域三大国际会议之一CVPR“最佳论文奖”的中国学者。恺明同学也是保送清华的广东高考状元,博士毕业于港中大,2016年进入FaceBook。
何恺明的Mask R-CNN,是从Faster R-CNN扩展而来,在Faster R-CNN的基础上增加一个用于预测目标掩膜的分支,该分支与已存在的边界框分类分支平行。Mask R-CNN训练简单,且只在Faster R-CNN的基础上增减很少的时间消耗,运行速率达到5fps。而且,Mask R-CNN容易适用于其他任务。
独辟蹊径
对卷积神经网络进行压缩,学界一直在探索的路上。当前,主流的思路主要集中在MobileNets,精确度虽然较高,但距离绝佳状态仍然较远。本次FaceBook团队将视线回归传统卷积网络框架下,最大的特点是关注activations,而非权重本身。具体实现包括层量化和网络量化,具体实现方法是这样的:
实际上,这种学习方法是无监督性质的。团队利用distillation技术来教导“学生”网络压缩,distillation技术由Hinton等人提出(图灵奖得主)。
参考资料:
1. QbitAI “Facebook新压缩算法造福嵌入式设备”;
2. ICCV2017 何恺明博士最佳论文Mask R-CNN Tutorial 报告;
3. 同济大学机械工程系主任沈斌教授演讲发言。
End
《视觉系统设计》免费索阅