视觉是人类获取信息的最主要方式在视觉听觉、嗅觉、触觉和味觉中,视觉接受信息的比例约占80%。早在1966年,一位AI领域的先行者,时任麻省理工学院教师的马文·明斯基(Marvin Minsky),曾给他的本科学生部署了一个有趣的作业:“让计算机看懂世界”。在当时,他认为这是一个本科生在一个暑假就能完成的作业。但今天回顾起来,经过学术界和工业界无数同仁50年的努力,计算机视觉虽然经历了巨大的发展,但计算机还没有实际做到看懂这个世界。
对于计算机视觉系统而言,输入设备是视觉传感器(visual sensor),包括RGB传感器、深度(depth)传感器和激光雷达( lidar)传感器等,输出的是“对世界的理解”。如今,计算机视觉领域呈现出很多新的发展的新趋势,其中最显著的是应用的爆炸性增长。除了手机、个人电脑和工业检测之外,在智能安防、机器人、无人驾驶、智慧医疗、无人机、增强现实(AR)等领域都出现了各种形态的计算机视觉应用。
虽然计算机视觉的应用爆炸性增长,但除了指纹识别、车牌识别和数码相机里面的人脸检测技术外,真正大规模成熟的应用还是屈指可数。其中主要的原因是技术的局限。近几年,随着深度学习在视觉领域的应用,很多技术都有巨大的提升。但我们得知计算机视觉依然面临着很多挑战。以ILSVRC2016的物体检测(object detection)任务为例,最好结果的平均正确率(Mean Average Precision,MAP)只达到0.663。这在某种程度上预示着计算机自动给出图像中各种物体的外边缘矩形框的平均正确率为66%。这个结果虽然已代表了世界的顶配水平,但是,这样的结果还只能用于一些对准确率要求不高的场景,还远达不到大规模应用的程度。
在应用层面,正是因为视觉技术的不成熟不完善,所以其必须和其他技术结合,与具体的产品应用相结合,才能使视觉技术产生真正的应用价值。某一种意义上,虽然经过了50年的努力,“计算机视觉”依然在路上,还远没做到看懂世界,也没有真正大规模应用。
但机遇往往与挑战并存。计算机视觉的机遇大多数表现在三个方面。第一,迎来了前所未有的关注和接踵而至的投资热潮。这些关注既来自风险投资公司、网络公司等金融界、产业界,也来自各级政府。第二,大量的应用产生的海量数据将会促进计算机视觉技术的加快速度进行发展,而技术和应用的结合也会推动技术的成熟。第三,在这样的领域,华人科学家无论在学术界还是在产业界都非常有影响,这是中国面临的一个非常大的机遇,在这样的领域,中国可能取得在全球范围内的领头羊。所以,某一种意义上,这个时代对计算视觉从业者而言也是最好的一个时代。