近日,计算机视觉领域最负盛名的学术会议IEEE国际计算机视觉与模式识别会议(CVPR)在美国加州举行,会上颁发了Workshop NTIRE 2019 视频复原比赛相关奖项,由中国科学院深圳先进技术研究院(以下简称深圳先进院)、商汤科技、香港中文大学、南洋理工大学组成的联合团队研发的一套EDVR算法,以大幅领先第二名的成绩包揽了该比赛四个赛道的全部冠军。
值得一提的是,此前三届比赛都以图像复原为主题,今年,该赛事首次以视频复原作为竞赛任务,意味着任务难度达到了全新高度。
“这是计算机视觉领域一次革命性的比赛,相信行业内很快将掀起一场视频复原算法的潮流。”联合小组成员、深圳先进院先进计算与数字工程研究所多媒体集成技术研究中心博士董超接受媒体采访时表示。
此次视频复原比赛包含两个视频去模糊赛道和两个视频超分辨率赛道。所谓视频去模糊,是将画面模糊的视频还原成清晰视频,而视频超分辨率则是将低清的小视频复原为高清的大视频。
“与图像复原相比,视频复原有大量的时空冗余信息可利用,”董超说,“因此,清晰度能够比单一图像复原更高,相应的难度也更大。”
利用EDVR算法与目前行业内最好的图像超分辨率算法RCAN对同一视频做处理时,可明显看到,EDVR算法能够还原出更多细节,这是因为传统图像算法仅将视频的每一帧进行了单一的图像复原,而EDVR算法连续用了7帧画面的信息来恢复1帧图像。
“视频复原一定要解决图像对齐和时空信息融合两大问题。”据董超介绍,视频相邻帧存在一定的抖动,必须先对齐才能进行下一步处理。多帧图像对齐后,需要将挖掘出的时空信息进行融合。
EDVR算法中发明的多个模块很好地解决了这两大问题。“这两个步骤是所有视频底层处理的基础。”董超表示,这也是团队用一套算法便拿下了四个赛道冠军的原因。
此次共有14支队伍进入最终的排名,从结果来看,联合团队的算法在大部分数据集上精度指标都是最高的。近日,该团队公布了所使用的算法论文,并将代码全部开源。
董超表示,将深度学习用于视频复原是近两年兴起的新技术,技术难度大、门槛高,将代码开源是希望吸引更多团队进入该领域,一起发展计算机视觉技术。
谈及视频复原算法的应用,董超十分看好未来市场发展的潜力。据他介绍,该算法在视频直播、高清电视、手机拍摄、视频监控等领域均潜藏巨大需求量。
不过,董超也表示,尽管最新算法达到了视频复原的效果,但距离实际产业化应用尚有一系列技术难题要解决,而开源代码恰恰能加速这样的一个过程,预计三五年内该领域会有大量论文涌现。
除了在视觉复原大赛中“一骑绝尘”,在同期举办的图像复原大赛中,联合团队同样获得冠军。
据介绍,利用深度学习解决图像超分辨率问题,要使用到大量的训练数据。正常的情况下,至少200个以上的图像对才可能正真的保证图像的超分辨率效果。而此次比赛仅提供60个图像对作为训练数据,大大限制了超分辨率的效果。团队的论文首次分析并解决了超分辨率网络中的过拟合问题,即便使用少量的图像数据,也能够得到出色的结果。
这支在国际顶级计算机视觉大赛中脱颖而出的队伍,专注于底层计算机视觉研究,包括图像和视频的超分辨率、去噪与增强等技术。今年成绩再创新高,也是联合团队多年深耕的结果。
2014年,该团队首次利用深度学习实现图像超分辨率,引起了深度学习在底层视觉领域应用的热潮。2017年,团队获得CVPR 2017图像超分辨率比赛的亚军。2018年,团队分别获得CVPR18和ECCV18两届图像超分辨率比赛单一赛道的冠军。
今年1月,深圳先进院与商汤科技进一步合作,共同成立“未来视觉技术联合实验室”。据联合实验室负责人、先进计算与数字工程研究所所长乔宇介绍,该实验室将围绕复杂视觉信息的深度分析与理解方法,以及其他人工智能前沿技术探讨研究、新产品研究开发、技术平台建设、人才教育培训等展开广泛深入合作,共同推进人工智能技术在各行业领域的示范应用和产业化协同发展。