2016年,Alpha Go战胜韩国围棋选手李世乭再次引爆了全球对于人工智能的讨论和关注。计算机视觉作为人工智能技术的基础,受到深度学习的成功影响在近几年内取得了突破性的进展,正在成为影响行业发展的下一个引擎。
巨头纷纷布局,市场也吸引了慢慢的变多的人才创业去参加了。计算机视觉正在成为AI最火热的细致划分领域之一。
本报告将针对计算机视觉技术发展的关键节点、市场现状及应用场景做多元化的分析和研究。
人工智能正在像婴儿一样成长,机器不再只是通过特定的编程达成目标,而可以通过不断地学习来掌握本领,这主要依赖高效的模型算法进行大量的数据训练,其背后需要具有高性能计算能力的软硬件作为支撑。伴随互联网的快速地发展和底层技术的慢慢的提升,人工智能所需的“能源” 正在不断完善。
数据量:2000年至今互联网及移动互联网的快速地发展使得数据实现了量的积累,据IDC预测,2020年全球的大数据总量将为40ZB,其中有七成将会以图片和视频的形式进行存储,这为AI的发展提供了丰厚的土壤。
深度学习算法:多伦多大学教授Geoffrey Hinton(致力于神经网络和深度学习研究)的学生在业内知名的图像识别比赛ImageNet中利用深度学习的算法将识别错误率一举降低了10%,甚至超过了谷歌,深度学习进而名声大噪。2015年,微软亚洲研究院视觉计算组在该项比赛中夺冠,将系统错误率降低至3.57%,已超越了人眼。
高性能计算:GPU响应速度快、对能源需求低,可以平行处理大量琐碎信息,并在高速状态下分析海量数据,有效满足人工智能发展的需求。
基础设施成本:云计算的普及和GPU的广泛使用,极大提升了运算效率,也在某些特定的程度上降低了经营成本。IDC报告数据显示,数据基础设施成本正在迅速下降,从2010年的每单位9美元下降到了2015年的0.2美元。
与此同时,巨头和勇于探索商业模式的公司也相继投入资源和成本进行商业化探索,但技术本身尚有足够大的成长空间,当前仍处于早期阶段。
3. 当前国内AI领域产业格局尚未成熟,上中下游均蕴含着不俗的创业空间,但进入门槛较高
目前国内AI领域的产业高质量发展还较为青涩,核心基础设施层面较为依赖国外市场,但也因市场变革期而存在大量弯道超车的机会,出现了地平线机器人、Cista、图灵机器人等创业型公司;
技术服务层面多以勇于探索商业模式的公司为主,且有能力与大厂商一同探索推进AI技术的研究升级,其中以深度学习、计算机视觉、自然语言处理等最为火热,这是倒逼基础设施升级与拓展行业应用场景的关键环节(本报告将着重关注计算机视觉技术的发展与影响);
行业应用层则多点开花,既有致力于无人驾驶、无人机等创新产品研发的企业,也有将人工智能技术与传统行业结合,影响行业变革(诸如安全、医疗、金融等)的企业。
人类认识了解世界的信息中91%来自视觉,同样计算机视觉成为机器认知世界的基础,终极目的是使得计算机能够像人一样“看懂世界”。目前计算机视觉主要使用在在人脸识别、图像识别方面(包括静态、动态两类信息)。
5. 计算机识别准确度和识别类型多寡是影响计算机视觉技术应用发展的基础因素
提升计算机识别的准确度以及扩大计算机的识别范围一直是学术界和工业界努力的方向,并热衷于参加国际主流的计算机视觉比赛以此来验证研究成果。
至今,斯坦福大学视觉实验室ImageNet通过众包的方式收集了1千多万张图片,共计2万多个标签类别,成为全世界最大的图像识别数据库,其举办的ILSVRC也成为最受关注的大赛。
2012年,ImageNet ILSVRC比赛中,冠军团队使用深度学习算法将识别错误率一举降低了10%,成为影响人工智能进程的里程碑事件,深度学习从此进入了广泛应用期。
但值得注意的是,现实中的复杂程度远超于实验室的环境,实际应用过程中更依赖产品的设计,以及应该要依据环境进行不断调优。
国外巨头自研和收购双管齐下布局,将视觉技术大范围的应用于自身产品升级,并基于自身基因打造技术服务平台和新品类持续提升影响力。
综上能够准确的看出,勇于探索商业模式的公司以多点垂直化企业服务为切入点,国内外巨头则一方面利用资源优势积极进行底层架构建设,并将技术大范围的应用到已有的产品升级中,另一方面利用资金优势大量收购优秀的技术和数据勇于探索商业模式的公司,迅速弥补技术短板、数据短板和人才短板。与此同时,巨头们还热衷于创新前沿产品的研发,以及搭建开源平台帮助勇于探索商业模式的公司迅速起步,持续不断地提升业内影响力。
Analysys易观认为,国内技术主要沿袭国外,但创业环境和应用场景更为宽松,市场空间不容小觑。
1. 计算机视觉技术已应用于传统行业和前沿创新,安全/娱乐/营销成最抢先落地的商业化领域
计算机视觉技术已步入应用早期阶段,不仅渗透到传统领域的升级过程中,还作为最重要的基础人工智能技术参与到前沿创新的研究中。
本报告将着重关注技术对传统行业的影响。其中,计算机对静态内容的识别应用大多数表现在搜索变革和照片管理等基础服务层面,意在提升产品体验;伴随内容形式的变迁(文字图片视频),动态内容识别的需求愈加旺盛,安全、娱乐、营销成为最先落地的商业化领域。
Analysys易观认为,这三类领域均有一定的产业痛点,且均是视频内容产出的重地,数据体量巨大,适合利用深度学习的方式予以改进。与此同时,行业潜在的商业变现空间也是吸引创业者参与的重要原因。
另一方面,当前计算机视觉主要使用在于二维信息的识别,研究者们还在积极探索计算机对三维空间的感知能力,以提高识别深度。
安防是环境最为复杂的应用领域,通常的应用场景以识别嫌疑犯、目标车辆(含/假牌车)以及真实环境中的异常为主。
传统安防产品基本功能在于录像收录,只能为安防人员在事后取证的环节提供可能的线索,且需要人工进行反复地逐帧排查,耗时耗力;智能安防则是将视频内容结构化处理,通过大数据分析平台做智能识别搜索,大大简化了工作难度,提升工作效率。
除此之外,在硬件层面上,传统安防产品超过4-5米的监控内容通常无法达到图像识别的像素要求,并容易受复杂环境中光影变化和移动遮挡的影响而产生信息丢失,因此计算机会出现大量的误报漏报,这些局限为治安工作造成了一定的阻碍。
安防技术厂商在此基础上进行了创新,以格灵深瞳为例,目前已将摄像头的有效识别距离稳定至70-80米,同时开创了三维计算机视觉的应用,通过整合各类传感器达到类人眼的效果,减弱了环境对信息采集的负面影响,提高复杂环境下的识别准确度。
Analysys易观认为,计算机视觉的应用从行业痛点出发,以软硬件的方式大大优化了安防人员的作业效率与参考深度,是顺应行业升级的利好。不过,在实际应用过程中,对公安、交警、金融等常见安防需求方而言,更强的视觉识别效果往往意味着更多基础成本(存储、带宽等)的投入,安防厂商的未来将不只以技术高低作为唯一衡量标准,产品的实用性能与性价比的平衡才是进行突围、实现量产的根本,因此市场除了有巨大的应用空间外,还会引发一定的底层创新。
直播平台的爆红丰富了网民的娱乐生活方式,产生的海量内容也为平台的监管造成了巨大的压力,传统人工审核效果不稳定,基于深度学习的图像识别平台可以有效缓解这一痛点,同时也可对前端的内容运营来优化,提高使用者真实的体验和活跃度。
Analysys易观认为,直播平台为计算机视觉创造了新的应用场景,伴随行业的发展,除刚需之外,平台定制化、差异化的需求也会为计算机视觉应用提供更多的增量空间。另外,与直播的UGC性质类似,其他的应用场景还有长短视频平台、社交平台、云存储平台、CDN以及社区平台。
挖掘视频中广告位及视频电商购物一直是视频平台作为中间方探索营销创收的新方式,此前以人工贴标、投放的方式实现,因效率低下仅作为小范围试水。
Analysys易观认为,计算机视觉将加速这一探索的进程,除技术成熟度之外,使用者真实的体验和用户习惯(从PC端向移动端迁移)也是对应用程度较为重要的影响因素,需要合理设计及长期培育。
6.计算机视觉作为基础人工智能技术,与其他技术融合一同推动创新型行业应用的发展
本报告针对计算机视觉技术发展的关键节点、市场现状及应用场景做多元化的分析和研究。
资料来源:报告中的资料来源于对行业公开信息的研究、对业内资深人士和相关企业管理人员的深度访谈,以及易观分析师综合以上内容作出的专业性判断和评价。