2017年5月27日,中国棋手柯洁(左)在与“阿尔法围棋”的第三场对局中思考自2006年人工智能走出实验室进入到产业化阶段以来,人工智能界在算法理论、基础与平台、应用技术、终端产品、行业应用以及未来探索领域涌现出了诸多领军团队,引领着人工智能的发展方向。
自2006年人工智能走出实验室进入到产业化阶段以来,在产业链各环节的不懈推动下,人工智能开始以前所未有的速度渗透进各个行业,并成为深刻改变人类生产生活方式的革命性力量。
在此期间,人工智能界在算法理论、基础与平台、应用技术、终端产品、行业应用以及未来探索领域涌现出了诸多领军团队,引领着人工智能的发展方向。
当前应用最广泛的算法当属于深度学习算法了。美国神经网络之父杰弗里·欣顿(Geoffrey Hinton)在2006年提出的深度学习算法,通过构建多隐层模型和海量训练数据来学习更有用的特征,最终提升了分析和预测的准确性。
也正是深度学习算法与云计算、大数据的共同作用,才使得人工智能华丽蜕变,开启了产业化的大门,成为了产业高质量发展的新引擎。而为深度学习的产生与发展做出卓越贡献的深度学习三驾马车——欣顿、加拿大蒙特利尔大学教授约舒亚·本希奥(Yoshua Bengio)、纽约大学教授扬·莱坎(Yann Lecun)也深受企业界青睐,目前他们分别受雇于美国的顶级公司谷歌、微软和脸书,并成为2018年的图灵奖获得者。
为进一步提高深度学习的效率和准确率,学术界一直在探索对深度学习算法的深化和改善研究。这一方面取得最大成绩的当属谷歌旗下的Deepmind公司,其AlphaGo由于采用深度强化学习算法而一路战胜李世石、柯洁等一系列人类围棋冠军而闻名天下,后来推出的新版本AlphaZero甚至又战胜了AlphaGo。
在信息非对称的博弈中,卡耐基梅隆大学开发的人工智能Libratus在与4名人类顶尖得州扑克选手之间的“人机大战”中也取得了压倒性胜利。此外,比较知名的算法还有谷歌大脑研究科学家Ian Goodfellow提出的对抗式生成网络、南京大学周志华教授提出的深度森林、新加坡南洋理工大学黄广斌教授提出的超限学习机等。
但是,随着深度学习应用逐步深入,其不可解释性与黑箱问题等也在近两年逐步暴露出来。因此,一些传统的机器学习算法重新受到重视,如1988年美国计算机科学家犹大·伯尔(Judea Pearl)提出的贝叶斯网络、2012年谷歌提出的知识图谱等。另外,还有一些新型算法,包括欣顿提出的胶囊网络、谷歌大脑与Deepmind提出的图网络等。
在通用芯片设计方面,美国英伟达(NVIDIA)的Tesla等系列GPU、谷歌的TPU以及英特尔(Intel)的NNP等产品都属于国际领先的云端芯片;三星、苹果、高通等终端厂商也都有相应的终端芯片产品;中国的寒武纪在深度学习芯片设计方面也已达到国际先进水平。
在专用芯片设计方面,特斯拉2019年4月发布了自主研发的无人驾驶专用芯片以及CPU、GPU、ISP等一系列芯片,其完全无人驾驶计算机能够达到144TOPS的算力,但功耗仅为72W,并已搭载在目前新生产的特斯拉旗下车型中。总部在北京的地平线年底发布了面向智能驾驶的Journey 1.0和面向摄像头的Sunrize1.0处理器。
在半导体加工设施方面,超高精密仪器、数字控制机床、光刻机等基本上被美国、日本、荷兰等垄断,包括美国的应用材料公司、日本的日立、荷兰的阿斯麦(ASML)等。
在芯片生产方面,目前来自中国台湾的台积电处于世界领先水平,它将于2020年开始5nm制程的量产,而且3nm制程的环境影响评价已获通过,2nm制程计划已经制订。
深度学习模型需要基于大量的数据来进行训练才能获得较好的参数,因此国际上一些大型科研机构和企业很看重数据集的建设。数据集建设的先驱当属于美国斯坦福大学的华裔科学家李飞飞,她于2009年成功创建ImageNet数据集,并通过举办比赛等方式极大地促进了图像识别算法的进步,使其分类精度达到了95%以上。
目前,比较知名的数据集包括美国国家标准研究院的Mugshot、谷歌的SVHN、微软的MS COCO等图像基础数据集、斯坦福大学的SQuAD、卡耐基梅隆大学的Q/A Dataset、Salesforce的WikiText等自然语言数据集以及2000 HUB5 English、CHiME、TED-LIUM等语音数据集。另外,澳大利亚的数据集Kaggle横跨多个领域,具有较强的综合性,其影响力也正在逐年增强。
由于深度学习对算力有较高的需求,因此相继出现了一些专门的计算框架和平台,著名的框架包括谷歌的TensorFlow、加州大学伯克利分校的Caffe、微软的CNTK、脸书的Torch、亚马逊的MXNet等。其中,谷歌的TensorFlow能够支持异构设备的分布式计算,其平台API能力已经覆盖了CNN、RNN、LSTM等当前最流行的深度神经网络模型。
中国的百度公司也于2016年宣布了开源PaddlePaddle深度学习平台,并于2019年4月发布了10余项新特性及服务,覆盖深度学习开发、训练、预测环节。
由荷兰的吉多·范罗苏姆(Guido van Rossum)于1990年代初开发出来的脚本语言Python语言慢慢的变成了广受欢迎、用途广泛的AI开发语言。微软在其Build 2019开发者会议上宣布在Visual Studio 2019中默认包含IntelliCode。谷歌于2018年发布了AutoML,大幅度的降低了人工智能开发者的门槛,目前已经能够支持图像、翻译、视频和自然语言处理等多个领域。
谷歌还推出一个名为AI Platform的人工智能训练平台,为AI研究人员的团队测试、培训以及部署模型提供了一个共享型端到端环境。
在智能化芯片设计工具方面,由于高集成度、高速度、高性能、高功效等要求,电子设计自动化(EDA)已经成为必不可少的工具。自1978年Calma公司发布GDS-II以来,EDA市场经过激烈的竞争,目前已经形成了Cadence、Synopsys、Mentor Graphics三足鼎立的局面。
语音识别与自然语言处理领域的先驱当属于IBM,其ViaVoice早在1970年就已经引起了广泛关注。但语音识别能够开启产业化大门还要归功于本希奥开创了深度神经网络做语音识别的先河。
此后,IBM Watson在2011年赢得了《Jeopardy!》答题秀,Nuance公司的语音识别技术也成为了苹果公司Siri产品的核心。谷歌在2018年10月推出的BERT模型,在机器阅读理解顶级水平测试SQuAD1.1中取得了惊人的成绩,全部两个衡量指标全面超越人类,并且还在11种不同的NLP测试中创出最佳成绩。
中国在语音识别与自然语言处理领域也取得了较好的成绩,科大讯飞在国际权威大赛中继续保持领头羊位置。
2018年1月,科大讯飞在业界权威的斯坦福SQuAD评测中第三次获得世界第一名,其融合式层叠注意力系统也是全球首个模糊准确率超过89%的系统。随后,在第十二届国际语义评测比赛(SemEval2018)中,哈工大讯飞联合实验室获得了机器阅读理解评测任务第一名。
另外,科大讯飞还获得了首个美国CES展“2017年度优秀人工智能产业领导者”奖,在第五届国际多通道语音分离和识别大赛(CHiME-5)中再次包揽了大赛中单麦克风阵列任务、分布式麦克风阵列任务和两种麦克风阵列对应的两个端到端的语音识别任务等全部四个项目的冠军。
此外,搜狗公司在智能语音方面的成长速度也很惊人。在国际口语机器翻译评测比赛IWSLT2018评测比赛中,搜狗与讯飞分别夺得了baseline模型和端到端模型的冠军。
近些年来,影响较大的学术领军人物基本上都是来自于图像识别领域。欣顿由于其深度学习算法在当届ImageNet竞赛中取得压倒性胜利,而使得人工智能进入到深度学习时代;莱坎提出的以LeNet为代表的卷积神经网络应用到各种不同的图像识别任务时都取得了不错效果;吴恩达供职于谷歌时负责的项目借助模拟神经网络“DistBelief”,在没有人帮助的情况下使机器自己读懂了猫的概念。
何凯明、孙剑等提出的ResNet模型在ImageNet 2015竞赛中以96.43%的准确率首次全面超过人眼94.9%的准确率;海康威视在ImageNet 2016竞赛中获得了多项第一名。
依图科技、商汤科技、中国科学院深圳先进技术研究院在美国国家标准技术局(NIST)的人脸识别竞赛FRVT2018中包揽了前五名,依图科技成绩甚至达到了千万分之一误报率下的识别准确率超过99%。
大华股份2018年在2D车辆目标监测、MOT跟踪、行人重识别等国际竞赛中分别取得了第一名的成绩。
腾讯2018年在WIDERFACE和FDDB两个权威的人脸检测数据集上均取得了第一并刷新了世界纪录,腾讯优图还可在150毫秒内完成对色情图片的识别,精度达到千分之一错误率。
另外,百度于2016年推出了体育解说机器人,在奥运期间为用户直播热门篮球赛事,不仅能在直播过程中与用户互动回答问题,而且还特别设定了“全程赛事解说”和“球星重点解说”两种模式。
搜狗在唇语识别领域表现优异,在非特定人开放口语测试集上可以达到60%以上的准确率,在车载、智能家居等垂直场景命令集上甚至可以达到90%的准确率。
在工业机器人方面,日本的发那科和安川、瑞士的ABB、德国的库卡被称为“四大家族”,它们占据了全球将近60%的市场份额,在中国市场份额更是达到70%以上。
在人形机器人方面,最引人注目的机器人当属谷歌旗下的波士顿动力公司研发的阿特拉斯(Atlas)机器人,其闪转腾挪、跳跃能力令人称奇。日本本田研发的阿西莫(ASIMO)机器人不仅能够主动闪避迎面而来的人,还能上下楼梯,甚至完美地完成用纸杯倒水等任务。俄罗斯致力于打造太空战士,其军方机器人Fedor不仅可以准确执行人类口头指令,还可以完成匍匐前进、开车、射击等任务。
在手术机器人方面,由美国直觉外科公司(Intuitive Surgical)、IBM、麻省理工学院和Heartport公司联合研发的达芬奇机器人在外科手术领域具有绝对的垄断地位,自问世以来20多年一直处于行业第一的位置,保持70%的毛利润率和30%的净利润率。
微型机器人方面,慕尼黑工业大学的Simmel团队2018年使用DNA分子组装出一个可以远程控制的纳米机器臂,并用它成功推动了一个纳米金微粒。哈工大谢晖教授团队2019年3月研制出可重构磁性微机器人群,磁性游动机器人长3微米,直径2微米,为实现毛细血管内手术带来了可能。
在无人系统方面,中国大疆无人机目前已经占据了全球70%以上的市场份额,而特斯拉、谷歌、百度等均在无人车领域取得了较大进展,相继在一些国家和区域获得了路测牌照。
自1980年代约翰·霍普金斯大学的科研人员Apostolos Georgopuolos找到猕猴的上肢运动方向和运动皮层中单个神经元放电模式的关系以来,脑机接口取得了较大进展。
早期的脑机接口基本上都是侵入式的。2005年,美国电子活动神经技术系统公司(Cyberkinetics)获得美国生物制品评价和研究中心(FDA)批准,进行了第一期的运动皮层脑机接口临床试验,使得四肢瘫痪的病人能够利用一个96个电极的植入物通过运动意图来完成机械臂控制、电脑光标控制等任务。
2016年9月,浙江大学吴朝晖课题组通过一种结合了大鼠和增强学习算法计算机的混合脑机系统,使得被“增强”后的大鼠在学习走迷宫任务中即使是在视觉和触觉感知受阻的情况下也能顺利走出迷宫。
由于侵入式脑机接口容易给植入者带来痛苦和伤害,近年来非侵入式的神经成像术开始受到研究者的青睐。
2004年创办于硅谷的神念科技已经将利用脑电波实现的脑机接口应用于脑立方等产品中。
2017年,创业领域领军人物埃隆·马斯克(Elon Musk)等投资创立面向神经假体应用和未来人机通信的脑机接口公司“神经连接”(Neuralink)。
中科院半导体所及其合作团队利用任务相关成分分析算法,将稳态视觉诱发电位脑机接口的通讯速率提升到5.4 bit/s(最优结果达到6.3 bit/s),成为目前已有报道的最快头皮脑电脑机接口系统。
2018年11月,美国华盛顿大学和卡耐基梅隆大学的研究学者首次成功建立了多人脑对脑接口合作系统,使3名受试者在互不对话情况下的意念分享平均准确率高达81.25%。
由于现有计算机系统受到内存墙等相关方面的制约,难以达到较高的计算效率,近些年来国内外一些科学家开始进行颠覆冯·诺依曼体系结构(数学家冯·诺依曼提出了计算机制造的三个基本原则,即采用二进制逻辑、程序存储执行以及计算机由五个部分组成,这套理论被称为冯·诺依曼体系结构)的类脑智能算法与技术的探索。
现在,随机兴奋神经元、扩散型忆阻器等已经在IBM、马萨诸塞州阿姆赫斯特大学、清华大学等机构研制成功,IBM已经研制成功TrueNorth芯片,清华大学团队也成功研制出了基于忆阻器的PUF芯片。
(作者系中国信息通信研究院云计算与大数据研究所AI研究部主任工程师)