11月19日,世界人工智能融合发展大会在山东济南召开。本次大会以“动能焕新·智慧融合”为主题,聚焦AI和产业融合发展的新路径、新模式。中国工程院院士、新一代AI产业技术创新战略联盟理事长、鹏城实验室主任高文,中国工程院院士、浪潮集团首席科学家王恩东,MPEG主席莱昂纳多·基里亚里昂(Leon…
11月19日,世界人工智能融合发展大会在山东济南召开。本次大会以“动能焕新·智慧融合”为主题,聚焦AI和产业融合发展的新路径、新模式。中国工程院院士、新一代AI产业技术创新战略联盟理事长、鹏城实验室主任高文,中国工程院院士、浪潮集团首席科学家王恩东,MPEG主席莱昂纳多·基里亚里昂(LeonardoChiariglione),英国皇家工程院院士、鲲云科技首席科学家陆永青,富士康工业互联网董事长李军旗等人工智能领军专家分别发表了主旨报告。一览群智技术副总裁刘占亮以“自然语言处理与行业应用”为题,分享了一览群智在NLP多个领域的研发成果,赋能金融、公安、媒体等行业,探索出一条把AI转化成生产力的道路。
本次世界人工智能融合发展大会云集国内外AI领域大咖,围绕人工智能生态、硬件及算法创新、工业数字化、AI企服、科技落地及产业融合等热点领域,以专业、深度和前瞻性视角,以多个产业领域的新旧动能转换、智慧升级为话题,推动全方位合作,努力实现融合创新。
当我们在谈论自然语言处理时,不妨先想一下,什么是语言?按照正式的定义,语言是某个符号系统上按照一定规律构成的句子和符号串的有限或无限的集合。那么,什么是自然语言?自然语言是人们日常使用的语言,是自然而然的随人类社会持续健康发展演变而来的语言。与自然语言不同的是,形式语言(Formal Language)是为了特定应用而人为设计的语言。例如数学家用的数字、运算和符号,化学家用的分子式等。编程语言是一种专⻔设计用来表达计算过程的形式语言。
既然语言是一个符号系统,我们是不是能用数学的方法对语言进行描述呢?语言学家蒙塔古认为:“自然语言与形式语言没有本质上的区别,都可以用一套准确的数学理论来解释。“
其实,语言不单单是一个内部构成复杂、组织严密的符号系统,在历史的发展中,社会文化的发展也给语言注入了很多文化背景。从这个方面来看,语言又是一个变动的社会文化现象。所以,与形式语言不同,理解自然语言需要具备理解外在世界的广泛知识以及运用操作这些知识的能力。
人类知识有80%都是由自然语言承载的。所以让机器具备理解语言的能力是AI领域的核心问题。自然语言处理这门学科的目的是赋予机器这种能力。具体来说,自然语言处理主要包含两类任务:自然语言理解和自然语言生成。前者已经有很长的发展历史,而后者则是在近些年才兴起的话题。
人们对AI的认知是一个循序渐进的过程。早在1956年,包括司马贺,香农在内的一批学者就在达特茅斯大学开展了著名的“达特茅斯夏季AI研究计划“。这个计划的一个最大的目的是希望在两个月内“让机器学会语言,帮助人类解决一些问题”。
在那个年代,人工智能的困难性被严重低估了。在1956年之后的近二十年内,美国政府为实现AI支付了高额的研发费用。但到了1973年,仍然没有显著的进步。迫于社会舆论和国会的压力,美国政府叫停了大部分人工智能的科研资金。这也是第一次“人工智能寒冬”到来的导火索。
人们对AI的期待一直很高。1968年公映的电影《2001太空漫游》中,一个拥有强人工智能的超级电脑HAL 9000,中文名哈儿。不仅能控制太空飞船中的所有系统,还能和船员进行拟人化的互动,甚至能完成艺术鉴赏,自主推理等高智能行为。有趣的是,哈儿被设定诞生于1992年。也就是说,在上世纪六十年代人们的假定中,强人工智是应该在不晚于二十世纪末出现的。类似的设定也在之后不同时代的多部电影中出现。例如《超能陆战队》中的大白、《钢铁侠》中的贾维斯等。今年上映的《流浪地球》中,空间站智能主机MOSS也有着与HAL 9000类似的设定。我们惊奇的发现,今天人们对AI的期望并不比五十年前更高。然而这个被认为在上世纪末就能被解决的问题,即使到了今天也没有一个明确的解决方向。
近年来,搭载了语音助手的智能音箱被视为用户端人机交互变革的推动者。在铺天盖地的广告宣传下,智能音箱的市场快速扩张。但当消费者把音箱买回家,开始与音箱进行互动的时候,会发现它们所谓的“智能”远远未达到人们的预期,仅仅停留在特定领域,甚至有时候,人们必须用模版式的句子才能触发需要的功能。很快,大部分智能音箱就从“全方位生活助手”的定位沦落到”带语音点歌功能的音箱“了。
即使在特定领域,智能音箱也没有表现出足够的“智能”。比如,在点播歌曲这个场景下,智能音箱仍然有很大的概率出错,尤其是面临语言的“歧义性”时。
比如,在点播歌曲时,智能音箱仍然有很大的概率出错,尤其是面临语言的“歧义性”时。
在经历了数次AI寒冬之后,人们对“强人工智能”是不是真的能够实现开始有所怀疑。从上世纪九十年代起,尽管在这样的领域涌现了一大批有价值的技术,在所有的领域得到应用,但人们通常避免给这些技术打上“AI”的标签。而深度学习的出现,人们又一次开始认为“人工智能”触手可及。尤其是在2014年,Alpha Go在围棋上击败人类冠军之后,“AI“甚嚣尘上。
在NLP这样的领域,转折点出现在2013年,Word2Vec的出现,一个在大规模未标记文本上训练的词向量模型。将Word2Vec应用于NLP领域任务之后,几乎所有任务的精度都得到了显著的提高。此后,在深度学习的浪潮下,NLP这样的领域也涌现了一大批创新技术,其中也有相当一部分在场景中得到了应用。例如,Google在2017年就将基于统计机器学习和规则的机器翻译升级成了基于Seq2Seq的深度学习模型。
语言的表示是NLP领域中最根本的问题,所以,语言模型的创新往往能为NLP整体能力带来提升。2018年,谷歌发布的BERT刷新了十几项NLP任务的纪录,被定义为“开启了NLP的新时代”。在此之后,媒体大肆宣传“BERT全面超越人类“。那么“BERT的出现是不是真的将我们带向“强人工智能”了呢?至少目前为止我们并没有真切地感受到BERT带给我们的利好。有必要注意一下的是,在BERT发布了一年之后,谷歌才宣布“将把BERT应用于约10%的搜索请求“。
BERT没有大规模得到应用的原因是多方面的。首先,尽管BERT在某些场景下取得了巨大的成功,但要说它“全面超越人类”还为时过早。作为一个大规模预训练语言模型,BERT特别大程度上只是学到了语言的统计规律,离真正的语义理解还很远。另外,即使在BERT擅长的场景下,由于其参数量巨大,受限于硬件条件,也很难得到应用。
BERT之后又涌现了多个类似的预训练语言模型,在参数规模上的竞逐愈显激烈,由此带来了成倍增长的训练成本。据估算,训练一个BERT模型的成本高达7000美元。CMU在2019年发布的XLNET比BERT又有一定的提升,但随之而来的是高达数十万美元的训练成本。Google是这一条烧钱路上的佼佼者。近日,Google发布了百亿参数的语言模型T5,并附赠了750GB的训练语料。据推算,T5的训练成本高达百万美元。
尽管如此,我们似乎离1968年电影中设定的”人工智能“之间仍有不可逾越的鸿沟。语言模型的烧钱之路尚未遇到瓶颈,但“深度学习的天花板已经到来”的声音却愈演愈烈。与历史相似的是,当人工智能的研发成本不可估量时,不论是学界还是媒体,都开始慢慢的出现一些质疑的声音,认为“新一轮AI寒冬即将到来“。
深度学习是不是通往“强人工智能”的正确道路呢?受限于当前的技术边界,我们不得而知。那在这一波深度学习带来的AI浪潮之下,我们得到的技术利好是不是就真的乏善可陈了呢?答案是不。在诸多自然语言处理的落地场景中,得益于技术的创新,工作效率的提高和流程执行的增速。虽然短期内我们没办法实现人们预期中的“通用AI”,但在特定的场景下,AI技术转化为生产力仍然是可行的。
对于当前技术发展的瓶颈,不论是学界还是工业界,并没有通用的解决方案。在一览群智的技术落地过程中,我们结合自己优势,也进行了很多探索,并取得了丰硕的成果。
对于一些定义明确的核心NLP任务,我们在实现当前一流算法模型的基础上,针对中文语言的特性进行了很多优化,在多个任务上取得了领先的成绩。同时,实验结果证明,得益于引入中文字形、字音的先验知识,我们的算法在小规模训练集上相比以往的算法也有着明显的优势。此外,模型对于文本噪音也有很强的鲁棒性。立足中文,我们也将工作扩展到了小语种上。一览群智从零开始,研发了国内首个尔语NLP平台,实现了包括分词、实体识别、文本分类、情感分析在内的功能模块,在多个维语 NLP任务上取得很高的精度。
在金融、公安、法律等领域,大规模的语料难以获得,这很大程度上限制了深度学习的能力。但在这些领域,文书的文法和词法在某些特定的程度上会刻意避免歧义,以求准确表达,这大幅度的降低了语言的歧义性。我们大家都认为在这样的场景下,基于标注语料的模型未必就不可或缺。符号语义解析的方法在这样的场景下就能发挥巨大的作用,我们在语义解析的方向也成果丰硕,并开源了FMR语义解析框架。
在一些新兴领域,我们同样也做了前瞻性的探索。例如,我们在财经、法律、社会化媒体等领域尝试实现多种问答机器人,在多个领域进行文本生成的尝试。这些前瞻性的工作在取得了巨大成效的同时,我们也探索出一条把AI转化为生产力的道路。将NLP多个领域的研发成果有效地落地到金融,公安,媒体等行业,获得了一致好评。
总而言之,虽然”强人工智能“这个宏伟的目标遥不可及,但在当前阶段,技术的革新对生产力的提高仍然大有裨益。虽然在自然语言处理这样的领域,仍有很多悬而未决的问题亟待解决。但是,自然语言处理是一个AI-Complete问题,当机器与语言间沟通的桥梁被成功架起的那一天,我们离实现“强人工智能”也就指日可待了。