【摘要】自然语言处理是人工智能研究的重要方向,已经在各行各业大范围的应用。该文面向揭示自然语言处理技术布局现状和竞争格局的目标,基于全世界内2000年以来布局的自然语言处理专利数据,从整体技术和典型分支技术两个层面,从专利申请趋势、有效专利持有情况、近三年专利布局情况及四方专利布局情况等角度,对自然语言处理技术的专利布局情况做分析。研究发现:全球自然语言处理专利的主要布局国家是中国、美国、日本和韩国,其中中国的专利申请增长幅度最为显著,且保持持续增长态势;美国的自然语言处理有效专利持有量全球最高;美国和日本的机构四方专利申请优势明显。
自然语言处理(Natural Language Processing,常简称为NLP)是人工智能研究的重要方向,旨在构建能够理解和生成自然语言、实现人机自然交互的技术方案,实现用户能用自己的语言与计算机对话的目标。
第一阶段:20世纪50年代到70年代。一般认为1950年图灵提出的“图灵测试”是自然语言处理思想的开端。这个阶段自然语言处理主要采用基于规则的方法,即研究人员认为自然语言处理的过程和人类学习认知一门语言的过程是类似的,人类可以通过整理语言规则教会机器理解自然语言。但是,这种方法的缺点在于,首先人类不可能穷举所有语言规则,另外基于规则的方法要求开发者对于语言学具有一定的知识储备。因此这个阶段虽然能解决一些简单问题,但是无法从根本上将自然语言理解实用化。
第二阶段:20世纪70年代至2008年。随着互联网的迅猛发展,语料库不断丰富完善,基于统计的方法替代基于规则的方法成为自然语言处理方法的主流。在这个阶段,基于数学模型和统计方法的自然语言处理取得了实质性突破,开始逐步走向应用。
近年来,自然语言处理技术取得突飞猛进的发展,基于海量无标注数据和大量标注数据进行建模,使得机器翻译、自动问答和阅读理解等很多任务的水准都得到了极大的提高,并且在电子商务、金融、健康等领域实际应用。在此背景下,客观揭示自然语言处理技术的发展态势和创新格局、分析全球各国围绕自然语言处理的技术布局差异,对于开展自然语言处理技术研发、指引宏观决策具有现实意义。专利文献是技术创新成果的重要载体,能够有效反映技术研发的进展和趋势。因此,本文从专利分析角度出发对自然语言处理技术开展分析,以期较为客观地呈现全球自然语言处理的技术布局现状和竞争格局。
为了细致地揭示技术发展情况,本文采用对自然语言处理进行技术分解分别构建检索式的方式分别获取数据。一般认为,自然语言理解有5个层次,分别是:语音分析、词法分析、句法分析、语义分析和语用分析。由于语音处理目前已经发展成为比较独立的研究体系,因此本系列专题文章会对语音处理进行单独分析,本文的自然语言处理不包括语音处理的相关专利,仅包括词法、句法、语义和语用的相关专利。同时,本文参考世界知识产权组织发布的自然语言处理技术分解体系,对于自然语言处理进行了技术分解,如表1所示。基于该技术分解表,本文对于每个技术分支单独拟定了检索策略,以此来检索并获取数据。
本文所采用的专利数据通过incoPat专利数据库检索获取,数据范围为全球范围内优先权年在2000年及其之后布局的发明专利和实用新型专利,检索日期为2020年6月4日,最终通过简单同族合并后共获得专利80647项并开展分析。
本研究基于专利计量分析方法,围绕通过检索获取的全球自然语言处理专利,从自然语言处理整体技术及其典型分支技术两个层面开展分析,如图1所示,主要分析维度包括专利布局整体态势、技术优势国家专利申请情况分析、技术优势机构专利申请情况分析、法律状态有效专利分析、近三年申请专利分析1(1本文的近三年专利是指在2017年、2018年、2019年向专利管理部门提交的专利申请。)和四方专利2(2本文的“四方专利”指同时在中国国家知识产权局、欧洲专利局、日本特许厅、美国专利与商标局提交专利申请的发明创造。)分析,力求较为全面地展示自然语言处理技术目前的专利布局态势和创新格局。本文采用Excel、Python等工具软件进行可视化展示,从而直观展示分析结果。
图2展示了自然语言处理技术的专利布局年度趋势、技术布局优势国家和技术布局优势机构。
可以发现,自2000年以来,全球自然语言处理技术的专利布局呈现先平稳增长后爆发式增长的趋势。2012年之前年度专利布局数量在2000项左右,2012年之后,增长幅度显著提升,年度增长量在1000项左右,2018年年度专利布局数量达到最大,数量为8986项。由于专利从申请到公开有一定时滞,2019年的数据可能略小于实际数据,但也能反映出自然语言处理技术专利布局的活跃程度。
从布局国家层面看,全球自然语言处理专利的主要布局国家是中国、美国、日本和韩国。中国在自然语言处理方面的专利布局数量居全球首位,与排名第2的美国的专利数量均在2万项以上。美国位列第2,布局20695项,日本和韩国分别排在第3和第4位,布局数量分别为9300项和5180项。其他国家的专利布局数量均在1000项以下。
从布局机构层面看,美国机构表现比较突出,IBM公司的专利布局数量位居全球首位,共布局4087项,微软和谷歌公司分别位列第2和第3。此外富士施乐公司排名第8位。我国的百度公司、腾讯公司和中国平安公司分别位列第4、第6和第7位,专利布局数量在900项左右。TOP10机构中的其他3家公司均来自日本,分别是NTT(日本电信电话株式会社)、富士通和东芝。
图3展示了全球TOP10专利布局国的专利布局年度分布。可以发现,TOP10国家/地区围绕自然语言处理技术的专利布局均呈现增长态势。中国的增长幅度最为显著,且保持持续增长态势,2018年布局专利数量达到5623项。排名第2的美国同样呈现增长态势,但增长幅度不及中国,其2017年的专利布局数量最高,为2197项。日本的自然语言处理专利布局较为稳定,年度专利申请量一直保持在500项左右。韩国在2010年之前也建立了一定的技术专利储备,之后呈现小幅增长趋势。其他国家/地区的专利年度布局数量相对较少,但也呈现一定的增长趋势。各个国家/地区在2019年的专利数据均较低,这可能是专利申请到公开的时滞造成的。
图4展示了全球TOP10专利布局机构的专利布局年度分布。可以发现国外机构的专利布局起步较早,在2010年之前就已经形成了一定的专利储备,且持续保持较为稳定的专利布局,而我国机构的专利布局基本始于2010年,但专利布局增长速度极快,尤其是中国平安公司特征最为明显,在2018年布局了303项自然语言处理类专利,较之上一年度增长了4.7倍,这在一定程度上证明了我国企业对于专利布局重视程度的提升。
图7展示了自然语言处理各分支技术的专利布局情况。可以看到通用自然语言处理技术的专利数量最多,为41494项。其次是机器翻译和语义学,专利布局数量分别为16958项和10823项,其他技术分支的专利数量均在1万项以下。由此可知,机器翻译和语义学是自然语言处理专利布局的主要技术方向。此外,情感分析、形态学、自然语言生成技术的专利布局数量在1000项左右,专利布局相对较弱。因此,下面选择机器翻译和语义学作为典型子技术开展进一步的分析。
针对机器翻译和语义学的专利布局国家和有效专利持有情况做多元化的分析,如表5和表6所示。从数量上看,机器翻译技术方面美国布局的专利量及持有的有效专利量均最多,分别为5913项和3096项,较排名第2的中国有明显优势;语义学方面中国布局的专利量及持有的有效专利量均最多,分别为6341项和1246项,但排名第2的美国的有效专利量为1226项,与中国相差无几。在有效专利占比方面,机器翻译技术领域美国占比52.36%,较中国的24.12%具有显著优势;语义学技术领域美国有效专利占比同样优势明显,达到43.4%,而中国仅为19.65%。
进一步对机器翻译和语义学的专利布局优势机构和有效专利持有机构进行分析,如图8和图9所示。IBM和微软在这两项技术上的专利布局数量和有效专利持有数量均排在全球机构的前两位,具有明显技术优势。我国机构在机器翻译技术领域表现并不突出,仅百度和腾讯分别以第13和第18的位次进入专利布局量TOP20机构榜单;在语义学技术领域,我国机构建立了一定的技术优势,在专利布局量TOP20机构中拥有13个席位,在有效专利持有数量TOP20机构中占据9席,比较有代表性的是百度公司,其在两个指标上均排名全球第3,中国科学院在两个指标上的排名分别为第6位和第4位。
本文基于全球范围内2000年以来布局的自然语言处理专利数据,从整体技术和典型分支技术两个层面,对专利申请趋势、有效专利持有情况、近三年专利布局情况以及四方专利布局情况等进行分析,以期揭示自然语言处理的专利布局态势,得到如下结论。
(1)自2000年以来,全球自然语言处理技术的专利布局呈现先平稳增长后爆发式增长的趋势,尤其在2012年之后,增长幅度显著提升。
(2)全球自然语言处理专利的主要布局国家/地区是中国、美国、日本和韩国,其中,中国的专利申请增长幅度最显著,且保持持续增长态势,日本的专利布局较为持续稳定。
(3)有效专利方面,美国的自然语言处理有效专利持有量全球最高,中国的有效专利占比相对较低,排名全球第14位。
(4)中国在近三年的专利申请量上占据绝对优势,共15092项,是排名第2的美国的3.3倍,其中,中国平安、百度、腾讯、阿里巴巴和中国科学院等机构表现抢眼。
(5)四方专利方面,美国和日本的机构优势明显,美国的微软和谷歌在TOP20机构中排名第1和第2位,日本共有9家公司进入TOP20机构名单,我国仅有阿里巴巴公司和百度公司上榜,国际专利布局有待加强。
(6)分支技术方面,除通用技术外,机器翻译和语义学是自然语言处理专利布局的主要技术方向,情感分析、形态学、自然语言生成技术的专利布局数量相对较少。
(7)机器翻译技术方面,美国布局专利量、持有有效专利量以及四方专利申请量均位居全球首位,但是中国近三年围绕该方向的专利布局明显提升,具有较大的成长潜力。
(8)语义学方面,我国机构已初步建立一定的技术优势,且近三年的专利布局稳步推进,但是在国际专利布局方面与美国相比仍有较大差距。
吕璐成,张博,王燕鹏,赵亚娟,钱力,厉曈曈. 自然语言处理全球专利计量分析 ☆[J]. 科学观察, 2021, 16(2): 84-95.
中国科学院文献情报中心立足中国科学院、对全国,主要为自然科学、前沿交叉科学和高技术领域的科技自主创新提供文献信息保障、战略情报研究服务、公共信息服务平台支撑和科学交流与传播服务,同时通过国家科技文献平台和开展共建共享为国家创新体系其他领域的科研机构提供信息服务。
3.2021年度中科院杰出科技成就奖进入总评的候选者建议名单(通用领域)
7.三部委发布重要通知:学术期刊要杜绝“关系稿”“人情稿”!引导重大原创成果在我国期刊发表