自然语言处理( Natural Language Processing, NLP)是计算机科学领域和AI领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行相对有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系,但又有重要的区别。自然语言处理并不是一般地研究自然语言,而在于研制能有效地实现自然语言通信的计算机系统,特别是其中的软件系统。因而它是计算机科学的一部分。
根据观研报告网发布的《中国自然语言处理行业发展深度分析与投资战略研究报告(2023-2030年)》显示,从应用领域来看,自然语言处理主要使用在于自动问答、信息检索、情感分析方面。此外,机器翻译、舆情监测、自动摘要、观点提取、文本分类、文本语义对比、语音识别、中文OCR等方面也有不一样程度的应用。
资料来源:中国自然语言处理行业发展深度分析与投资战略研究报告(2023-2030年)
从行业特点来看,自然语言处理行业具有多学科交叉综合、技术水平高的特点,涉及言学、数学、计算机科学等众多学科领域。垂直领域场景所使用的NLP技术纷繁复杂,特点如下:NLP技术在部分领域具有一定的通用性,比如通用内容审核、机器翻译、语音识别等;大量的应用场景中,NLP技术的迁移能力比较差,需要高度定制,如非制式合同文本抽取、会话机器人、文档审核、特定领域文本纠错等;NLP技术还不能很好地融合领域知识,仍然需大量人工工作,需要业务与技术人员深度配合,通常将大量精力放在数据清洗、数据标注上。从行业地位来看,NLP是人工智能(AI)的一个子领域,是人工智能桂冠上最闪耀的明珠,也是未来所有人工智能技术的基础和根本。
数据显示,2022年我国自然语言处理软件及服务市场规模达到174.5亿元,突破了150亿的大关,在新业态不断涌现,虚拟人市场、人机交互需求日益扩大的背景下,预计自2026年起,自然语言处理市场将保持35%以上的增速,到2028年,中国NLP(特指NLP核心技术与商品市场,包括自然语言处理相关的软件产品、平台、系统和解决方案服务)市场规模将超过千亿元。
自然语言处理产品和AI行业天然适配性较高,一方面,中国从制造业走到互联网,再发展到移动端,未来要走的就是以人为本的服务经济路线。而企业的服务在发展的过程中,唯一不变的追求的是「降本增效」与「提质」。而为「人」服务一定会产生交互,如今的交互多数来源于互联网 App的点击、发送指令等方式,但人最原始的交互方式是言语交流,最后无论是服务还是技术,也是会追求和回归到这个本质上。而想要理解人的交互,必须要懂得人讲话的意图与情绪/情感。不理解意图和情绪/情感,就没办法理解言语的真正含义,在自然语言处理上就无法达到流畅。所以这时候企业要的,是可以在减少相关成本的同时还能把服务做到位的解决方案和工具,来达到「降本增效」的作用,因而对自然语言处理产品需求强烈,这也是未来服务经济需要优化现状的部分。另一方面,在AI产业蓬勃发展、市场之间的竞争愈发激烈的倒逼下,符合企业需求的高标准NLP数据服务已成为行业头部企业的刚需,加上NLP作为AI技术中的一个重要分支,同样依赖算力、算法、数据三因素。其中,算力基于IT基础设施的发展,NLP算法基于深度学习的突破,在近年来都得到了较大的进展,也正因如此自然语言处理市场规模可保持稳步增长。
当前自然语言处理技术中最为引人注目的就是OpenAI推出的ChatGPT模型。它的出现,一方面促进了智能客服、智能政务、智能诊疗等领域NLP(人工智能服务提供商)的应用,另一方面,也促进了NLP技术的发展,使得更多的研究者可以借鉴和学习ChatGPT的技术,并应用到自己的研究中。例如,可以研究怎么样更好地训练聊天机器人模型,以及如何设计更具人性的聊天机器人。总的来说,ChatGPT的出现将带动NLP行业发展步入快车道。预计到2030年,市场规模将超过2千亿元,2022-2030年均复合增长率达到36.5%。
资料来源:中国自然语言处理行业发展深度分析与投资战略研究报告(2023-2030年)
观研天下分析师观点:近日ChatGPT的火爆出圈,对行业的影响非常大,能预见的是,ChatGPT以及一系列超大规模预训练语言模型的成功将为自然语言处理带来新的范式变迁。
从需求市场来看,受人工智能商业化应用落地的不断推进,搜索引擎、智能客服、舆情分析、智能内容处理、数字虚拟人等应用愈发广泛,NLP作为核心技术之一需求量加速增长。其中,数字虚拟人需求端的热情给予产业上的公司诸多掘金的机会。
一般而言,虚拟人指由 CG 技术构建、以代码形式运行的拟人化形象。其理性认知能力中的决策能力正对应于AI中的NLP,可以说,NLP大模型是AI驱动虚拟人技术基石,其情感化交互体验核心会极大程度决定了能否呈现自然的面部表情变动、肢体变动等,并且能否对情感等因素进行特别设计对AI陪伴数字人呈现效果影响巨大。未来也能够准确的通过人格、用户喜好对虚拟人进行NLP交互的个性化定制。NLP技术企业通过积累各场景行业术语及各行业知识图谱,赋予虚拟数字人知识储备、语义理解、推理分析、自主决策和交互表达的智慧能力。未来NLP技术会成为推动虚拟人发展的核心关键技术,与此同时,NLP技术的落地和使用也将带来虚拟人市场的爆发式增长。据观研天下预测,到2030年,我国虚拟数字人整体市场规模将突破2800亿元,相应的商业模式也将持续演进与多元。
资料来源:中国自然语言处理行业发展深度分析与投资战略研究报告(2023-2030年)
依托于数据驱动和知识驱动两条技术路线,自然语言处理与AI应用产品已逐步开展交汇融合,展现出融合创新的特性,主要发展趋势可归纳为两类:“由自然语言处理到开发AI应用平台/产品”与“AI应用平台/产品开发到面向AI的自然语言处理”:1)自然语言处理厂商在积累数据经验与AI模型理解后,为实现业务拓展而将领域从数据层延伸至AI应用及平台开发层;2)从事AI应用及平台开发的AI厂商,也会在自然语言处理经验不断丰富的背景下,着手向底层开展面向AI的自然语言处理业务,依托于自身AI技术与业务理解,让而向AI的数据源更加契合AI应用模型要求以提升模型拟合效果。例如:日前,央视新闻联合百度智能云打造的总台首个AI手语主播亮相,将成为听障人士在冬奥会期间“智”听新闻的伙伴。栩栩如生的“数字人”背后,依托的是百度智能云语音识别、自然语言处理、计算机视觉等AI技术;跨国制药公司礼来(Eli Lilly)正在使用自然语言处理帮助全球三万多名员工在企业内部和外部共享准确的、及时的信息。因此,综合看来,自然语言处理行业的玩家不仅仅包括传统自然语言处理厂商,还包括众多AI企业、互联网科技公司等,参与者更为丰富多元。
资料来源:中国自然语言处理行业发展深度分析与投资战略研究报告(2023-2030年)
从国内市场来看,NLP行业的主要玩家也可以分为两类:NLP技术企业和互联网科技公司。NLP技术企业由于深耕技术研发多年,技术先进性强,数据乃至人才方面都有着天然优势,可满足多种行业下游用户的定制化需求。其中,拓尔思在NLP领域具备自主可控底层技术,在国内NLP市场中占有主体地位。值得一提的是,近年来主要云厂商与典型技术供应商市场占有率年年在下降,主要系应用场景与业务拓展、厂商相关业务逐渐成熟所致。考虑到大模型开发成本高,且大模型商业化路径仍未闭环,加之目前经济发展形势影响,对所有技术供应商形成长期竞争优势均有较大考验,因此长期资金市场的偏好将对自然语言处理市场的竞争格局产生较大影响。
资料来源:中国自然语言处理行业发展深度分析与投资战略研究报告(2023-2030年)
观研天下分析师观点:从技术角度来看,NLP具有很强的技术开放性,方法论的壁垒不容易维持,有利于勇于探索商业模式的公司的快速学习跟进和技术迭代;但其大规模语言模型的“军备竞赛”从另一个维度建立起了壁垒,对小型公司不友好,因此通过打造底层通用模型/引擎的方式实现大规模商业化可能并不适合一般的创业公司。
目前,金融领域是自然语言处理(NLP)应用的主场。多个方面数据显示,2022年AI+ 金融领域自然语言处理核心商品市场规模达到41亿元,预计2026年核心商品市场规模将达到91亿元,2022-2026CAGR=24.9%。自然语言技术区别于其他AI技术,在金融领域中通常不以独立产品的形式出售,而是作为底层技术结合智能语音、知识图谱等技术,以对话式AI、机器翻译、知识库等产品形式出现,而独立产品化模块发展相对缓慢。目前NLP在金融领域主要的应用场景有智能客服、信息舆情、情感分析、文档审核及比对、文档结构化等。
资料来源:中国自然语言处理行业发展深度分析与投资战略研究报告(2023-2030年)
此外,当前旅游、零售、保险、教育、医疗等领域慢慢的变成了了自然语言处理陆续“进军”的战略重点。例如:自然语言处理(NLP)在旅游领域的应用大多数表现为情感分析、预测未来趋势、语音识别和语音合成,在零售领域的应用大多数表现为聊天机器人客服、语音搜索、情感分析和文本挖掘和关键词提取,在保险领域的应用大多数表现为理赔处理、聊天机器人客服、OCR、核保流程、欺诈检测和客户服务。
资料来源:中国自然语言处理行业发展深度分析与投资战略研究报告(2023-2030年)
NLP技术一直在工业界平稳落地,不论是搜索引擎、个性化推荐、信息流、互联网金融还是社交网络,NLP技术都在其中起着十分重要的作用,但技术到落地到商业化,面临一系列的挑战。一方面,NLP技术准确率远远未达到计算机视觉和语音识别的水平,很多智能交互系统针对的往往是单一领域里某个单一任务,因此应用非常受限,要出现爆款产品还需突破技术藩篱;另一方面,自然语言处理技术要实现突破性进展,无论是挖人还是模型的迭代和训练都非常烧钱,而此时客户和收入都很有限,因此很难实现盈利,在应用早期基本属于头部玩家的游戏,很难出现有代表性的标杆企业。
此外,自然语言处理领域其他亟待解决的问题还有任务驱动对话系统、语言资源不足和偏见、预估最坏情况案例性能、领域适应、有意义的文本和对话生成、迁移学习、拥有长期的目标/任务导向的人机对话、收集数据的方法、指代消解、词义消歧、文本摘要、民主化等,这些都是业界比较关心的话题,解决了这些技术上的问题,商业化应用才能更加顺利地开展。预计具有个性化特性、覆盖全场景的语音交互,未来非常有机会成为主要的人机交互方式,具有广阔的商业化应用潜力,同时,搜索、推荐、问答和对话等场景下也有较大的商业化应用潜力。
观研天下分析师观点:虽然NLP在多个行业中均有广泛应用,但其本身并不能独立构成商业模式,更多地是辅助一些领域、业务的发展,考虑到NLP对于使用NLP工具的勇于探索商业模式的公司来说,行业knowhow与NLP技术同等重要,专注于细分赛道、在垂直领域开展业务的勇于探索商业模式的公司依然有机会比大公司做得更好。