近年来,产学研各界在自然语言处理(NLP)领域持续深耕,促进着人工智能技术不断向前发展。技术的应用不仅改变着人类的生活方式,也为产业升级提供了更多可能。
3月30日,聚焦NLP领域的2022语言与智能技术竞赛真正开始启动报名。本次竞赛将联手“千言”数据集开源项目,覆盖跨模态、知识驱动、可信学习等人工智能的前沿课题,发布全新四大任务,并发布中文领域首个搜索知识对话数据集、首个面向实际应用场景的中文大规模段落检索数据集等多个重磅数据集。参赛选手将有机会结合技术前沿课题和实际应用场景,进行技术突破和评测挑战,获胜队伍将分享总额超过20万元的奖金。
本竞赛由中国中文信息学会(CIPS)和中国计算机学会(CCF)联合主办,百度公司、中国中文信息学会评测工作委员会和中国计算机学会自然语言处理专委会承办,已连续举办4届,成为全世界最热门的中文NLP赛事之一。
在2021年的上一届评测中,参赛队伍报名超过3500支,企业队伍占比约20%,覆盖了互联网、通讯、金融、能源、航空航天等多个领域,其中不乏腾讯、华为、阿里巴巴、字节跳动、国家电网、中国移动等有名的公司;高校队伍占比约50%,覆盖了清华大学、北京大学、复旦大学、中国人民大学、慕尼黑工业大学、早稻田大学、爱丁堡大学等300多所国内外高校。评测累计收到有效提交结果1万多次,竞争非常激烈。
段落检索——让机器从大规模语料库中找出相关段落,评估机器的语义检索及排序的能力,是自然语言处理和信息检索领域的重要任务,也是搜索引擎核心能力之一,每日帮助用户从超过百亿的网页文档中快速找到结果。本任务将探索最新的稠密段落检索方法,相较于传统字面匹配,能够大幅度的提高检索系统对查询和候选段落进行语义建模的能力。
知识对话——让系统具备利用搜索引擎知识进行开放域对话交互的能力,提升对话的丰富性与知识准确性。智能音箱、虚拟人、语音助手等对话应用产品已经融入日常生活,但在实际聊天时却常常会出现“智商”不足的现象,本次竞赛让机器人学会利用全网知识,为人机对话 “智商在线”的实现提供可能。
情感分析可解释性——让情感分析模型更可解释,从合理性、忠诚性等维度评测模型的可解释性,进而推动构建更加可解释的模型。本次比赛首次提出情感分析的可解释性评测,可解释性是下一代人工智能重点“可信AI”的重要维度,能够针对性缓解神经网络模型“黑盒”特点带来的结果不可信问题,有很高的探索价值。
视频语义理解——让机器对视频进行内容分析与理解。在移动网络、大数据的时代,视频数据呈现爆发式增长。传统基于感知的视频内容分析,缺乏语义理解能力,本赛题提出知识增强的视频语义理解技术评测,期望融合语言、知识、视觉、语音等有关技术和跨模态信息,深入且全面地理解视频语义。 这四大任务赛道不仅覆盖NLP的前沿领域,也反映了真实应用的需求,具备极高的学术和产业价值。
推动人工智能技术进步的三大驱动力是算法、算力和数据。在这三者中,数据作为算法学习的基础,其数量和质量直接决定了算法能达到的上限水平,好的语料可以极大推动相关领域的技术发展和行业进步。
而在自然语言处理领域,英文的开源数据集百花齐放;反观中文数据集,存在开源数量少且分散的情况。为了推动中文NLP数据和技术的发展,“千言”开源数据集项目应运而生。
本次语言与智能技术竞赛联手“千言”项目,首次公开多个最新中文数据集:来源于实际应用场景的大规模段落检索数据集DuReader_Retrival、领域开放的搜索知识对话数据集DuSINC、情感分析可解释数据集DuExplain、大规模视频语义理解数据集DuVUnderstanding。这一些数据集具备极高的技术价值,将在本次评测期间,免费开放给参赛选手进行技术探讨研究和探索。
另外,为了全力创造最佳竞赛条件,充分激发选手的创新灵感,百度作为本次大赛承办方为参赛选手提供了全面的技术资源和平台支持。其中,百度飞桨平台为四大竞赛任务提供了基线系统,帮助选手快速上手。同时,基于百度飞桨的人工智能学习与实训社区 AI Studio还提供了在线编程环境、免费 GPU算力支持,打破算力桎梏,在竞赛全流程为选手斩获佳绩护航。