2020年9月25日-9月26日,“2020中国科技峰会系列活动青年科学家沙龙—学术生态与产业创新”圆满召开。本次活动由中国科学技术协会主办,清华大学计算机系、AI TIME、智谱·AI承办;活动围绕认知智能、无人驾驶、自然语言处理、计算机视觉、知识图谱、智慧人才等AI领域最前沿的学术发展和产业前沿,邀请了中科院、清华大学、北京大学、浙江大学、中国人民大学、哈尔滨工业大学等院校的青年科学家,和来自阿里巴巴、等企业的青年企业家们共同参与讨论。
自然语言处理是人工智能的核心问题,深度学习技术在自然语言处理中对于数据的依赖性很高,目前的算法还存在着无法让来理解自然语言这样一些问题。在9月26日上午的圆桌论坛环节中,以“论道自然语言处理的瓶颈与曙光”为主题,邀请何中军、徐剑军、刘知远、兰艳艳四位专家学者,围绕“算法研究、人才教育培训、产业落地、未来发展”这四个大方向的诸多问题进行了思辩。
算法研究算法研究的三个问题:一、结合知识与常识来发展NLP,是否是有价值的研究方向?二、GPT-3将给NLP带来哪些影响,是开启未来的钥匙,还是“误入歧途”?三、未来着重于哪些方法,有助于让机器从“感知”语言到“理解”语言?第一个问题,几位专家都觉得把知识融合到自然语言处理的过程中来,还是有挺大的意义或者价值的。徐剑军认为,问题的答案是很明显的:要结合知识和NLP共同促进,现在工业落地的做法都是两边互相促进,把知识图谱建设起来的过程中,要用大量NLP的方法,建完之后又可以仿造NLP,让NLP在特定领域变得更准确。关于第二个问题,兰艳艳肯定了GPT-3产生的好的效果,同时也一针见血的指出来目前还存在的难题:没有常识,无法解读“言外之意”;刘知远认为:GPT-3是一个里程碑,但不是终点,在更多去利用现实世界数据的基础上,还是要能尝试给机器构建出一个世界模型,让它具备抽象学习的能力,只有这样才可以出现未来更智能的机器。第三个问题,蓝艳艳认为:要实现从感知语言到临界语言,从NLP到NLU,除了知识和常识之外,未来要达到认知语言的状态还要结合多模态,还有结合人的整个活动的过程跟环境的标注,才能做好理解语言这件事情。人才教育培训Q1:未来五至十年内,NLP方向的人才培养方向是偏基础研究还是产业研究?需要在哪几个方面提升?Q2:对比学术界,产业界对NLP人才有何不同的需求和期待?刘知远认为,中国这样一个大国,基础研究和产业研究应该都要有。兰艳艳指出了目前的现实状况——老师与学生都是往应用方面走的更多,在此她也做出了呼吁:很多问题的产生是因我们基础研究这件事情没解决,鼓励更多人沉下心做偏基础方面的工作,可能会对这个方向的持续性发展产生更多的作用。第二个问题。在产业界,无论在产品部门、业务部门,研发部门,对于前沿的关注都是很强的,公司也会给NLP人才提供环境,让他去跟高校老师合作,或者自我成长,也有很多类似学术界的讨论论坛,毕业之后人才培养也是一个比较持续性的问题。何中军提出了三点要求,一、既要脚踏实地做研究,也要面向用户、产业需求;二、要有“软”有“硬”,“软”即在学校打牢基础拥有软实力,“硬”即工作后有能解决需求的硬实力;三、快速的学习能力与迁移能力是很重要的,要“知其然,知其所以然”。产业落地Q1:目前产业界仍待解决的问题主要是什么?人才?技术?生态圈?Q2:随着NLP技术发展和产业落地,如何可以更加好保护用户的隐私?Q3:NLP未来的落地场景,有哪些新的玩法?徐剑军认为产业界的生态圈有待改善,一是社会对于AI或者NLP的过高期望值;二是业界去迎合期待值,设想过于理想化。应该给能够坐下来踏踏实实想攻克难题的人和团队有更好的机会和条件。在隐私方面,区块链确实是一个好的办法。何中军认为,人才、技术、生态圈都是必须的,并不是选择题。第二个问题保护用户的隐私,其实从更大范围来说,强调的是自主可控,大到国家安全或者国家的隐私也需要保护起来。刘知远提出了不同的看法,他认为国内产业界一定要解决的问题是知识产业的问题,对创意,新的技术、新的想法的尊重,产业界需要一个这样的氛围。第二个问题用户隐私方面,欧洲有一种做法,美国有一种做法,中国是完全走自己的路;中国的大公司绝大多数都是能够同时兼顾产业的发展和用户的个人隐私。第三个问题,刘知远觉得可能在一些具体的领域会去进行深度的融合,尤其是那些专门用语言或者是文本作为很重要载体或者工具的,比如说法律、医疗等领域。兰艳艳将第一个与第三个问题结合作出了回答:NLP在产业落地方面有两个比较大的问题,一个是场景,一个是基础。第三个问题,沿着信息检索这个方向“智能个人隐私信息助理”在科研或者产业上或许都能成为比较大的场景。
Q1:当前的学术界有哪些研究或者趋势,会对NLP的发展产生什么新的影响?Q2:NLP的发展进度会促进对我们生活带来什么样的方便与冲击?兰艳艳指出目前学术界的研究大热趋势就是“预训练”,往认知方向去走,在NLP这样的领域产生一些新的推理任务,也是现在大家关注较为重要的点;还有跨模态的事情是比较重要的。刘知远表示第一个问题还在于学校研究有点跟工业界脱节的,需要仔细考虑什么样的新的人才教育培训,或者研究的模式,能够让高校跟工业界有一个更好的互动。第二个问题,他认为自然语言处理包括两个,一个是自然语言的理解,一个是自然语言的生成,NLP的未来发展,应该发展到一个阶段就是NLG,就是自然语言的生成,未来社会的信息慢慢的变多可能是由计算机生成的。会对人的主体地位造成一个冲击。徐剑军认为这种担忧事实上还太早,NLP或者它的应用都缺乏情感,不管生成的文章也好还是对话也好,还是其他也好,始终让人觉得这就是台机器,缺乏情感的表达。但是如果这样的一个问题解决了,可能会是一个很可怕的事情。编辑:吴玲竹排版:邹静雯编审:王新凯