本文介绍了南京大学周志华教授提出的“学件”概念、核心问题、探索思路及进展。
机器学习取得了巨大成功,但仍有许多技术局限。例如,需要依赖巨量训练样本,即便在当今的大数据时代,机器学习对巨量有标记样本的严重依赖,仍是很大的瓶颈;再如,学得的模型难以适应任务变化,即便用巨量数据训练出一个性能很好的模型,在使用中若任务发生明显的变化,模型性能可能明显降低、甚至失效;又如,当前的一些常用模型,即便使用相同的数据、同样的算法,普通用户也很难获得专家级性能;此外,数据隐私、所有权等诸多问题,还导致训练数据难以分享、宝贵经验很难传递。
计算机有“硬件”、“软件”,周志华教授在2016年提出,在未来有极大几率会出现“学件”。世界上有许多机器学习模型应用开发者愿意分享自己的模型,假定这些模型被提交给一个“学件市场”,那么,今后再有新用户开发机器学习应用时,可以先到这个学件市场去查看,而不必从头开始。比方说,有人要找一把切肉刀,必然不会自己重新去采矿、打铁,而是到市场上去看有没有能用的刀,即便没有全部符合要求的,假设可能找到一把西瓜刀,买回家去用自己的数据打磨,或许就能用了。这里的关键是“部分复用他人模型、不必从头开始”。为此,周志华教授提出的“学件”包含两个部分:一个部分是训练好的模型,另一个部分是描述模型的规约,它能够对模型进行某种方式的刻画,使得未来的用户能从成千上万的模型中找到对自己有用的模型加以复用,并且模型开发者和用户都无需向学件市场泄露自有数据。
如果学件能成为现实,那么刚才提到的问题就可以有一揽子解决或缓解方案。简单来说,用户仅需少量数据对学件模型进行适配调优,不再需要收集大量训练样本;学件不是靠“一个模型打天下”,市场中容纳着各式各样的模型、对各种任务环境都可能找到合适模型;用户基于有经验的开发者提供的优质模型,更容易获得专家级结果;开发者只分享模型、不分享训练数据,这样避免了数据泄露。
与当前流行的 “人工智能大模型”路线相比,大模型性能优越,但训练成本极大,一般任务用不起;二是不同任务需要不同的大模型(例如自然语言大模型和围棋大模型),必须针对事先考虑好的任务类型去收集大量数据、训练大模型,若某个任务事先没考虑过、那就没有合适的大模型可用;事实上,大模型适用于数据多、任务“天天见”的“高频问题”,而对于数据少、不常见的“低频问题”未必适宜;此外,对新数据的使用和环境适应都有困难,“灾难性遗忘”,是神经网络大模型的痼疾,而 “终身学习”仍是一个待解决的重大挑战。
在学件构想下,“大模型路线”面临的以上问题或许也有了替代方案:学件假设所有模型都潜在有用,即便对当前开发者不够优秀的模型、对他人或许仍是有用的,这样,所有的训练开销都不会被浪费;前人做过的事,学件市场里如果有这样的模型、那么今后这样的事当然能做;而对一些前人没做过的事,学件市场里面虽然没有专对于该问题的模型,但通过将若干个学件模型联系融合起来,也有一定的可能提供合适的解决方案,例如将仅处理图像的模型与仅处理文本的模型联系起来,即便学件市场中原本并没有跨图像文本多模态模型,仍有可能提供解决方案;另外,模型提交之后、除非其能力被其他模型完全替代,否则将从始至终保持在学件市场中,这就不存在灾难性遗忘问题,并且天然在进行终身学习。另外,学件市场中可以包含各式各样、或大或小的模型,所以学件不仅提供了“小模型做大事”的途径,还提供了一条“大小模型协作”的道路。
周志华教授团队近期在学件规约等多个角度取得了进展,使得学件构想得以初步实现。本文对此进行介绍。