新华社北京7月25日电 关于人工智能(AI)大言语模型来说,一般给予的练习数据越多,模型就会越“聪明”。但英国《天然》杂志新宣布的一项关于大模型的研讨显现,假如只用AI生成的数据来练习大模型,会使模型功能直线下降、越练越“傻”。
英国牛津大学、剑桥大学等组织研讨人员发现,假如在练习大模型时,只用AI生成的内容,会导致大模型呈现不可逆的缺点,逐步忘掉实在数据的散布,这被称为“模型溃散”。
研讨人员首要运用大言语模型创立相似词条的文本,然后运用这个内容来练习该模型的新版别,并重复运用前代模型生成的文本练习更新的版别。跟着AI生成的信息“污染”练习集,模型的输出逐步失掉含义。在模型的第九次迭代中,它完成了一篇关于英国教堂塔楼的文章,其间一段文字却在叙述野兔尾巴的多种色彩。
研讨发现,导致“模型溃散”的重要原因是,因为模型只能从其练习数据中采样,一些在第一代数据中本就低频呈现的词汇,在每次迭代后呈现的频率变得更低,而一些常见词汇呈现的频率则逐步添加。
这种改变的成果便是,模型逐步无法正确模仿实在国际的复杂性。跟着时间推移,这种过错会在迭代中被层层累积、逐步扩大,最终导致“模型溃散”。这有点像生物学中“近亲繁殖”会导致子孙缺点,若无法确保基因库的多样性,最终会导致一个物种的溃散。
研讨人员还发现,因为练习数据被“污染”而导致“模型溃散”的状况不止发生在大言语模型中,高斯混合模型、图片生成器等也或许会呈现相似状况。
不过,应对“模型溃散”并非束手无策。研讨人员发现,假如能在模型微调过程中保存10%左右的实在数据,溃散就会发生得更缓慢。还可运用水印技能,将AI生成的数据与实在数据区别开来,这需求大型科技公司的协作。此外,在AI生成的文本从头进入数据池之前,可由人类先挑选过滤。