生成式AI之父Jürgen Schmidhuber：机器学习编年史与宇宙未来_华体育app官网

2024-07-22 华体育app官网

　　在2024年智源大会的特邀报告环节，阿卜杜拉国王科技大学 (KAUST) 人工智能研究所所长、瑞士人工智能实验室 IDSIA 科学主任、LSTM 作者、现代人工智能之父 Jürgen Schmidhuber 从编年史的角度讲述了现代人工智能的发展、其历史背景及其对宇宙未来的预期影响。

　　1990-1991年被誉为AI发展的“奇迹之年”，正是在此期间，Jürgen 引入了生成对抗神经网络（现已大范围的使用在deepfake和其他应用）、非归一化线性 Transformer（“ChatGPT”中的“T”代表“Transformer”）和用于深度学习的自监督预训练（“ChatGPT”中的“P”代表“预训练”）。这些关于 ChatGPT 中“G”、“P”和“T”的早期研究对现代深度学习产生了广泛而深远的影响，并为他赢得了“生成式人工智能之父”的绰号。

　　众所周知，Jürgen 与 2018 年共同获得图灵奖的深度学习三巨头之间关于研究所属权存在诸多纷争。请参阅他的报告“三位图灵奖获得者如何重复发表关键方法和思路，却没有标明引用出处”

　　20世纪70年代，那时候我还是个十几岁的青少年。我记得我告诉我母亲，我有生之年想建造一个比自己还聪明的AI，这样我就可以退休了，我妈妈说我疯了。

　　20世纪80年代，那时我慢慢的变成了了一名计算机科学家，当我把同样的想法告诉我同事，他们也说我疯了。1987年，我的毕业论文是关于通用AI（AGI）的。当时那篇论文是关于元学习算法的，这种算法能够自学更好的学习算法，从而构建出真正超越人类的人工智能，这种AI除了可计算性和物理学限制以外，没有一点其他限制。

　　今天，AGI是一个热门话题。但在当时，我的许多同事告诉我说AGI和超人AI是科幻小说里的剧情，永远不可能实现，至少在未来一千年内是不可能实现的。

　　但到了2023年，那些当时对我的预测大皱眉头的同事们，现在却突然改变了主意，他们都以为 AGI 有可能就在不远处。现在，他们中的一些人突然开始用科幻小说中的旧观点来警告 AGI的危险。

　　这种想法的转变主要是由“生成式AI”和ChatGPT一类的LLM引发的。它们现在生成的大量文本几乎与人类书写的文本无异。ChatGPT等现代 LLM 是建立在名为 Transformer 的人工神经网络序列基础之上的。

　　我对此颇感欣慰，因为在1991年，当时的计算成本比现在高出一百万倍，我当时发表了第一个Transformer的变体。如今这个变体名为“非归一化线性Transformer(unnormalised linear Transformer)”。我给它起了个不同的名字，叫快速权重控制器，但名字并不重要，重要的是这当中的数学。

　　它是一个包含大量非线性运算的神经网络，所以现在被称为线性Transformer有点奇怪。如果将现代Transformer的输入文本长度增加 100 倍，需要的计算量就会增加 10000 倍。因此，不能很好地扩大其处理数据的规模。1991 年的老式线性Transformer效率更加高，因为它们只需要 100 倍的计算量。所以它们的成本是按线性而不是按四次方缩放的。

　　从根本上说，我在1991年发表的Transformer是这样做的：为了回答接收到的查询，它通过梯度下降来学习生成称为键和值的模式，对自身的某些部分进行重新编程，从而根据上下文将注意力引导到重要的事情上。现代Transformer也采用了同样的原理。

　　“”我引以为豪的是，大部分生成式人工智能都要追溯到神奇的1990-1991年，即我们在德国慕尼黑工业大学的“奇迹之年。那时，我不仅发表了第一个Transformer变体，还发表了第一个生成式对抗网络，现在被用于deepfake。它们是如何工作的呢？有两个互相对抗的神经网络——一个最大化误差函数，另一个最小化误差函数！

　　第一个神经网络（概率性地）产生输出，第二个神经网络看到这些输出并预测其结果。利用梯度下降法，第二个网络将误差最小化，从而成为了更好的预测网络。但是，第一个网络学会了生成愚弄第二个网络的输出，将另一个网络最小化的误差最大化。如今，这种方法被用来制作非常令人信服的deepfake图像，即那些看起来像真的一样的伪造图像。

　　有时当我在夸耀我们过去的成就时，总是会想起两只海狸在一个巨大的人工湖中游泳的情景。其中一只海狸指着巨大的人工水坝说：看到了吗？另一只海狸说：哇，这是你建的吗？第一只海狸说：不是我建的，但是我先想到的。

　　不管怎么说，在 1991 年，我们的AI算法还做不了什么，因为电脑太慢了。这里谈到一种很古老的趋势，至少可以追溯到1941年，当时康拉德·楚泽（Konrad Zuse）在柏林制造出了世界上第一台正常运作的通用程序控制的计算机。他的机器每秒大约能进行一次基本运算（比如加法）。从那时起，每隔5年，计算成本就会降低10倍。（康拉德·楚泽[Konrad Zuse，1910年6月22日-1995年12月19日]是一位德国工程师。在1935年至1941年间，他创造了世界上第一台可编程通用计算机：Z3。这位“计算机之父”相应的专利申请可以追溯到1936年。1946年，他还创办了世界上第一家计算机勇于探索商业模式的公司：Zuse-Ingenieurbüro Hopferau（IBM 为 Zuse的专利提供了部分风险投资）。在 20 世纪 40 年代初，Zuse 还设计了第一种高级编程语言 Plankalkül。他在 1945 年将其应用于国际象棋，并在 1948 年将其应用于定理证明。)

　　在康拉德·楚泽之后的 45 年，也就是 1986 年，当时我正在撰写我的毕业论文，以元学习为基础论AGI，上述的趋势已经过时，那时候计算成本比 1941 年时便宜了十亿倍。一台台式电脑让我们也可以操作几十年前似乎还不可行的实验。然而，以今天的标准来看，我们的模型仍然很小。

　　1997年，LSTM的主要论文问世，后来数十亿人的智能手机上都有了LSTM

　　在过去的30年里，我们的计算能力取得了百万量级的提升。因此，我们现在每1美元的计算能力是1941年康拉德·楚泽时期的千万亿倍。这就是怎么回事现在每个人的智能手机上都有令人印象非常深刻的AI能力，尽管这些智能手机上运行的基础AI技术都可以追溯到上世纪。

　　特别是，我们的 LSTM 神经网络的原理也可以追溯到 1991 年，我的优秀学生 Sepp Hochreiter 的毕业论文，我后来的学生也对其进行了进一步地改进。我在 1995 年想出了 LSTM 这一个名字。最终，我们在 1997 年发表的 LSTM 论文成为 20 世纪被引用次数最多的AI论文。到了2010 年代，LSTM 已经应用于数十亿部智能手机上，大幅度的提升了语音识别和自动翻译能力。例如，到 2017 年，Facebook 每天使用我们的 LSTM 进行 40 亿次翻译。

　　LSTM 也被谷歌、微软、Facebook 等公司用于首批 LLM。那是在他们开始使用Transformer之前，而Transformer的原理也可以追溯到我们 1991 年的工作，如前所述。

　　我记得15年前去中国时，我还得向出租车司机出示我所住酒店的照片，说明我想去的地方。如今，他对着智能手机说普通话，我听到他的翻译，然后我说一句话，智能手机又把它翻译成普通话。出租车司机可能不知道，这是由我在慕尼黑和瑞士的实验室于 20 世纪 90 年代和 2000 年代开发的技术驱动的。我很高兴地看到，我们的人工智能确实打破了人与人之间、国与国之间旧有的沟通障碍。就像现在这样，我的语音可以自动翻译成中文。

　　当然，我认为，目前著名的 ChatGPT 等模型远非 AGI。它们只是一种巧妙的方法，将世界上现有的由人类生成的知识编入索引，以便通过自然语言轻松地处理。但这足以取代许多桌面电脑上的工作，例如，以特定风格撰写现有文档的摘要，或者给文章绘制插图等等。

　　不过，要取代水管工或电工等技工要难得多！因为现实世界、物理世界比屏幕后的虚拟世界更具挑战性。四分之一世纪以来，最好的棋手已不再是人类了。对于AI来说，学习下棋、玩其他棋盘游戏或视频游戏已经相当容易。但现实世界中的游戏，如足球，却要难得多——目前还没有会踢足球的具身智能能与一个 7 岁的男孩相媲美。

　　但我们也确实有能学习如何处理现实世界和物理世界的AI系统。它们的历史至少可以追溯到 1990 年：它们学会了建立一个世界预测模型，当时我称之为世界模型，它们能用这个模型来规划行动序列。一开始，他们什么都不知道，但通过“自我发明”的实验，他们了解了行动的后果，知道了世界是如何运转的。

　　早在 1990 年，我就通过上述相互对抗的生成对抗网络实现了这一点：一个网络生成行动或实验，另一个网络预测这些实验的后果。世界模型在预测和理解世界方面慢慢的变好，而实验生成器在发明新实验方面慢慢的变好，这些新实验仍然会给世界模型带来惊喜。事实上，这些神经网络是具有人造好奇心的自我驱动的“人造科学家”！近几十年来，我们还发表了许多关于更复杂类型的人造好奇心的论文。

　　为了解决实际问题，1990 年最初的控制器/模型（C/M）规划器使用世界模型 M 进行简单的毫秒规划，试图预测和规划其可能未来的每一个小细节。时至今日，这仍然是许多强化学习（RL）应用的标准方法，例如国际象棋和围棋等棋类游戏的 RL。

　　然而，早在 1990 年，我就强调我们一定要超越这一点，即高层次推理，这现在已被认为是一个巨大的挑战。到 1991 年，我已经有了第一个学会将复杂的时空观察序列分解为紧凑但有意义的块的神经网络，以及基于神经网络的分层行动序列规划器，用于合成学习：它们已经学会了使用基于神经网络的端到端可微分子目标生成器生成分层强化学习的分层行动计划。

　　在这里，强化学习机器会获得额外的命令输入（开始、目标）。一个评估神经网络学习预测从起点到目标的当前奖励/成本。基于 (R)NN 的子目标生成器也会看到（起点、目标），并使用（评估器神经网络的副本）评估器神经网络，通过梯度下降学习一系列成本最小的中间子目标，强化学习机器会尝试使用这些子目标序列来实现最终目标。我在 1990-1991 年提出的系统在多个抽象层次和多个时间尺度上学习行动计划，并且（至少在原则上）解决了 LeCun 在 2022年称之为“开放问题”的问题。

　　自 2015 年以来，我的工作大多分布在在更复杂的抽象（如分层）规划和推理上。2015年，在算法信息论的指导下，我描述了一种基于神经网络的人工智能，它可以在永无止境的任务序列中接受训练，其中一些任务由用户更好的提供，另一些任务则由AI以好奇、好玩的方式自行发明，以改进其基神经网络的世界模型。

　　与 1990 年的系统不同，人工智能的控制器 C 学会主动查询其世界模型 M 以进行抽象推理、规划和决策，本质上是“学会思考”。更具体地说，2015年论文第 5.3 节中关于“学会思考”的强化学习提示工程师描述了 C 如何学会向 M（例如基础模型）发送提示序列，而 M 是在利用所有 YouTube 视频（包括演员的视频）上训练出来的。

　　C 还学会解释 M 的答案，从 M 中提取算法信息。酸性测试是这样的：有了 M，C 学习控制任务的速度是否比没有 M 更快？是从头开始有效学习 C 的任务更省钱，还是以某种可计算的方式处理 M 中的算法信息，以此来实现抽象分层规划和推理等功能更省钱？我在 2018 年发表的论文“One Big Net”又向前迈进了一步，该论文利用我在 1991 年提出的神经网络蒸馏程序，将 C 和 M 整理成一个网络。

　　就在最近，我的团队因一篇 2023 年的论文而获奖，这篇论文的灵感来自这位 2015 年的学习提示工程师。这篇论文叫做“基于自然语言的心智社会中的头脑风暴”。未解决一个给定的问题，我们让多达 129 个大型基础模型在 “头脑风暴”中相互提示和访谈。它们共同解决了单个模型无法单独解决的实际任务，例如在视觉问题解答、图像字幕、文本到图像合成、三维生成、自我中心检索、具身人工智能等领域。有趣的新研究问题：这样一个基于自然语言的心智社会的社会结构应该是怎样的？

　　我们的“学会思考”方法还不像 ChatGPT 等那样显而易见，但它将会扩大规模，我认为它将改变一切。

　　顺便说一下，我在开头提到的 1991 年的老式线性Transformer与元学习机密切相关，它们不仅在这里学一点，在那里学一点，还学会自我参照，检查、修改和改进自己的学习算法。我提到过，我们在 1987 年就开始了这项工作，近年来又取得了很多进展。你可以很容易地在arXiv 上找到我们最近关于这方面的许多论文。我相信，这将改变一切。

　　总之，我们三十年前的老式神经网络技术为生成式人工智能提供了动力，使许多工作变得更容易。但旧的趋势还没有停止：每 5 年，计算成本就会降低 10 倍。30 年后，也就是2050 年左右，人们会对今天的应用嗤之以鼻，因为与那时的应用相比，今天的应用显得很原始。几十年后，几乎所有的智能都将超越人类大脑。

　　这也是我们这家成立于 2014 年的人工智能公司 NNAISENSE 的座右铭所反映的大趋势：“AI∀”或“AI For All”。

　　40 年前，我年轻的时候认识一个有钱人。他开了一辆保时捷。但最神奇的是：保时捷里有一个不可思议的东西——移动电话。因此，他能够最终靠卫星给其他拥有类似保时捷的人打电话。

　　但如今，每个人的口袋里都有一部廉价的智能手机，它在很多方面都比保时捷好用得多。人工智能也将是如此。

　　所以，未来是光明的！人工智能不会被几家大公司所控制。开源运动也许只比大公司晚6-8 个月，任何一个人都将拥有廉价但强大、透明的人工智能，以多种方式改善他们的生活。

　　关于AI，最遥远的未来是什么？要回答这样的一个问题，让我们退一步，在最广阔的历史背景下审视人工智能：自宇宙大爆炸以来的所有时间。2014 年，我以历史为基础，发现了一个非常美丽的宇宙发展的模式，名为指数加速。

　　事实证明，从人类的角度来看，宇宙诞生以来最重要的事件都整齐地排列在一条指数级加速的时间轴上（误差大多低于 10%）。

　　事实上，历史似乎在 2040 年左右汇聚到一个欧米伽点上。我喜欢称其为欧米伽，因为一个世纪前，泰亚尔·德·夏尔丹（Teilhard de Chardin）称欧米伽指的是人类达到新高度的时刻。另外，“欧米伽”听起来比“奇点”要好听得多——这个词听起来有点像“哦，我的上帝”。(皮埃尔·泰亚尔·德·夏尔丹[Pierre Teilhard de Chardin, 1881-1955年，法国古生物学家和地质学家，耶稣会士，最为人所知的是他曾努力向世人证明基督教和科学能够和谐共存并且相互利用。他的思想在罗马天主教那里引起争议，结果他因为宗教信仰问题而无法在法国教书，并且作品被禁。他的主要著作都在他去世以后出版。）

　　让我们从 138 亿年前的宇宙大爆炸开始算。我们将这一段时间除以 4，得到大约 35 亿年。欧米伽是 2040 年左右。在欧米伽节点往前35 亿年时，发生了一件很重要的事情：地球上出现了生命。

　　我们再将这一段时间除以4，来到9亿年前，这时发生了一件很重要的事情：类似动物的可移动生命出现了。

　　我们再将这一段时间除以4，来到5500 万年前，第一批灵长类动物出现了，也就是我们的祖先。

　　我们再将这一段时间除以4，1300 万年前，第一批类人猿出现了，也就是我们的祖先。我不知道为啥所有这些以 4 为单位的划分会不断撞击历史上的这些决定性时刻。但它们确实如此。我也试过三等分、五等分，但似乎只有四等分有效。

　　我们再继续将这一段时间除以4，350 万年前，发生了一件很重要的事情：科技的曙光，正如《自然》杂志所说：第一批石器诞生。

　　我们再继续将这一段时间除以4，80 万年前，下一个重大技术突破出现了：可控的火。

　　我们再继续将这一段时间除以4，20 万年前，我们的祖先——解剖学意义上的现代人开始崭露头角。

　　我们再继续将这一段时间除以4，5万年前，行为学上的现代人出现了，他们是我们的祖先。他们发明了弓箭，开始殖民世界。

　　我们再继续将这一段时间除以4，1.3 万年前，一些很重要的事情发生了：动物驯化、农业、第一批定居点——文明的开始。现在我们正真看到，所有的文明只是世界历史上的一瞬间，只是宇宙大爆炸以来时间的百万分之一。农业和宇宙飞船几乎是同时发明的。

　　我们再继续将这一段时间除以4，3300 年前，铁器时代的第一次人口大爆炸开始了。

　　我们再继续将这一段时间除以4。请记住，欧米伽点是 2040 年左右。欧米茄减去800年——那是在 13 世纪，铁与火相结合，在中国诞生了枪炮和火箭。从那时起，这就决定了世界的格局，从这一点上讲，西方列强似乎应该支付给中国版权费。

　　我们再继续将这一段时间除以4。在博蒙特、帕潘、纽科门、瓦特和其他人（1600-1700 年代，超越了 1 世纪亚历山大的赫伦发明的第一台简单蒸汽机）的旧作基础上，铁和火以更为复杂的形式结合在一起，通过改进的蒸汽机为工业革命提供动力。

　　电线年）开始了通信革命。疾病的细菌理论（巴斯德和科赫，19 世纪末）彻底改变了医疗保健，人们的平均寿命延长。大约在 1850 年，以化肥为基础的农业革命（斯普伦格尔和冯-李比希，19 世纪初）引发了第二次人炸，并在 20 世纪达到顶峰，当时世界人口翻了两番，使 20 世纪在人类历史上的所有世纪中脱颖而出，其驱动力是哈伯-博施制造人工肥料的工艺，它通常被称为 20 世纪最具影响力的发明，没有它，世界最多只能养活 40 亿人。

　　我们把这一段时间减去四分之一。欧米伽减去50年——这正是我们的人工智能奇迹年1990-1991，也是 20 世纪三场大战的结束时间：一战、二战和冷战。1990 年，7 家最有价值的上市公司都是日本公司（如今大部分都是美国公司）；然而，中国和美国西海岸开始迅速崛起，为 21 世纪奠定了基础。

　　通过手机和无线世纪发现的无线电波）以及普及廉价个人电脑，数字神经系统开始横跨全球。蒂姆-伯纳斯-李（Tim Berners-Lee）在瑞士的欧洲粒子对撞机上创建了现代人工智能也是在这一时期开始的：20 世纪 80 年代，恩斯特- 迪克曼斯（Ernst Dickmanns）团队在慕尼黑制造出第一辆真正意义上的无人驾驶汽车（到 1994年，他们的机器人汽车在高速上行驶，时速高达 180 公里）。

　　当时，我正在撰写上述 1987年关于 AGI 的毕业论文，该论文不仅介绍了学习算法，还介绍了元学习（meta-learning）或学会怎么样学习（learning to learn）算法，即通过经验学习更好的学习算法（现在是一个非常热门的线年，我们在慕尼黑工业大学完成了我们的“奇迹年”（Annus Mirabilis-91），通过自监督/非监督学习、LSTM/Highway Net/ResNet 原理（现在就在你口袋里的智能手机上）、人工好奇心和用于发明自己问题的代理的生成式对抗网络、第一个Transformer变体（见上文）、将教师网络提炼为学生网络、在多抽象层次和多时间尺度上学习行动计划以及其他令人兴奋的内容，这些都是当今最被引用的网络和现代深度学习的根源。其中的许多内容已经很普及，并改善了数十亿人的生活。

　　我们再用四分之一的时间。欧米伽减去 13 年——那是不久的将来，差不多是 2030 年，许多人预测那时廉价的AI将拥有人类的脑力。然后在欧米伽之前的最后 13 年左右，不可思议的事情将会发生。

　　当然，时间不会因为欧米伽而停止。也许终结的只是人类主导的历史。欧米伽之后，许多好奇的元学习型AI会发明自己的目标（在我的实验室里已经存在了几十年），它们会迅速自我完善，只受限于可计算性和物理学的基本限制。

　　超智能人工智能会做什么？太空对人类充满敌意，但对设计得当的机器人却很友好，它提供的资源比我们这层薄薄的生物圈要多得多，而我们所接受的能量还不到太阳的十亿分之一。虽然一些好奇的人工智能仍会对生命着迷，至少在它们还没有完全理解生命的时候是这样，但大多数人工智能会对太空中机器人和软件生命所面临的难以置信的新机遇更感兴趣。

　　通过小行星带及另外的地方无数自我复制的机器人工厂，它们将改变太阳系，然后在几十万年内改变整个银河系，在数百亿年内则改变可到达的宇宙另外的地方。尽管有光速的限制，但不断扩张的人工智能球将有足够的时间殖民和塑造整个可见的宇宙。

　　让我来拓展一下你的思维。宇宙还很年轻，只有 138 亿岁。还记得我们从始至终在除以 4吗？现在让我们乘以 4！让我们展望未来，届时宇宙的年龄将是现在的4倍：大约 550 亿年。到那时，可见的宇宙将充满智慧。因为在欧米伽之后，大多数AI将不得不前往物质资源最丰富的地方，制造更多更大的人工智能。不这样做的AI将不会产生影响。

　　多年前，我在一次 TEDx 演讲中说过：将人类文明视为更宏伟计划的一部分，是宇宙走向越来越深不可测的复杂性的重要一步，但不是最后一步。现在，人类文明似乎已经准备好迈出下一步，这一步堪比 35 亿多年前生命的发明。这不仅仅是另一场工业革命，这是一种超越人类甚至生物学的新事物。我们有幸见证它的开始，并为之做出贡献。

　　《》的头条是：“当人工智能成熟时，它可能会称Jürgen Schmidhuber为‘父亲’。”他经常被媒体称为现代AI之父。自15岁起，他的主要目标就是建立一个比他自己更聪明的自我提升的人工智能，然后退休。他的实验室的深度学习人工神经网络革新了机器学习和人工智能。到2017年，它们已然浮现在超过30亿部智能手机上，每天被使用数十亿次，用于Facebook的自动翻译、Google的语音识别、Google翻译、Apple的Siri和QuickType、Amazon的Alexa等。生成性AI也基于他的工作：他引入了人工好奇心和生成对抗网络（1990年，现在被普遍的使用），非标准化线年，“ChatGPT”中的“T”代表“变换器”），深度学习的自我监督预训练（1991年，“ChatGPT”中的“P”代表“预训练”），以及学习学习的元学习机器（自1987年以来，现在被普遍的使用）。他的实验室还生产了LSTM，20世纪被引用最多的AI，以及受LSTM启发的Highway Net，第一个具有数百层的非常深的前馈网络（ResNet，21世纪被引用最多的AI，是一个开放门控的Highway Net）。在2006-2010年，他发表了“乐趣和创造力的正式理论”。马斯克在推特上说：“Schmidhuber发明了一切。”他是许多奖项的获得者，KAUST在KSA的AI倡议的主任，瑞士AI实验室IDSIA的科学主任，卢加诺大学的AI副教授，以及NNAISENSE公司的联合发起人和首席科学家。他经常在重要活动中担任主题演讲者，并为各种政府提供AI策略咨询。

　　1. 进入『返朴』微信公众号底部菜单“精品专栏“，可查阅不同主题系列科普文章。

[上一篇] 李德毅院士：人类的四种基本认知模式

[下一篇] 拟定规矩与履行纪律：买卖成功的两层柱石