联合创始人兼首席执行官黄仁勋在Computex 2024(2024台北国际电脑展)上发表主题演讲,分享了
①黄仁勋展示了最新量产版Blackwell芯片,并称将在2025年推出Blackwell UltraAI芯片,下一代AI平台命名为Rubin,2027年推Rubin Ultra,更新节奏将是“一年一次”,打破“摩尔定律”。
② 黄仁勋宣称推动了大语言模型诞生,其在2012年后改变了GPU架构,并将所有新技术集成在单台计算机上。
③的加速计算技术帮助实现了100倍速率提升,而功耗仅增加到原来的3倍,成本为原来的1.5倍。
④ 黄仁勋预计下一代AI需要理解物理世界。他给出的方法是让AI通过视频与合成数据学习,并让AI互相学习。
⑥ 黄仁勋表示,机器人时代已经到来,将来所有移动的物体都将实现自主运行。
尊敬的各位来宾,我非常荣幸能再次站在这里。首先,我要感谢台湾大学为咱们提供这个体育馆作为举办活动的场所。上一次我来到这里,是我从台湾大学获得学位的时候。今天,我们即将探讨的内容很多,所以我必须加快步伐,以快速而清晰的方式传达信息。我们有很多话题要聊,我有许多激动人心的故事要与大家分享。
我很高兴能够来到中国台湾,这里有我们很多合作伙伴。事实上,这里不仅是英伟达发展历史中不可或缺的一部分,更是我们与合作伙伴共同将创新推向全球的关键节点。我们与许多合作伙伴共同构建了全世界内的基础设施。今天,我想与大家探讨几个关键议题:
接下来会发生啥?生成式人工智能及其带来的深远影响,我们的战略蓝图,这些都是我们即将探讨的令人振奋的主题。我们正站在计算机行业重启的起点上,一个由你们铸就、由你们创造的新时代即将开启。现在,你们已经为下一段重要旅程做好了准备。
但在开始深入讨论之前,我想先强调一点:英伟达位于计算机图形学、模拟和人工智能的交汇点上,这构成了我们公司的灵魂。今天,我将向大家展示的所有内容,都是基于模拟的。这些不仅仅是视觉效果,它们背后是数学、科学和计算机科学的精髓,以及令人叹为观止的计算机架构。没有一点动画是预先制作的,一切都是我们自家团队的杰作。这就是英伟达的领会,我们将其全部融入了我们引以为傲的Omniverse虚拟世界中。现在,请欣赏视频!
全球数据中心的电力消耗正在急剧上升,同时计算成本也在不断攀升。我们正面临着计算膨胀的严峻挑战,这种情况显然无法长期维持。数据将继续以指数级增长,而CPU的性能扩展却难以像以往那样快速。然而,有一种更高效的方法正在浮现。
近二十年来,我们从始至终致力于加速计算的研究。CUDA技术增强了CPU的功能,将那些特殊处理器能更高效完成的任务卸载并加速。事实上,由于CPU性能扩展的放缓甚至停滞,加速计算的优势愈发显著。我预测,每个处理密集型的应用都将实现加速,且不久的将来,每个都将实现全面加速。
现在,选择加速计算是明智之举,这已成为行业共识。想象一下,一个应用程序需要100个时间单位来完成。无论是100秒还是100小时,我们往往没办法承受运行数天甚至数月的人工智能应用。
在这100个时间单位中,有1个时间单位涉及需要顺序执行的代码,此时单线程CPU的重要性不言而喻。操作系统的控制逻辑是不可或缺的,必须严格按照指令序列执行。然而,还有许多算法,如计算机图形学、图像处理、物理模拟、组合优化、图处理和数据库处理,特别是深度学习中普遍的使用的线性代数,它们很适合通过并行处理进行加速。为实现这一目标,我们发明了一种创新架构,将GPU与CPU完美结合。
专用的处理器能够将原本耗时的任务加速至令人难以置信的速度。由于这两个处理器能并行工作,它们各自独立且自主运行。这在某种程度上预示着,原本需要100个时间单位才能完成的任务,现在可能仅需1个时间单位就可以完成。尽管这种加速效果听起来令人难以置信,但今天,我将通过一系列实例来验证这一说法。
这种性能提升所带来的好处是惊人的,加速100倍,而功率仅增加约3倍,成本仅上升约50%。我们在PC行业早已实践了这种策略。在PC上添加一个价值500美元的GeForce GPU,就能使其性能大幅度的提高,同时整体价值也增加至1000美元。在,我们也采用了同样的方法。一个价值十亿美元的数据中心,在添加了价值5亿美元的GPU后,瞬间转变为一个强大的人工智能工厂。今天,这种变革正在全世界内发生。
节省的成本同样令人震惊。每投入1美元,你就能获得高达60倍的性能提升。加速100倍,而功率仅增加3倍,成本仅上升1.5倍。节省的费用是实实在在的!
显然,许多公司在云端处理数据上花费了数亿美元。当数据得到加速处理时,节省数亿美元就变得合情合理。为何会这样呢?原因很简单,我们在通用计算方面经历了长时间的效率瓶颈。
现在,我们终于认识到了这一点,并决定加速。通过采取了专用处理器,我们大家可以重新获得大量之前被忽视的性能提升,从而节省大量金钱和能源。这就是怎么回事我说,你购买得越多,节省得也越多。
现在,我已经向你们展示了这些数字。虽然它们并非精确到小数点后几位,但这准确地反映了事实。这可以称之为“CEO数学”。CEO数学虽不追求极致的精确,但其背后的逻辑是正确的——你购买的加速计算能力越多,节省的成本也就越多。
加速计算带来的结果确实非凡,但其实现过程并不是特别容易。为什么它能节省这么多钱,但人们却没有更早地采用这种技术呢?原因就在于它的实施难度太大。
没有现成的软件可以简单地通过加速编译器运行,然后应用程序就能瞬间提速100倍。这既不符合逻辑也不现实。如果这么容易,那么CPU厂商早就这样做了。
事实上,要实现加速,软件一定要进行全面重写。这是整一个完整的过程中最具挑战性的部分。软件需要被重新设计、重新编码,以便将原本在CPU上运行的算法转化为可以在加速器上并行运行的格式。
这项计算机科学研究虽然困难,但我们在过去的20年里已经取得了显著的进展。例如,我们推出了广受欢迎的cuDNN深度学习库,它专门处理神经网络加速。我们还为人工智能物理模拟提供了一个库,适用于流体动力学等需要遵守物理定律的应用。另外,我们还有一个名为Aerial的新库,它利用CUDA加速5G无线电技术,使我们也可以像软件定义互联网网络一样,用软件定义和加速电信网络。
这些加速能力不仅提升了性能,还让我们将整个电信行业转化为一种与云计算类似的计算平台。此外,Coolitho计算光刻平台也是一个很好的例子,它极大地提升了芯片制作的完整过程中计算最密集的部分——掩模制作的效率。台积电等公司已开始使用Coolitho进行生产,不仅显著节省了能源,而且大幅度降低了成本。他们的目标是通过加速技术栈,为算法的更逐步发展和制造更深更窄的晶体管所需的庞大计算能力做好准备。
Pair of Bricks是我们引以为傲的基因测序库,它拥有世界领先的吞吐量。而Co OPT则是一个令人瞩目的组合优化库,能够解决路线规划、优化行程、旅行社问题等复杂难题。人们一致认为,这样一些问题需要量子计算机才能解决,但我们却通过加速计算技术,创造了一个运行极快的算法,成功打破了23项世界纪录,至今我们仍保持着每一个主要的世界纪录。
Coup Quantum是我们开发的量子计算机仿真系统。对于想要设计量子计算机或量子算法的研究人员来说,一个可靠的模拟器是必不可少的。在没有实际量子计算机的情况下,英伟达CUDA——我们叫做世界上最快的计算机——成为了他们的首选工具。咱们提供了一个模拟器,能够模拟量子计算机的运行,帮助研究人员在量子计算领域取得突破。这个模拟器已经被全球数十万研究人员普遍的使用,并被集成到所有领先的量子计算框架中,为世界各地的科学超级计算机中心提供了强大的支持。
此外,我们还推出了数据处理库Kudieff,专门用于加速数据处理过程。数据处理占据了当今云支出的绝大部分,因此加速数据处理对于节省成本至关重要。QDF是我们开发的加速工具,能够明显提升世界上主要数据处理库的性能,如Spark、Pandas、Polar以及NetworkX等图处理数据库。
这些库是生态系统中的关键组成部分,它们使得加速计算得以广泛应用。假如没有我们精心打造的如cuDNN这样的特定领域库,仅凭CUDA,全球深度学习科学家可能没办法充分的利用其潜力,因为CUDA与TensorFlow、PyTorch等深度学习框架中使用的算法之间有显著差异。这就像在没有OpenGL的情况下进行计算机图形学设计,或是在没有SQL的情况下进行数据处理一样不切实际。
这些特定领域的库是我们公司的宝藏,我们目前拥有超过350个这样的库。正是这些库让我们在市场中保持开放和领先。今天,我将向你们展示更多令人振奋的例子。
就在上周,谷歌宣布他们已在云端部署了QDF,并成功加速了Pandas。Pandas是世界上最受喜爱的数据科学库,被全球1000万数据科学家所使用,每月下载量高达1.7亿次。它就像是数据科学家的Excel,是他们处理数据的得力助手。
现在,只需在谷歌的云端数据中心平台Colab上点击一下,你就能体验到由QDF加速的Pandas带来的强大性能。这种加速效果确实令人惊叹,就像你们刚刚看到的演示一样,它几乎瞬间就完成了数据处理任务。
CUDA已达到了一个人们所称的临界点,但现实情况比这要好。CUDA已经实现一个良性的发展循环。回顾历史和各种计算架构、平台的发展,我们大家可以发现这样的循环并不常见。以微处理器CPU为例,它已经存在了60年,但其加速计算的方式在这漫长的岁月里并未发生根本性改变。
要创建一个新的计算平台往往面临着“先有鸡还是先有蛋”的困境。没有开发者的支持,平台很难吸引客户;而没有用户的广泛采用,又难以形成庞大的安装基础来吸引开发者。这个困境在过去20年中一直困扰着多个计算平台的发展。
然而,通过持续不断地推出特定领域的库和加速库,我们成功打破了这一困境。如今,我们已在全球拥有500万开发者,他们利用CUDA技术服务于从医疗保健、金融服务到计算机行业、汽车行业等几乎每一个主要行业和科学领域。
随着客户群的逐步扩大,OEM和云服务提供商也开始对我们的系统产生兴趣,这逐步推动了更多系统进入市场。这种良性循环为我们创造了巨大的机遇,使我们也可以扩大规模,增加研发投入,从而推动更多应用的加速发展。
每一次应用的加速都意味着计算成本的显著降低。正如我之前展示的,100倍的加速能带来高达97.96%,即接近98%的成本节省。随着我们将计算加速从100倍提升至200倍,再飞跃至1000倍,计算的边际成本持续下降,展现出了令人瞩目的经济效益。
当然,我们始终相信,通过明显降低计算成本,市场、开发者、科学家和发明家将不断发掘出消耗更多计算资源的新算法。直至某个时刻,一种深刻的变革将悄然发生。当计算的边际成本变得如此低廉时,全新的计算机使用方式将应运而生。
事实上,这种变革正在我们眼前上演。过去十年间,我们利用特定算法将计算的边际成本降低了惊人的100万倍。如今,利用网络上的所有数据来训练大语言模型已成为一种合乎逻辑且理所当然的选择,不再受到任何质疑。
这个想法——打造一台可处理海量数据以自我编程的计算机——正是人工智能崛起的基石。人工智能的崛起之所以成为可能,完全是因我们坚信,如果我们让计算慢慢的变便宜,总会有人找到巨大的用途。如今,CUDA的成功已经证明了这一良性循环的可行性。
随着安装基础的持续扩大和计算成本的持续降低,慢慢的变多的开发者得以发挥他们的创新潜能,提出更多的想法和解决方案。这种创新力推动了市场需求的激增。现在我们正站在一个重大转折点上。然而,在我进一步展示之前,我想强调的是,若不是CUDA和现代人工智能技术——尤其是生成式人工智能的突破,以下我所要展示的内容将无法实现。
这就是“地球2号”项目——一个雄心勃勃的设想,旨在创建地球的数字孪生体。我们将模拟整个地球的运行,以预测其未来变化。通过这样的模拟,我们大家可以更好地预防灾难,更深入地理解气候平均状态随时间的变化的影响,从而让我们也可以更好地适应这些变化,甚至现在就开始改变我们的行为和习惯。
“地球2号”项目可能是世界上最具挑战性、最雄心勃勃的项目之一。我们每年都在这样的领域取得显著的进步,而今年的成果尤为突出。现在,请允许我为大家展示这些令人振奋的进展。
在不远的将来,我们将拥有持续的天气预报能力,覆盖地球上的每一平方公里。你将始终了解气候将如何变化,这种预测将不断运行,因为我们训练了人工智能,而AI所需的能量又极为有限。这将是一个令人难以置信的成就。我但愿你们会喜欢它,而更重要的是,这一预测其实就是由Jensen AI做出的,而非我本人。我设计了它,但最终的预测由Jensen AI来呈现。
由于我们致力于逐步的提升性能并减少相关成本,研究人员在2012年发现了CUDA,那是英伟达和AI的首次接触。那一天对我们而言至关重要,因为我们做出了明智的选择,与科学家们紧密合作,使深度学习成为可能。AlexNet的出现实现了计算机视觉的巨大突破。
但更为重要的智慧在于我们退后一步,深入理解了深度学习的本质。它的基础是什么?它的长期影响是什么?它的潜力是什么?我们意识到,这项技术拥有巨大的潜力,能够继续扩展几十年前发明和发现的算法,结合更多的数据、更大的网络和至关重要的计算资源,深度学习突然间可以在一定程度上完成人类算法无法企及的任务。
现在,想象一下,如果我们逐步扩大架构,拥有更大的网络、更多的数据和计算资源,将会发生啥?因此,我们致力于重新发明一切。自2012年以来,我们改变了GPU的架构,增加了张量核心,发明了NV-Link,推出了cuDNN、TensorRT、Nickel,还收购了Mellanox,推出了Triton推理服务器。
这些技术集成在一台全新的计算机上,它超越了当时所有人的想象。没有人预料到,没有人提出这样的需求,甚至没有人理解它的全部潜力。事实上,我自己也不确定是不是会有人会想买它。
但在GTC大会上,我们正式对外发布了这项技术。旧金山一家名叫OpenAI的初创公司迅速注意到了我们的成果,并请求咱们提供一台设备。我亲自为OpenAI送去了世界上首台人工智能超级计算机DGX。
2016年,我们持续扩大研发规模。从单一的人工智能超级计算机,单一的AI应用,扩大到在2017年推出了更为庞大且强大的超级计算机。随技术的慢慢的提升,世界见证了Transformer的崛起。这一模型的出现,使我们也可以处理海量的数据,并识别和学习在长时间跨度内连续的模式。
如今,我们有能力训练这些大语言模型,以实现自然语言理解方面的重大突破。但我们并未止步于此,我们继续前行,构建了更大的模型。到了2022年11月,在极为强大的人工智能超级计算机上,个人会使用数万颗英伟达GPU进行训练。
仅仅5天后,OpenAI宣布ChatGPT已拥有100万用户。这一惊人的上涨的速度,在短短两个月内攀升至1亿用户,创造了应用历史上最快的增长记录。其原因十分简单——ChatGPT的使用体验便捷而神奇。
用户能够与计算机进行自然、流畅的互动,仿佛与真人交流一般。无需繁琐的指令或明确的描述,ChatGPT便能理解用户的意图和需求。
ChatGPT的出现标志着一个划时代的变革,这张幻灯片恰恰捕捉到了这一关键转折。请允许我为大家展示下。
直至ChatGPT的问世,它才真正向世界揭示了生成式人工智能的无限潜能。长久以来,人工智能的焦点大多分布在在感知领域,如自然语言理解、计算机视觉和语音识别,这些技术致力于模拟人类的感知能力。但ChatGPT带来了质的飞跃,它不仅仅局限于感知,而是首次展现了生成式人工智能的力量。
它会逐个生成Token,这些Token可以是单词、图像、图表、表格,甚至是歌曲、文字、语音和视频。Token能代表任何具有明确意义的事物,无论是化学物质、蛋白质、基因,还是之前我们提到的天气模式。
这种生成式人工智能的崛起意味着,我们大家可以学习并模拟物理现象,让人工智能模型理解并生成物理世界的各种现象。我们不再局限于缩小范围进行过滤,而是通过生成的方式探索无限可能。
如今,我们几乎能为任何有价值的事物生成Token,无论是汽车的转向盘控制、机械臂的关节运动,还是我们目前能够学习的任何知识。因此,我们所处的已不单单是一个AI时代,而是一个生成式人工智能引领的新纪元。
更重要的是,这台最初作为超级计算机出现的设备,如今已经演化为一个高效运转的人工智能数据中心。它不断地产出,不仅生成Token,更是一个创造价值的人工智能工厂。这个人工智能工厂正在生成、创造和生产具有巨大市场潜力的新商品。
正如19世纪末尼古拉·特斯拉(Nikola Tesla)发明了交流发电机,为我们大家带来了源源不断的电子,英伟达的人工智能生成器也正在源源不断地产生具有无限可能性的Token。这两者都有巨大的市场机会,有望在每个行业掀起变革。这确实是一场新的工业革命!
我们现在迎来了一个全新的工厂,能够为各行各业生产出前所未有的、极具价值的新商品。这一方法不仅极具可扩展性,而且完全可重复。请注意,目前,每天都在不断涌现出各种各样的人工智能模型,尤其是生成式人工智能模型。如今,每个行业都竞相去参加了,这是前所未有的盛况。
价值3万亿美元的IT行业,即将催生出能够直接服务于100万亿美元产业的创新成果。它不再仅仅是信息存储或数据处理的工具,而是每个行业生成智能的引擎。这将成为一种新型的制造业,但它并非传统的计算机制造业,而是利用计算机进行制造的全新模式。这样的变革以前从未发生过,这确实是一件令人瞩目的非凡之事。
这开启了计算加速的新时代,推动了人工智能的迅猛发展,进而催生了生成式人工智能的兴起。而如今,我们正在经历一场工业革命。关于其影响,让我们深入探讨一下。
对于我们所在的行业而言,这场变革的影响同样深远。正如我之前所言,这是过去六十年来的首次,计算的每一层都正在发生变革。从CPU的通用计算到GPU的加速计算,每一次变革都标志着技术的飞跃。
过去,计算机需要遵循指令执行操作,而现在,它们更多地是处理LLM(大语言模型)和人工智能模型。过去的计算模型主要是基于检索,几乎每次你使用电子设备时,它都会为你检索预先存储的文本、图像或视频,并根据推荐系统重新组合这一些内容呈现给你。
但在未来,你的计算机会尽可能多地生成内容,只检索必要的信息,因为生成数据在获取信息时消耗的能量更少。而且,生成的数据具有更高的上下文相关性,能更准确地反映你的需求。当你需要答案时,不再需要明确指示计算机“给我获取那个信息”或“给我那个文件”,只需简单地说:“给我一个答案。”
此外,计算机不再仅仅是个人会使用的工具,它开始生成技能。它执行任务,而不再是一个生产软件的行业,这在90年代初是一个颠覆性的观念。记得吗?微软提出的软件打包理念彻底改变了PC行业。没有打包软件,我们的PC将失去大部分功能。这一创新推动了整个行业的发展。
现在我们有了新工厂、新计算机,而在这个基础上运行的是一种新型软件——我们叫做Nim(NVIDIA Inference Microservices)。在这个新工厂中运行的Nim是一个预训练模型,它是一个人工智能。
这个人工智能本身相当复杂,但运行人工智能的计算堆栈更是复杂得令人难以置信。当你使用ChatGPT这样的模型时,其背后是庞大的软件堆栈。这个堆栈复杂而庞大,因为模型拥有数十亿到数万亿个参数,且不仅在一台计算机上运行,而是在多台计算机上协同工作。
为了最大化效率,系统要将工作负载分配给多个GPU,进行各种并行处理,如张量并行、管道并行、数据并行和专家并行。这样的分配是为了确认和保证工作能尽快完成,因为在一个工厂中,吞吐量必然的联系到收入、服务的品质和可服务的客户数量。如今,我们身处一个数据中心吞吐量利用率至关重要的时代。
过去,虽然吞吐量被认为重要,但并非决定性的因素。然而,现在,从启动时间、运行时间、利用率、吞吐量到空闲时间等每一个参数都被精确测量,因为数据中心已成为真正的“工厂”。在这个工厂中,运作效率直接关联到公司的财务表现。
鉴于这种复杂性,我们深知大多数公司在部署人工智能时面临的挑战。因此,我们开发了一个集成化的人工智能容器解决方案,将AI封装在易于部署和管理的盒子中。这个盒子包含了庞大的软件集合,如CUDA、CUDACNN和TensorRT,以及Triton推理服务。它支持云原生环境,允许在Kubernetes(基于容器技术的分布式架构解决方案)环境中自动扩展,并提供管理服务,方便用户监控人工智能服务的运行状态。
更令人振奋的是,这个人工智能容器提供通用的、标准的API接口,使得用户都能够直接与“盒子”进行交互。用户只需下载Nim,并在支持CUDA的计算机上运行,即可轻松部署和管理人工智能服务。如今,CUDA已无处不在,它支持各大云服务提供商,几乎所有计算机制造商都提供CUDA支持,甚至在数亿台PC中也能找到它的身影。
当你下载Nim时,即刻拥有一个人工智能助手,它能如与ChatGPT对话般流畅交流。现在,所有的软件都已精简并整合在一个容器中,原先繁琐的400个依赖项全部集中优化。我们对Nim进行了严格的测试,每个预训练模型都在我们的云端基础设施上得到了全面测试,包括Pascal、Ampere乃至最新的Hopper等不同版本的GPU。这些版本种类非常之多,几乎覆盖了所有需求。
Nim的发明无疑是一项壮举,它是我最引以为傲的成就之一。如今,我们有能力构建大语言模型和各种预训练模型,这些模型涵盖了语言、视觉、图像等多个领域,还有针对特定行业如医疗保健和数字生物学的定制版本。
想要了解更多或试用这些版本,只需访问今天,我们在Hugging Face上发布了完全优化的Llama 3 Nim,你能马上体验,甚至免费带走它。无论你选择哪个云平台,都能轻松运行它。当然,你也可以将这个容器下载到你的数据中心,自行托管,并为你的客户提供服务。
我前面提到,我们拥有覆盖不相同的领域的Nim版本,包括物理学、语义检索、视觉语言等,支持多种语言。这些微服务可以轻松集成到大型应用中,其中最具潜力的应用之一是客户服务代理。它几乎是每个行业的标配,代表了价值数万亿美元的全球客户服务市场。
值得一提的是,护士们作为客户服务的核心,在零售、快餐、金融服务、保险等行业中发挥着及其重要的作用。如今,借助语言模型和人工智能技术,数千万的客户服务人员得到了显著的增强。这些增强工具的核心,正是你所看到的Nim。
有些被称为推理智能体(Reasoning Agents),它们被赋予任务后,能够明确目标并制定计划。有的擅长检索信息,有的精于搜索,还有的可能会使用如Coop这样的工具,或者需要学习在SAP上运行的特定语言如ABAP,甚至执行SQL查询。这些所谓的专家现在被组成一个高效协作的团队。
应用层也因此发生了变革:过去,应用程序是由指令编写的,而现在,它们则是通过组装人工智能团队来构建。虽然编写程序要专业技能,但几乎任何一个人都知道怎么分解问题并组建团队。因此,我坚信,未来的每家公司都会拥有一个庞大的Nim集合。你能够准确的通过需要选择专家,将它们连接成一个团队。
更神奇的是,你甚至不需要弄清楚如何去连接它们。只需给代理分配一个任务,Nim会智能地决定如何分解任务并分配给最适合的专家。它们就像应用程序或团队的者,能够协调小组成员的工作,最终将结果呈现给你。
整个过程就像人类团队协作一样高效、灵活。这不仅仅是未来的趋势,而是即将在我们身边成为现实。这就是未来应用程序将要呈现的全新面貌。
当我们谈论与大型人工智能服务的交互时,目前我们已可以通过文本和语音提示来实现。但展望未来,我们更希望以更人性化的方式——即,来进行互动。英伟达在技术领域已经取得了显著的进展。
数字人不仅仅具备成为出色交互式代理的潜力,它们还更加吸引人,并可能展现出更高的同理心。然而,要跨越这个令人难以置信的鸿沟,使数字人看起来和感觉更加自然,我们仍需付出巨大的努力。这不仅是我们的愿景,更是我们不懈追求的目标。
在我向大家展示我们目前的成果之前,请允许我表达对中国台湾的热情问候。在深入探索夜市的魅力之前,让我们先一同领略数字人技术的前沿动态。
这确实令人觉得不可思议。ACE(Avatar Cloud Engine,英伟达数字人技术)不仅能在云端高效运行,同时也兼容PC环境。我们前瞻性地将Tensor Core GPU集成到所有RTX系列中,这标志着人工智能GPU的时代已经到来,我们为此做好了充分准备。
背后的逻辑十分清晰:要构建一个新的计算平台,必须先奠定坚实的基础。有了坚实的基础,应用程序自然会随之涌现。如果缺乏这样的基础,那么应用程序便无从谈起。所以,只有当我们构建了它,应用程序的繁荣才有可能实现。
因此,我们在每一款RTX GPU中都集成了Tensor Core处理单元,目前全球已有1亿台GeForce RTX AI PC投入到正常的使用中,而且这一个数字还在一直增长,预计将达到2亿台。在最近的Computex展会上,我们更是推出了四款全新的人工智能笔记本电脑。
这些设备都具备运行人工智能的能力。未来的笔记本电脑和PC将成为AI的载体,它们将在后台默默地为你提供帮助和支持。同时,这些PC还将运行由AI增强的应用程序,无论你是进行照片编辑、写作还是用其他工具,都将享受到人工智能带来的便利和增强效果。
此外,你的PC还将能够托管带有人工智能的数字人类应用程序,让人工智能以更多样化的方式呈现并在PC上得到应用。显然,PC将成为至关重要的人工智能平台。那么,接下来我们将怎么样发展呢?
之前我谈到了我们数据中心的扩展,每次扩展都伴随着新的变革。当我们从DGX扩展到大型人工智能超级计算机时,我们实现了Transformer在巨大数据集上的高效训练。这标志着一个重大的转变:一开始,数据需要人类的监督,通过人类标记来训练人工智能。然而,人类能够标记的数据量是有限的。现在,随着Transformer的发展,无监督学习成为可能。
如今,Transformer能够自行探索海量的数据、视频和图像,从中学习并发现隐藏的模式和关系。为了推动人工智能向更高层次发展,下一代人工智能需要根植于物理定律的理解,但大多数AI系统缺乏对物理世界的深刻认识。为了生成逼线D图形,以及模拟复杂的物理现象,我们急需开发基于物理的人工智能,这要求它能够理解并应用物理定律。
在实现这一目标的过程中,有两个主要方法。首先,通过从视频中学习,AI可以逐步积累对物理世界的认知。其次,利用合成数据,我们大家可以为AI系统提供丰富且可控的学习环境。此外,模拟数据和计算机之间的互相学习也是一种有效的策略。这种方法类似于AlphaGo的自我对弈模式,让两个相同能力的实体长时间相互学习,从而不断提升智能水平。因此,我们可以预见,这种类型的人工智能将在未来逐渐崭露头角。
当人工智能数据通过合成方式生成,并结合强化学习技术时,数据生成的速率将得到显著提升。随着数据生成的增长,对计算能力的需求也将相应增加。我们即将迈入一个新时代,在这个时代中,人工智能将能够学习物理定律,理解并基于物理世界的数据进行决策和行动。因此,我们预计人工智能模型将继续扩大,对GPU性能的要求也将越来越高。
为满足这一需求,Blackwell应运而生。这款GPU专为支持新一代人工智能设计,拥有几项关键技术。这种芯片尺寸之大在业界首屈一指。我们采用了两片尽可能大的芯片,通过每秒10太字节的高速链接,结合世界上最先进的SerDes(高性能接口或连接技术)将它们紧密连接在一起。进一步地,我们将两片这样的芯片放置在一个计算机节点上,并通过Grace CPU进行高效协调。
Grace CPU的用途广泛,不仅适用于训练场景,还在推理和生成过程中发挥关键作用,如快速检查点和重启。此外,它还能存储上下文,让AI系统拥有记忆,并能理解用户对话的上下文,这对于增强交互的连续性和流畅性至关重要。
我们推出的第二代Transformer引擎进一步提升了人工智能的计算效率。这款引擎能够根据计算层的精度和范围需求,动态调整至较低的精度,从而在保持性能的同时降低能耗。同时,Blackwell GPU还具备安全人工智能功能,确保用户能够要求服务提供商保护其免受盗窃或篡改。
在GPU的互联方面,我们采用了第五代NV Link技术,它允许我们轻松连接多个GPU。此外,Blackwell GPU还配备了第一代可靠性和可用性引擎(Ras系统),这一创新技术能够测试芯片上的每一个晶体管、触发器、内存以及片外内存,确保我们在现场就能准确判断特定芯片是否达到了平均故障间隔时间(MTBF)的标准。
对于大型超级计算机来说,可靠性尤为关键。拥有10,000个GPU的超级计算机的平均故障间隔时间可能以小时为单位,但当GPU数量增加至100,000个时,平均故障间隔时间将缩短至以分钟为单位。因此,为了确保超级计算机能够长时间稳定运行,以训练那些可能需要数个月时间的复杂模型,我们必须通过技术创新来提高可靠性。而可靠性的提升不仅能够增加系统的正常运行时间,还能有效降低成本。
最后,我们还在Blackwell GPU中集成了先进的解压缩引擎。在数据处理方面,解压缩速度至关重要。通过集成这一引擎,我们大家可以从存储中拉取数据的速度比现有技术快20倍,从而极大地提升了数据处理效率。
Blackwell GPU的上述功能特性使其成为一款令人瞩目的产品。在之前的GTC大会上,我曾向大家展示了处于原型状态的Blackwell。而现在,我们很高兴地宣布,这款产品已经投入生产。
各位,这就是Blackwell,使用了令人难以置信的技术。这是我们的杰作,是当今世界上最复杂、性能最高的计算机。其中,我们特别要提到的是Grace CPU,它承载了巨大的计算能力。请看,这两个Blackwell芯片,它们紧密相连。你注意到了吗?这就是世界上最大的芯片,而我们使用每秒高达A10TB的链接将两片这样的芯片融为一体。
那么,Blackwell究竟是什么呢?它的性能之强大,简直令人难以置信。请仔细观察这些数据。在短短八年内,我们的计算能力、浮点运算以及人工智能浮点运算能力增长了1000倍。这速度,几乎超越了摩尔定律在最佳时期的增长。
Blackwell计算能力的增长简直惊人。而更值得一提的是,每当我们的计算能力提高时,成本却在不断下降。让我给你们展示一下。我们通过提升计算能力,用于训练GPT-4模型(2万亿参数和8万亿Token)的能量下降了350倍。
想象一下,如果使用Pascal进行同样的训练,它将消耗高达1000吉瓦时的能量。这意味着需要一个吉瓦数据中心来支持,但世界上并不存在这样的数据中心。即便存在,它也需要连续运行一个月的时间。而如果是一个100兆瓦的数据中心,那么训练时间将长达一年。
显然,没有人愿意或能够创造这样的数据中心。这就是为什么八年前,像ChatGPT这样的大语言模型对我们来说还是遥不可及的梦想。但如今,我们通过提升性能并降低能耗实现了这一目标。
我们利用Blackwell将原本需要高达1000吉瓦时的能量降低到仅需3吉瓦时,这一成就无疑是令人震惊的突破。想象一下,使用1000个GPU,它们所消耗的能量竟然只相当于一杯咖啡的热量。而10,000个GPU,更是只需短短10天左右的时间就能完成同等任务。八年间取得的这些进步,简直令人难以置信。
Blackwell不仅适用于推理,其在Token生成性能上的提升更是令人瞩目。在Pascal时代,每个Token消耗的能量高达17,000焦耳,这大约相当于两个灯泡运行两天的能量。而生成一个GPT-4的Token,几乎需要两个200瓦特的灯泡持续运行两天。考虑到生成一个单词大约需要3个Token,这确实是一个巨大的能量消耗。
然而,现在的情况已经截然不同。Blackwell使得生成每个Token只需消耗0.4焦耳的能量,以惊人的速度和极低的能耗进行Token生成。这无疑是一个巨大的飞跃。但即使如此,我们仍不满足。为了更大的突破,我们必须建造更强大的机器。
这就是我们的DGX系统,Blackwell芯片将被嵌入其中。这款系统采用空气冷却技术,内部配备了8个这样的GPU。看看这些GPU上的散热片,它们的尺寸之大令人惊叹。整个系统功耗约为15千瓦,完全通过空气冷却实现。这个版本兼容X86,并已应用于我们已发货的服务器中。
然而,如果你更倾向于液体冷却技术,我们还有一个全新的系统——MGX。它基于这款主板设计,我们称之为“模块化”系统。MGX系统的核心在于两块Blackwell芯片,每个节点都集成了四个Blackwell芯片。它采用了液体冷却技术,确保了高效稳定的运行。
整个系统中,这样的节点共有九个,共计72个GPU,构成了一个庞大的计算集群。这些GPU通过全新的NV链接技术紧密相连,形成了一个无缝的计算网络。NV链接交换机堪称技术奇迹。它是目前世界上最先进的交换机,数据传输速率令人咋舌。这些交换机使得每个Blackwell芯片高效连接,形成了一个巨大的72 GPU集群。
这一集群的优势何在?首先,在GPU域中,它现在表现得就像一个单一的、超大规模的GPU。这个“超级GPU”拥有72个GPU的核心能力,相较于上一代的8个GPU,性能提升了9倍。同时,带宽增加了18倍,AI FLOPS(每秒浮点运算次数)更是提升了45倍,而功率仅增加了10倍。也就是说,一个这样的系统能提供100千瓦的强劲动力,而上一代仅为10千瓦。
当然,你还可以将更多的这些系统连接在一起,形成更庞大的计算网络。但真正的奇迹在于这个NV链接芯片,随着大语言模型的日益庞大,其重要性也日益凸显。因为这些大语言模型已经不适合单独放在一个GPU或节点上运行,它们需要整个GPU机架的协同工作。就像我刚才提到的那个新DGX系统,它能够容纳参数达到数十万亿的大语言模型。
NV链接交换机本身就是一个技术奇迹,拥有500亿个晶体管,74个端口,每个端口的数据速率高达400 GB。但更重要的是,交换机内部还集成了数学运算功能,可以直接进行归约操作,这在深度学习中具有极其重要的意义。这就是现在的DGX系统的全新面貌。
许多人对我们表示好奇。他们提出疑问,对英伟达的业务范畴存在误解。人们疑惑,英伟达怎么可能仅凭制造GPU就变得如此庞大。因此,很多人形成了这样一种印象:GPU就应该是某种特定的样子。
然而,现在我要展示给你们的是,这确实是一个GPU,但它并非你们想象中的那种。这是世界上最先进的GPU之一,但它主要用于游戏领域。但我们都清楚,GPU的真正力量远不止于此。
各位,请看这个,这才是GPU的真正形态。这是DGX GPU,专为深度学习而设计。这个GPU的背面连接着NV链接主干,这个主干由5000条线公里。这些线,就是NV链接主干,它们连接了70个GPU,形成一个强大的计算网络。这是一个电子机械奇迹,其中的收发器让我们能够在铜线上驱动信号贯穿整个长度。
因此,这个NV链接交换机通过NV链接主干在铜线上传输数据,使我们能够在单个机架中节省20千瓦的电力,而这20千瓦现在可以完全用于数据处理,这的确是一项令人难以置信的成就。这就是NV链接主干的力量。
但这还不足以满足需求,特别是对于大型人工智能工厂来说更是如此,那么我们还有另一种解决方案。我们必须使用高速网络将这些人工智能工厂连接起来。我们有两种网络选择:InfiniBand和以太网。其中,InfiniBand已经在全球各地的超级计算和人工智能工厂中广泛使用,并且增长迅速。然而,并非每个数据中心都能直接使用InfiniBand,因为他们在以太网生态系统上进行了大量投资,而且管理InfiniBand交换机和网络确实需要一定的专业知识和技术。
因此,我们的解决方案是将InfiniBand的性能带到以太网架构中,这并非易事。原因在于,每个节点、每台计算机通常与互联网上的不同用户相连,但大多数通信实际上发生在数据中心内部,即数据中心与互联网另一端用户之间的数据传输。然而,在人工智能工厂的深度学习场景下,GPU并不是与互联网上的用户进行通信,而是彼此之间进行频繁的、密集的数据交换。
它们相互通信是因为它们都在收集部分结果。然后它们必须将这些部分结果进行规约(reduce)并重新分配(redistribute)。这种通信模式的特点是高度突发性的流量。重要的不是平均吞吐量,而是最后一个到达的数据,因为如果你正在从所有人那里收集部分结果,并且我试图接收你所有的部分结果,如果最后一个数据包晚到了,那么整个操作就会延迟。对于人工智能工厂而言,延迟是一个至关重要的问题。
所以,我们关注的焦点并非平均吞吐量,而是确保最后一个数据包能够准时、无误地抵达。然而,传统的以太网并未针对这种高度同步化、低延迟的需求进行优化。为了满足这一需求,我们创造性地设计了一个端到端的架构,使NIC(网络接口卡)和交换机能够通信。为了实现这一目标,我们采用了四种关键技术:
第一,英伟达拥有业界领先的RDMA(远程直接内存访问)技术。现在,我们有了以太网网络级别的RDMA,它的表现非常出色。
第二,我们引入了拥塞控制机制。交换机具备实时遥测功能,能够迅速识别并响应网络中的拥塞情况。当GPU或NIC发送的数据量过大时,交换机会立即发出信号,告知它们减缓发送速率,从而有效避免网络热点的产生。
第三,我们采用了自适应路由技术。传统以太网按固定顺序传输数据,但在我们的架构中,我们能够根据实时网络状况进行灵活调整。当发现拥塞或某些端口空闲时,我们可以将数据包发送到这些空闲端口,再由另一端的Bluefield设备重新排序,确保数据按正确顺序返回。这种自适应路由技术极大地提高了网络的灵活性和效率。
第四,我们实施了噪声隔离技术。在数据中心中,多个模型同时训练产生的噪声和流量可能会相互干扰,并导致抖动。我们的噪声隔离技术能够有效地隔离这些噪声,确保关键数据包的传输不受影响。
通过采用这些技术,我们成功地为人工智能工厂提供了高性能、低延迟的网络解决方案。在价值高达数十亿美元的数据中心中,如果网络利用率提升40%而训练时间缩短20%,这实际上意味着价值50亿美元的数据中心在性能上等同于一个60亿美元的数据中心,揭示了网络性能对整体成本效益的显著影响。
幸运的是,带有Spectrum X的以太网技术正是我们实现这一目标的关键,它大大提高了网络性能,使得网络成本相对于整个数据中心而言几乎可以忽略不计。这无疑是我们在网络技术领域取得的一大成就。
我们拥有一系列强大的以太网产品线,其中最引人注目的是Spectrum X800。这款设备以每秒51.2 TB的速度和256路径(radix)的支持能力,为成千上万的GPU提供了高效的网络连接。接下来,我们计划一年后推出X800 Ultra,它将支持高达512路径的512 radix,进一步提升了网络容量和性能。而X 1600则是为更大规模的数据中心设计的,能够满足数百万个GPU的通信需求。
随着技术的不断进步,数百万个GPU的数据中心时代已经指日可待。这一趋势的背后有着深刻的原因。一方面,我们渴望训练更大、更复杂的模型;但更重要的是,未来的互联网和计算机交互将越来越多地依赖于云端的生成式人工智能。这些AI将与我们一起工作、互动,生成视频、图像、文本甚至数字人。因此,我们与计算机的每一次交互几乎都离不开生成式人工智能的参与。并且总是有一个生成式人工智能与之相连,其中一些在本地运行,一些在你的设备上运行,很多可能在云端运行。
这些生成式人工智能不仅具备强大的推理能力,还能对答案进行迭代优化,以提高答案的质量。这意味着我们未来将产生海量的数据生成需求。今晚,我们共同见证了这一技术革新的力量。
Blackwell,作为NVIDIA平台的第一代产品,自推出以来便备受瞩目。如今,全球范围内都迎来了生成式人工智能的时代,这是一个全新的工业革命的开端,每个角落都在意识到人工智能工厂的重要性。我们深感荣幸,获得了来自各行各业的广泛支持,包括每一家OEM(原始设备制造商)、电脑制造商、CSP(云服务提供商)、GPU云、主权云以及电信公司等。
Blackwell的成功、广泛的采用以及行业对其的热情都达到了前所未有的高度,这让我们深感欣慰,并在此向大家表示衷心的感谢。然而,我们的脚步不会因此而停歇。在这个飞速发展的时代,我们将继续努力提升产品性能,降低培训和推理的成本,同时不断扩展人工智能的能力,使每一家企业都能从中受益。我们坚信,随着性能的提升,成本将进一步降低。而Hopper平台,无疑可能是历史上最成功的数据中心处理器。
这确实是一个震撼人心的成功故事。Blackwell平台的诞生,正如大家所见,并非单一组件的堆砌,而是一个综合了CPU、GPU、NVLink、NICK(特定技术组件)以及NVLink交换机等多个元素的完整系统。我们致力于通过每代产品使用大型、超高速的交换机将所有GPU紧密连接,形成一个庞大且高效的计算域。
我们将整个平台集成到人工智能工厂中,但更为关键的是,我们将这一平台以模块化的形式提供给全球客户。这样做的初衷在于,我们期望每一位合作伙伴都能根据自身的需求,创造出独特且富有创新性的配置,以适应不同风格的数据中心、不同的客户群体和多样化的应用场景。从边缘计算到电信领域,只要系统保持开放,各种创新都将成为可能。
为了让你们能够自由创新,我们设计了一个一体化的平台,但同时又以分解的形式提供给你们,使你们能够轻松构建模块化系统。现在,Blackwell平台已经全面登场。
英伟达始终坚持每年一次的更新节奏。我们的核心理念非常明确:1)构建覆盖整个数据中心规模的解决方案;2)将这些解决方案分解为各个部件,以每年一次的频率向全球客户推出;3)我们不遗余力地将所有技术推向极限,无论是的工艺技术、封装技术、内存技术,还是光学技术等,我们都追求极致的性能表现。
在完成硬件的极限挑战后,我们将全力以赴确保所有软件都能在这个完整的平台上顺畅运行。在计算机技术中,软件惯性至关重要。当我们的计算机平台能够向后兼容,且架构上与已有软件完美契合时,产品的上市速度将显著提升。因此,当Blackwell平台问世时,我们能够充分利用已构建的软件生态基础,实现惊人的市场响应速度。明年,我们将迎来Blackwell Ultra。
正如我们曾推出的H100和H200系列一样,Blackwell Ultra也将引领新一代产品的热潮,带来前所未有的创新体验。同时,我们将继续挑战技术的极限,推出下一代频谱交换机,这是行业内的首次尝试。这一重大突破已经成功实现,尽管我现在对于公开这个决定还心存些许犹豫。
在英伟达内部,我们习惯于使用代码名并保持一定的保密性。很多时候,连公司内部的大多数员工都不甚了解这些秘密。然而,我们的下一代平台已被命名为Rubin。关于Rubin,我不会在此过多赘述。我深知大家的好奇心,但请允许我保持一些神秘感。你们或许已经迫不及待想要拍照留念,或是仔细研究那些小字部分,那就请随意吧。
我们不仅有Rubin平台,一年后还将推出Rubin Ultra平台。在此展示的所有芯片都处于全面开发阶段,确保每一个细节都经过精心打磨。我们的更新节奏依然是一年一次,始终追求技术的极致,同时确保所有产品都保持100%的架构兼容性。
回顾过去的12年,从Imagenet诞生的那一刻起,我们就预见到计算领域的未来将会发生翻天覆地的变化。如今,这一切都成为了现实,与我们当初的设想不谋而合。从2012年之前的GeForce到如今的英伟达,公司经历了巨大的转变。在此,我要衷心感谢所有合作伙伴的一路支持与陪伴。
这就是英伟达的Blackwell平台,接下来,让我们谈谈人工智能与相结合的未来。
物理人工智能正引领人工智能领域的新浪潮,它们深谙物理定律,并能自如地融入我们的日常生活。为此,物理人工智能不仅需要构建一个精准的世界模型,以理解如何解读和感知周围世界,更需具备卓越的认知能力,以深刻理解我们的需求并高效执行任务。
展望未来,机器人技术将不再是一个遥不可及的概念,而是日益融入我们的日常生活。当提及机器人技术时,人们往往会联想到人形机器人,但实际上,它的应用远不止于此。机械化将成为常态,工厂将全面实现自动化,机器人将协同工作,制造出一系列机械化产品。它们之间的互动将更加密切,共同创造出一个高度自动化的生产环境。
为了实现这一目标,我们需要克服一系列技术挑战。接下来,我将通过视频展示这些前沿技术。
我们将通过多种方式服务市场。首先,我们致力于为不同类型的机器人系统打造平台:机器人工厂与仓库专用平台、物体操纵机器人平台、移动机器人平台,以及人形机器人平台。这些机器人平台与我们其他众多业务一样,依托于计算机加速库和预训练模型。
我们运用计算机加速库、预训练模型,并在Omniverse中进行全方位的测试、训练和集成。正如视频所示,Omniverse是机器人学习如何更好地适应现实世界的地方。当然,机器人仓库的生态系统极为复杂,需要众多公司、工具和技术来共同构建现代化的仓库。如今,仓库正逐步迈向全面机械化,终有一天将实现完全自动化。
在这样一个生态系统中,我们为软件行业、边缘人工智能行业和公司提供了SDK和API接口,同时也为PLC和机器人系统设计了专用系统,以满足国防部等特定领域的需求。这些系统通过集成商整合,最终为客户打造高效、智能的仓库。举个例子,Ken Mac正在为Giant Giant集团构建一座机器人仓库。
接下来,让我们聚焦工厂领域。工厂的生态系统截然不同。以富士康为例,他们正在建设世界上一些最先进的工厂。这些工厂的生态系统同样涵盖了机、机器人软件,用于设计工厂布局、优化工作流程、编程机器人,以及用于协调数字工厂和人工智能工厂的PLC计算机。我们同样为这些生态系统中的每一个环节提供了SDK接口。
这样的变革正在全球范围内上演。和Delta正为其工厂构建设施,实现现实与数字的完美融合,而Omniverse在其中扮演了至关重要的角色。同样值得一提的是,和硕与Wistron也在紧随潮流,为各自的机器人工厂建立设施。
机器人工厂由三个主要计算机系统组成,在NVIDIA AI平台上训练人工智能模型,我们确保机器人在本地系统上高效运行以编排工厂流程。同时,我们利用Omniverse这一模拟协作平台,对包括机械臂和AMR(自主移动机器人)在内的所有工厂元素进行模拟。值得一提的是,这些模拟系统均共享同一个虚拟空间,实现无缝的交互与协作。
当机械臂和AMR进入这个共享的虚拟空间时,它们能够在Omniverse中模拟出真实的工厂环境,确保在实际部署前进行充分的验证和优化。
为了逐步提升解决方案的集成度和应用范围,我们提供了三款高性能计算机,并配备了加速层和预训练人工智能模型。此外,我们已成功将NVIDIA Manipulator和Omniverse与西门子的工业自动化软件和系统相结合。这种合作使得西门子在全球各地的工厂中都能够实现更高效的机器人操作和自动化。
机器人技术和物理人工智能的时代已经到来,它们正在各地被广泛应用,这并非科幻,而是现实,令人倍感振奋。展望未来,工厂内的机器人将成为主流,它们将制造所有的产品,其中两个高产量机器人产品尤为引人注目。首先是自动驾驶汽车或具备高度自主能力的汽车,英伟达再次凭借其全面的技术堆栈在这一领域发挥了核心作用。明年,我们计划与梅赛德斯-奔驰车队携手,随后在2026年与捷豹路虎(JLR)车队合作。咱们提供完整的解决方案堆栈,但客户可根据需求选择其中的任何部分或层级,因为整个驱动堆栈都是开放和灵活的。
接下来,另一个可能由机器人工厂高产量制造的产品是人形机器人。近年来,在认知能力和世界理解能力方面取得了巨大突破,这一领域的发展前途令人期待。我对人形机器人特别兴奋,因为它们最大有可能适应我们为人类所构建的世界。
与其他类型的机器人相比,训练人形机器人需要大量的数据。由于我们拥有相似的体型,通过演示和视频能力提供的大量训练数据将极具价值。因此,我们预计这一领域将取得显著的进步。
现在,让我们欢迎一些特别的机器人朋友。机器人时代已经来临,这是人工智能的下一波浪潮。中国台湾制造的计算机种类非常之多,既有配备键盘的传统机型,也有小巧轻便、便于携带的移动电子设备,以及为云端数据中心提供强大算力的专业设备。但展望未来,我们将见证一个更为激动人心的时刻——制造会走路、四处滚动的计算机,即智能机器人。
这些人与我们所熟知的计算机在技术上有着惊为天人的相似性,它们都是基于先进的硬件和软件技术构建的。因此,我们有理由相信,这将是一段真正非凡的旅程!