李开复：中国大模型竞争异常激烈最终将有几个大赢家_智慧地灾

2023-12-30 智慧地灾

），这是一家总部在北京的初创公司，专注于开发大语言模型（LLM）。上个月，该公司完成了一轮融资，估值高达 10 亿美元。

中国最大的网络公司，如阿里巴巴、腾讯、百度和字节跳动等，以及众多初创公司，都在竞相开发自己的大语言模型。有媒体称之为“百模大战”，这些科技公司正为在AI领域占据主导地位而展开激烈竞争。李开复在接受媒体采访时表示，这一些企业正处于证明其拥有开发高质量模型技术的阶段。而那些通过考验的公司将迈向下一阶段，即如何增加收入并实现盈利。

李开复预测：“在中国，最终将有几家大赢家崭露头角，部分公司可能会体面地退出市场。但大多数企业要么半途而废，要么转向更为实际的目标，如为特定行业构建应用和解决方案”

零一万物成立于今年 3 月份，目前拥有 100 多名员工，其中大部分在北京工作。上个月，该公司发布了其首个开源大语言模型 Yi-34B，但它未来的收入并不仅依赖于此模型。相反，其商业计划是出售专有的大语言模型，主要面向中国市场。据李开复透露，该公司目前正在开发一种新的、拥有超过 1000 亿个参数的专有模型。

然而，在 Yi-34B 迅速登上 Hugging Face 的开源大语言模型排行榜榜首后，零一万物引发了一些争议。有开发者发现该模型似乎使用了 Meta 的开源人工智能模型 Llama，但并未在有关的资料中说到这件事。为此，零一万物后来重新命名了 Yi-34B 的一部分，并公开承认了 Llama 的贡献。李开复也为他们之前的疏忽公开道歉。

在接受科技媒体 The Information 的采访时，李开复谈到了零一万物的未来以及中国AI产业的趋势。他还谈到了怎么样应对美国的芯片出口限制，以及中国公司如何在全世界内寻找商机。

李开复：在我看来，这样的一种情况在中国早已屡见不鲜。例如团购风潮、共享自行车应用的兴起，甚至在深度科技领域，比如计算机视觉和语音识别技术。当计算机视觉证明其价值时，无数中国企业争先恐后地涌入，试图在各种可能的应用中分一杯羹。然而，大多数企业并未能幸存下来。

如今，中国的AI领域仍处于预选赛阶段，竞争异常激烈，甚至有可能超过美国。首先，我们应该面对的考验是：在百家争鸣的竞争中，哪家企业能开发出真正具有高质量和高价值的模型？只有技术过硬，模型表现出色，才能在实际应用中脱颖而出。否则，技术只能沦为“玩具”，而不可以真正解决问题。

通过预选赛的技术考验后，企业将进入下一阶段：如何增加商业经济价值？你的商业模式是什么？如何盈利？很快，投资者将提出与云提供商、企业软件公司和消费的人应用程序相同的问题。若企业不能给出明确的答案，那么它们的增长将面临终结。

以美国为例，OpenAI 已经证明了其在技术上的领头羊，同时也能够创造收入。这种价值创造使得其他公司愿意为其投入资源，并在此基础上构建应用。

而在中国，最终将有几家大赢家崭露头角，部分公司可能会体面地退出市场。但大多数企业要么半途而废，要么转向更为实际的目标，如为特定行业构建应用和解决方案，而不是单纯地追求大模型的研发。跟着时间的推移，研发大模型的成本将会不断攀升。

问：中国人工智能初创公司及其投资者表示，中国将为生成式人工智能模型和应用开发自己的生态系统。你认为呢？

李开复：我们都明白，平行宇宙并不是我们想要看到的。我们更倾向于在全世界内展开竞争，让真正出色的公司脱颖而出，这样效率才更高。但现实却是，我们没办法完全掌控自己的命运。

特别是地理政治学问题。如果我们想进入美国市场，虽然没有规定说我们不能进入，但我不认为我们会得到很多业务。因为在我看来，当前美国市场对中国软件存在一种不公平的偏见。这是我们不得已面对的现实。

当然，我们对全球别的地方的商机持开放态度，但我们深知，有些事情是行不通的。比如，想把我们的专有模型卖给美国公司，这几乎不可能。他们不会买账的，我们也不会做无用功。

中国显然代表着一个巨大的机遇，但我不会将中国公司可能进入的世界别的地方排除在外。总体而言，硅谷的做法是“一刀切”，这种模式在诸如 Facebook 和谷歌等公司的崛起中起到了关键作用，并帮助美国获得了主导地位。但这次不同了，因为大语言模型是在数据基础上进行训练的。数据涉及到偏见、意识形态和价值观等问题。美国的价值观并非在所有国家都受欢迎，不仅是在中国，甚至有些国家根本没办法接受。

我认为中东可能是另一个想要以不同方式思考问题的地区。这促使各国想要更多地对模型进行控制。

我坚信，为不同国家构建具有特殊性的模型是有可能的。硅谷的公司不会这么做，因为他们都以为自己的价值观是正确的，并希望更多的人可接受并融入其中。而且，为不同市场构建不同的大模型需要大量的工程工作，所以硅谷的公司自然不愿意投入这些模型的开发。而来自世界别的地方（包括中国）的公司，可能有机会深入研究这种模型。但显然，他们必赢得用户和各国政府的信任。

问：有新闻媒体报道称，贵公司成功降低了 Yi-34B 的人工智能培训成本。你们是怎么样才能做到的？

李开复：我们有一支超级强大的基础设施团队，他们可是我们公司最大的队伍。我以前就跟员工们说过，每加一个建模人员，图形处理单元的负担就重一分；但是每加一个基础设施人员，图形处理单元的效率就能提升一些。当然，建模团队也很重要，不过从一开始，我们就很重视基础设施团队的建设。

这些基础设施团队的成员就像是无名英雄一样。他们得负责硬件、软件还有海量的数据传输，得同时处理图形处理单元、内存和网络，这三者中的任何一个都有几率会成为瓶颈。要知道，图形处理单元扩展到几千以上会很难。从 2000 个增加到 8000 个的时候，可不是简单地用软件就能搞定的，因为模型和数据量一大，网络需求就会有天翻地覆的变化。

我们的基础设施团队里有好几十名工程师，是目前零一万物最大的团队。他们得研究怎么用 FP8（英伟达 H100 芯片的数据格式）来大幅度减少计算量，这可不是一件容易的事。他们得弄清楚在哪里用 FP8，在哪里用其他格式，还得保证它们之间的转换天衣无缝。除了这些，他们还得解决一系列头疼问题，比如应该使用什么网络协议、怎么优化编译器、如何正确地处理图形处理单元故障等等。实际上，图形处理单元出故障的频率高得吓人。要是一个图形处理单元发生故障，能不能热插拔呢？我们还在努力解决这一个问题。想想看：要是在一个拥有上千个图形处理单元的集群里，就因为一个图形处理单元坏了而让你的训练停了一个小时，那要是能热插拔，你每天就能省下一个小时！这些时间能积少成多。

还有一个相关的话题就是弹性训练。假设你有一个由 2000 个 H100 芯片组成的集群，而你只需要 500 个来执行某个任务，那你能不能在检查点之间把它们移走，然后再加回来呢？这些任务可不是AI研究人员该干的，他们更多属于网络工程师的工作。

如果把大语言模型的开发比作火箭科学的话，那就像没有工程师，火箭就永远飞不起来一样。SpaceX 的成功可不仅仅是因为它有大量研究人员，还因为它做了大量超级复杂的工程工作。同样地，我们的基础设施团队就是我们的“工程师”，他们的工作让我们的大语言模型能够顺利起飞！

问：美国限制向中国出口先进的半导体技术，包括英伟达的先进芯片。零一万物是怎么样应对的？

李开复：我曾公开说过，我们的芯片库存足够维持 18 个月。这些绝大多数都是在限制措施出台前我们获得的芯片。我们肯定在努力研究怎么样使用中国芯片。但这并不是特别容易，绝不好玩。对它们进行编程不是我们所熟悉的领域。但如果我们一定要要这么做，我们也不会退缩。

英伟达很有出色的芯片，但有人可能会说，更简单的芯片可以以更低的成本完成这项工作。但英伟达实力背后的一个重要的因素是围绕其 CUDA 软件库的整个生态系统，它使得编程变得更简单。如果你强迫工程师们使用非英伟达的芯片，他们可能会反对，因为这类芯片的效率要低得多。但我们目前面临的困境要到 18 个月后才会显现，而我们一定要更早开始行动。如果我们没办法获得英伟达的芯片，我们将寻找更简单的芯片，更专注于转换器，但它们将是一个痛苦的编程过程。可是，如果我们别无选择，那就只能这么做。

但大家都知道，中国工程师有能力、有意愿，而且在处理这种被认为是艰苦的工程挑战方面表现出色。这与我之前所说的基础设施团队的工作类似。学习用非常少的库来编写新的非标准 GPU 也是一项繁重的工作。

中国企业家是顽强的。中国工程师很勤劳。他们不怕繁重的工作。这正是美团提供卓越服务的原因，也是微信成为卓越产品的原因。的确，我们前面有许多困难的挑战，你可以说它们是荒度时间和很多人的精力。但这是我们手中的牌，所以我们会尽我们最大的努力打好这些牌。

广告声明：文内含有的对外跳转链接（包括不限于超链接、二维码、口令等形式），用于传递更加多信息，节省甄选时间，结果仅供参考，IT之家所有文章均包含本声明。

[上一篇] 2016人工智能之计算机视觉应用专题报告

[下一篇] 《人生若如初见》收官以青年求索精力传递年代价值