谷歌Gemini 15深夜爆炸上线史诗级多模态硬刚GPT-5_新闻中心

谷歌Gemini 15深夜爆炸上线史诗级多模态硬刚GPT-5

2024-02-16 新闻中心

自家最强的Gemini 1.0 Ultra才发布没几天，谷歌又放大招了。

不难想象，在百万级token上下文的加持下，我们大家可以更加轻易地与数十万字的超长文档、拥有数百个文件的数十万行代码库、一部完整的电影等等进行交互。

在上下文窗口方面，此前的SOTA模型已经「卷」到了200K token（20万）。

如今，谷歌成功将这一个数字大幅度的提高——能够稳定处理高达100万token（极限为1000万token），创下了最长上下文窗口的纪录。

首先，我们一起看看Gemini 1.5 Pro在多模态海底捞针测试中的成绩。

甚至在处理高达10,000,000 token的文本时，检索准确性仍然高达99.2%。

在音频处理方面，Gemini 1.5 Pro能够在大约11小时的音频资料中，100%成功检索到各种隐藏的音频片段。

在视频处理方面，Gemini 1.5 Pro能够在大约3小时的视频内容中，100%成功检索到各种隐藏的视觉元素。

在这个测试中，模型需要在一定的文本范围内检索到100个不同的特定信息片段。

在这个测试中，Gemini 1.5 Pro在较短的文本长度上的性能超过了GPT-4-Turbo，并且在整个100万token的范围内保持了相对来说比较稳定的表现。

与之对比鲜明的是，GPT-4 Turbo的性能则飞速下降，且无法处理超过128,000 token的文本，表现惨烈。

模型的上下文窗口由许多token组成，它们是处理单词、图像、视频、音频、代码这一些信息的基础构建。

模型的上下文窗口越大，它处理给定提示时能够接纳的信息就越多——这就使得它的输出更加连贯、相关和实用。

而这次，谷歌通过一系列机器学习的创新，大幅度的提高了1.5 Pro的上下文窗口容量，从Gemini 1.0的原始32,000 token，直接提升到了惊人的1,000,000 token。

这就意味着，1.5 Pro能够一次性处理海量信息——比如1小时的视频、11小时的音频、超过30,000行的代码库，或是超过700,000个单词。

脱胎换骨的Gemini 1.5 Pro，已能轻松地分析给定提示中的海量内容！

我们甩给它一份阿波罗11号任务到月球的402页飞行记录，它对于多复杂的信息，都能表现出深刻的理解。

这次，谷歌还新增了一个功能，允许开发者上传多个文件（比如PDF），并提出问题。

更大的上下文窗口，就让模型可处理更多详细的信息，从而让输出结果更加一致、相关且实用。

与此同时，Gemini 1.5 Pro还能够在视频中展现出深度的理解和推理能力！

得益于Gemini的多模态能力，上传的视频会被拆分成数千个画面（不包括音频），以便执行复杂的推理和问题解决任务。

比如，输入这部44分钟的无声电影——Buster Keaton主演的经典之作《小神探夏洛克》。

模型不仅仅可以精准地捕捉到电影的各个情节和发展，还能洞察到极易被忽略的细微之处。

我们可以问它：找到一张纸从主角口袋中被拿出的瞬间，然后告诉我关于这一个细节的信息。

令人惊喜的是，模型大约用了60秒左右就准确地找出，这个镜头是在电影的12:01，还描述出了相关细节。

输入一张粗略的涂鸦，要求模型找到电影中的对应场景，模型也在一分钟内找到了答案。

不仅如此，Gemini 1.5 Pro在处理长达超过100,000行的代码时，还具备极强的问题解决能力。

面对如此庞大的代码量，它不仅仅可以深入分析各个示例，提出实用的修改意见，还能详细解释代码的每个部分是如何协同工作的。

Gemini 1.5的设计，基于的是谷歌在Transformer和混合专家（MoE）架构方面的前沿研究。

不同于传统的作为一个庞大的神经网络运行的Transformer，MoE模型由众多小型的「专家」神经网络组成。

Gemini 1.5的架构创新带来的，不单单是更迅速地掌握复杂任务、保持高质量输出，在训练和部署上也变得更高效。

在涵盖文本、代码、图像、音频和视频的综合性测试中，1.5 Pro在87%的基准测试上超越了1.0 Pro。

与1.0 Ultra在相同基准测试的比较中，1.5 Pro的表现也相差无几。

Gemini 1.5 Pro在扩大上下文窗口后，依然保持了高水平的性能。在「大海捞针 (NIAH)」测试中，它能够在长达100万token的文本块中，在99%的情况下，准确找出隐藏有特定信息的文本片段。

此外，Gemini 1.5 Pro展现了卓越的「上下文学习」能力，能够仅凭长提示中提供的信息掌握新技能，无需进一步细化调整。

这一能力在「从一本书学习机器翻译 (MTOB)」基准测试中得到了验证，该测试检验了模型学习从未接触过的信息的能力。

对于一本关于全球不足200人使用的Kalamang语的语法手册，模型能够学会将英语翻译成Kalamang，学习效果与人类学习相似。

谷歌的研究者成功地增强了模型处理长文本的能力，而且这种增强并没影响到模型的其他功能。

虽然这项改进只用了Gemini 1.0 Ultra模型训练时间的一小部分，但1.5 Pro模型在31项性能测试中的17项上超过了1.0 Ultra模型。

与1.0 Pro模型相比，1.5 Pro在31项测试中的27项上，表现更佳。

借助这个代码库作为背景，系统可以帮助用户深入理解代码，并可以依据人们提出的高层次要求来修改复杂的示例。

比如：「展示一些代码，用于添加一个滑块控制动画速度。采用和其他演示相同的GUI风格。」

在这个例子中，模型可处理整个包含116个文件的JAX代码库（746k token），并协助用户找到实现自动微分反向传播的确切代码位置。

显然，在进一步探索一个陌生的代码库或日常工作中使用的代码库时，长上下文解决能力的价值不言而喻。

许多Gemini小组成员已经发现，Gemini 1.5 Pro的长上下文处理功能，对于Gemini 代码库大有裨益。

同时，模型在分析长篇、复杂的文本文档方面也很出色，例如雨果的五卷本小说《悲惨世界》（共1382页，含732,000个token）。

下面这个简单的实验，就展示了模型的多模态能力：粗略地画出一个场景，并询问「请看这幅图画中的事件发生在书的哪一页？」

卡拉曼语是新几内亚西部、印度尼西亚巴布亚东部不足200人使用的语言，几乎未在网络上留下足迹。

Gemini Pro 1.5通过上下文学习掌握了Kalamang语的知识，其翻译质量可与使用相同材料学习的人相媲美。

在英语到卡拉曼语的翻译中，Gemini Pro 1.5的ChrF达到了58.3，大幅超过了以往最好的模型得分45.8 ChrF，并略高于MTOB论文报告的57.0 ChrF人类基准。

Gemini 1.5的诞生，意味着性能的阶段飞跃，标志着谷歌在研究和工程创新上，又迈出了登月般的一步。

[上一篇] 航宇微：玉龙（YULONG）是公司推出的新一代嵌入式人工智能系列处理器芯片芯片聚集于前端图画处理、前端信号和智能操控具有深度学习、神经网络算法的渠道加快才能

[下一篇] 职坐标：未来高薪行业中的A与深度学习的崛起