< 【48812】分散型Transformer架构相关论文_华体会手机版_华体育app官网登录|华体会手机版

  据报道,传统的分散模型的练习进程是经过多个过程逐渐向图片添加噪点,直到图片变成完全无结构的噪点图片,然后在生成图片时,逐渐削减噪点,直到复原出一张明晰的图片。Sora选用的架构是经过Transformer的编码器-解码器架构处理包括噪点的输入图画,并在每一步预测出更明晰的图画。DiT架构结合时空Patch,让Sora可以在更多的数据上进行练习,输出质量也得到大幅进步。

  但是,戏剧化的是,Meta的AI科学家Yann LeCun在X平台上泄漏,“这篇论文曾在2023年的计算机视觉会议(CVR2023)上因‘短少立异性’而遭到回绝,但在2023年世界计算机视觉会议(ICCV2023)上被承受宣布,而且构成了Sora的根底。”

  作为最懂DiT架构的人之一,在Sora发布后,Saining Xie在X平台上宣布了关于Sora的一些猜测和技能解说,并表明,“Sora的确令人惊叹,它将彻底改变视频生成范畴。”

  “当Bill和我参加DiT项目时,咱们并未专心于立异,而是将要点放在了两个方面:简洁性和可扩展性。”他写道。“简洁性代表着灵敏性。关于规范的ViT,人们常忽视的一个亮点是,它让模型在处理输入数据时变得更灵敏。例如,在遮盖自编码器(MAE)中,ViT让咱们只处理可见的区块,疏忽被遮盖的部分。相同,Sora可以终究靠在恰当巨细的网格中摆放随机初始化的区块来操控生成视频的尺度。”

  不过,他以为,关于Sora仍有两个要害点没有被提及。一是关于练习数据的来历和构建,这在某种程度上预示着数据很可能是Sora成功的重要的条件;二是关于(自回归的)长视频生成,Sora的一大打破是可以生生长视频,但OpenAI没有提醒相关的技能细节。

CONTACT US
欢迎随时与我们联系