< Transformer在计算机视觉中的应用-VIT、TNT模型_新闻中心_华体育app官网登录|华体会手机版
2024-05-30 新闻中心

  Transforme这一模型并不难,依旧是传统机器翻译模型中常见的seq2seq网络,里面加入了注意力机制,QKV矩阵的运算使得计算并行。

  CNN依旧是十分优秀的特征提取器,然而注意力机制的出现使得CNN隐含的一些问题显露了出来

  CNN中一个很重要的概念是感受野,一开始神经网络渐层的的卷积核中只能看到一些线条边角等信息,而后才能不断加大,看到一个小小的“面”,看到鼻子眼睛,再到后来看到整个头部。一方面的问题是:做到这些需要网络层数不断地加深(不考虑卷积核的大小),感受野才会变大;另一方面的问题是:特征图所表达出来的信息往往是十分抽象的,我们不清楚到底要多少层也不清楚每层的抽象信息是否都有用(ResNet出现)。

  假设我们的脸贴在一幅画上,我们没办法看出一幅画里都有什么;“管中窥豹”、“坐井观天”、“一叶障目” 等都是我们此时的感受野太小了;稍微抬下头,我们正真看到了画中的人;稍微站得远一步,我们正真看到了整幅画从脑中的经验得知,这是《清明上河图》。

  上面这样的一种情况是我们机械的从视野的角度去分辨看待事物,然而我们是人类,我们拥有注意力。

  我们会在区分狮子还是老虎时,更注意看它们的毛发,它们的头上有没有“王”。

  回想注意力机制的特点,它是从整体上观察我们应该什么,要注意的地方在哪里。既然是在整体上观察,那么其“感受野”,一定就相当于许多层之后的CNN了。

  接下来就是该怎么做了,由于Transofrmer是序列到序列模型,我们需要把图像信息转为序列传给Encoder。

  观察上图左下角,一个完整的图片,我们可以把它切割成9份(举例),9个patch,每一份比如说是10x10x3的矩阵。将每一份通过一次卷积变成1x300的矩阵,由此变成序列。

  我们上面把一张图片切成了9份,每份都有建筑物的一部分,要让计算机更好地识别出图片内容,这9份应当给它们加上序号,即位置编码。

  当然,该论文进行的是分类任务,位置编码1D和2D确实没有太大区别。但如果放在分割等任务就不一定了。

  可以看到,上图除了1-9以外,还存在一个序列0,我们把这个0叫做token。这个token一般只用于分类任务,而检测分割一般用不到。

  当把0号token+序列1-9传递给Encoder后,它内部进行QKV计算,和权重矩阵计算转变为QKV矩阵继续计算。其本质就是0号token+序列1-9这10个序列点积,这样0号token中就是存储着序列1-9的特征9个patch的。如此经过L轮,经过L轮计算,0号token中的信息就是全局信息了。

  如上,Embedded Patches+位置编码后经过层归一化,多头注意力,层归一化,全连接,期间还有这残差连接。

  就像 一 中末尾说的那样,它是从整体上观察我们要说明,要注意的地方在哪里。既然是在整体上观察,那么其“感受野”,一定就等于许多层之后的CNN了。

  因为0号token是最后拿去进行分类的,在计算时,第一层第一次的计算0号就分别于1-9patch进行了点积,这9个局部信息组成的整体便是这张图片。

  上图能够正常的看到,这样做在浅层就能获得较大的范围信息;可能5层就做得比CNN好了;全局信息丰富,更有助于理解图像。

  E表示的是全连接,P²·C的矩阵映射为P²·D维。后面的则是位置编码,(N+1)·D维,N是N个patch,+1是因为前面所提的0号token。

  然后就是进行多轮多头注意力机制的运算,MSA是多头注意力,LN是层归一化,MLP是全连接。后面的加法是残差连接。

  其中ViT后面的16 14 32指的是patch的大小,对于一张图片来说,patch越大窗口数量越少,patch越小窗口数量越多。

  在VIT中,只针对patch进行了建模,比如一个patch是16*16*C (其中C是特征图个数,可能是256、512等)。每个patch可能有点大了,越大的patch所蕴含的信息就越多,学习起来难度就越大。

  因此,一方面能够基于patch去做,另一方面还可以把patch再分得细一点,如16*16分成4个4*4。

  内部把每个patch组成多个超像素(4个像素点),把重组的序列继续做Transformer。

  以16*16为例,序列的长度就是256了,太长了太慢了效率低,且通常一个像素点也不能表达什么信息。至少也是4个点。因此内部将每个patch拆分成很多个4*4的小块,即分成更多个batch,然后重组。

  以内部的一个16*16*3的patch为例,拆分成4*4的超像素,结果就是每一个超像素,每一个小patch上特征的个数。

  之前一个点上有3个channel的信息,而现在一个点上有48个。patch变小了但浓缩了。

  把这些小patch整合在一起,全连接,之后的Transformer与前面一样。

  如上,每个patch经过外部Transformer计算得到向量,每个patch又拆分成小patch后全连接,经过内部Transformer得到同样维度的输出向量。两个向量加在一起,作为最后的输出结果。

  《21个项目玩转深度学习:基于TensorFlow的实践详解》完整版PDF+附书代码

  【Keras】完整实现‘交通标志’分类、‘票据’分类两个项目,让你掌握深度学习图像分类

CONTACT US
欢迎随时与我们联系