华为在这2023年2月9日发布了一篇关于多元时刻序列猜测的文章,学习了NLP中前一阵比较热的Mixer模型,替代了Attention结构,不只完成了作用上的进步,并且还完成了功率上的进步。
Transformer在时刻序列猜测中的作用最近得到非常遍及地讨论。下图为经典Transformer时刻序列猜测模型图。
Transformer做时刻序列猜测时,存在以下几个问题。首要,Temporal dependency的提取是时刻序列猜测的要害,而Attention机制怎样来完成这种信息提取还没有被合理得到解说。其次,Transformer对时刻特征、Position embedding有很强的依赖性,这一些信息会和序列一同进入Attention模块,影响了Temporal dependency的学习。最终,Transformer模型自身的核算量很大,尽管一些作业提出了Attention的高效核算办法,可是除了Attention外,模型中还有许多其他模块核算量也很大。
文中对比了Transformer模型和其他结构的作用差异。假如将Attention换成简略的傅里叶变换,作用是有进步的。而去掉Encoder和Decoder之间的Attention,作用反而进步非常大。这不由让人们置疑attention机制在多大程度上协助了时刻序列猜测使命。
多元时刻序列无论是在Temporal维度仍是Channel维度,都存在比较强的冗余性。如下图所示,在Temporal维度上,对一个序列进行下采样,生成的新序列和原始序列保持着类似的趋势性、季节性。而在channel维度上,多元序列中不同的子序列也展示出类似的Pattern。这些冗余性都标明,大多数多元时刻序列都存在低秩性,即只运用一小部分数据就能够表示出近似完好的原始矩阵。使用这个性质,能够简化多元时刻序列的建模。
MTS-Mixer的模型结构如下,第二列是一个笼统结构,后边3列是详细的完成办法。
文中在多个数据集上对比了MTS-Mixer和很多Transformer模型的作用,发现即便不加Attention结构,选用文中提出的简略架构,就能获得超越Transformer的作用。
本文提出了MTS Mixers,这是一个多变量时刻序列猜测的通用结构。咱们进行了一项广泛的研讨,以查询留意力机制对时刻序列猜测功能的实在奉献和缺乏。试验依据成果得出,捕获时刻相关性不用需要分外留意,时刻序列数据中的冗余会影响猜测功能。此外,咱们提出的时刻和信道因子分化战略使用了时刻序列数据的低秩特性,并在多个实在国际数据集上以更高的功率获得了最先进的成果。对模型学习到的形式的模型剖析标明,输入和输出序列之间的映射可能是咱们应该的要害。
《21个项目玩转深度学习:根据TensorFlow的实践详解》完好版PDF+附书代码
【Keras】完好完成‘交通标志’分类、‘收据’分类两个项目,让你把握深度学习图画分类