阅读笔记-Transformer Quality in Linear Time

这篇文章的目的是为了解决transformer 处理长序列任务遇到的计算复杂度较高的问题。为了解决这个问题,许多工作聚焦于探索更有效的注意力机制,比如linear attention,但这类方法往往存在着以下三个缺陷:

  • inferior quality. linear attention 相对于vanilla attention 往往会带来明显的指标掉点。
  • overhead in practice. efficient attention往往是进行了复杂的layout 变换,这种操作计算复杂度体现不出来,但在实际应用中往往带来较大的时间开销。
  • inefficient auto-regressive training. 这一块主要是针对时序上使用的efficient attention,比如RNN-style 的序列状态更新,因为时序的存在导致并行度降低,训练上速度较慢。

所以本文不是直接去拟合MHSA,而是设计了一种新的quad attention结构GAU,这种结构对于attention不是特别敏感,从而能够进一步使用线性时间去近似拟合。最终这种线性拟合的结构被命名为 FLASH (Fast Linear Attention With a Single Head.)
下面来分别看一下GAU和FLASH的设计。

1. GAU (Gated Attention Unit)

GAU 是从GLU(Gated Linear Unit) 发展而来的,GLU的定义如下
U= \phi_u(XW_u), ~~~ V = \phi_v(XW_v) \\ O = (U\cdot V)W_o
这个式子可以理解成对relu的输出变量加了一个平方的非线性变换,当然这里只是类比,因为\phi 是放在外面的,如果是 \phi(XW_u\cdot XW_v)W_o 就更明显了,只是relu放在里面和外面还是不完全等价的,相当于更复杂的非线性变换。GLU的解释是v对u做了一次gate。
GAU将上式中的V替换成了quad attention的输出,见下图

image.png

这里需要注意的几点:

  • GAU中的attention部分 使用的relu^2, 而不是softmax, 这个操作和我们上面解释GLU差不多;relu^2 作者验证在自然语言上同样有效,但CV上还不确定。
  • GAU中的QKV都是single head的, Q、K的生成方式不同,采用类似于BN中可学习参数的那种形式的scale_offset 算子
  • GAU的参数量相对于MHSA要小近似一半,因此同样的参数量和速度下,可以多堆叠一倍的GAU。
    下面两张表分别对比了结构中一些操作的影响,gating这个文章中没细说,加上gating操作,参数量反而降低了,推测应该是一种过滤的操作?如果是GLU中的gate操作,参数量应该增大吧。


    image.png
    image.png

2. Fast Linear Attention with GAU

对GAU进行线性逼近,其出发点基于两点观测:

  • GAU的门限机制允许一个更弱的,比如单头,无softmax (见Table1和Table2的对比)注意力机制实现相似的性能;
  • 相同的计算代价下,MHSA+MLP 差不多等于2个GAU,而注意力逼近一般需要更多的layer去捕获更全面的依赖,所以GAU是一个好的选择。

目前存在的线性复杂度的attention可以大致划分为两类: Partial Attention和Linear Attention。
Partial Attention,包括划分window,local+sparse, axial, hash, clustering等,这个方法虽然表现不如full attention,但理论上确实能够对long sequence有较好的速度表现。但问题关键在于实际应用中往往需要gather,scatter,slice和cat等layout操作,这类操作并行度较差,对硬件不友好,导致实际场景中速度要慢很多。
Linear Attention,主要是去掉Softmax操作,从而能够利用矩阵乘法结合律先计算K^TV, 将计算复杂度降下来,同时对于NLP中的时序任务,随着序列逐步增长K^TV 是个累加的过程,每次只需要计算当前时刻的K_i^TV_i加上历史累积的M_t=K^T_{:t}V_{:t}。相比于quad attention每次都需要计算全部QK^T 计算量显然小很多。但是,对于长序列而言,虽然每次计算量小很多,但是这种序列计算就带来RNN类型存在的先天时序性,没法并行操作,只有执行完t-1步才能执行第t步,所以计算复杂度小但是计算时间反而有可能更长。对于移动芯片来说,存储器较小会使这种情况加剧。

3.1 Mixed Chunk Attention

本文提出的线性逼近结构。首先将序列划分为G个不重叠的chunk,每个chunk生成对应的U_g, V_g, Z_g, 由Z_g通过per-dim的scaling和offset 生成 Q_g^{quad}, K_g^{quad}, Q_g^{lin}, K_g^{lin}, 每个chunk会同时参与local attention 和 global attention, local attention的话
\hat{V}_q^{quad} = relu^2(Q_g^{quad}K_g^{quad^T} +b)V_g
而global attention则划分为non-causal和 causal,即是否时序上算, causal 会带来训练时间的大幅增加。
Non-Causal: \hat{V}_g^{lin} = Q_g^{lin} \Big (\sum_{h=1}^GK_h^{lin^T}V_h \Big) \\ Casual: \hat{V}_g^{lin} = Q_g^{lin} \Big (\sum_{h=1}^{g-1}K_h^{lin^T}V_h \Big)
那么最终在当前帧的输出是把local 和 global的attention 叠加在一起放到GAU中,
O_g = \Big [ U_g \odot (\hat{V}_g^{quad} + \hat{V}_g^{lin})\Big ]
伪代码如下:

image.png

这种操作其实是quad attention和linear attention的这种方案。

一些讨论:

  • chunk的划分能加快auto-regressive training 的过程
  • overlapping local attention能够改善质量,但是会存在memory re-formatting operations导致实际运行速度差很多。另外作者认为optimal partial attention 是任务相关的,但non-overlapping 是通用的。
  • 和combiner相比,combiner也划分chunk,但每个chunk内使用的quad local attention,这样FLASH在chunk内就能够允许更长的chunk。

3. 实验

实验在NLP上做的,这里只看下结果。


image.png

时间对比:


image.png

4. 结论

这篇文章先是提出一种GAU,然后GAU对attention的依赖较小,进而可以把GAU中的attention替换成linear attention。这个倒是可以在CV上尝试,GAU可以多堆一倍。另一点mixed-chunk 在CV上感觉用处不大,倒是可以在track任务上使用,track的memory bank上更新query。

?著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,992评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,212评论 3 388
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事?!?“怎么了?”我有些...
    开封第一讲书人阅读 159,535评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,197评论 1 287
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,310评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,383评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,409评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,191评论 0 269
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,621评论 1 306
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,910评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,084评论 1 342
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,763评论 4 337
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,403评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,083评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,318评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,946评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,967评论 2 351

推荐阅读更多精彩内容