从 RNN 到 Transformer:时间建模的变革
1. 时间依赖与梯度消失:序列建模的困境
在很多经典的图像任务中,我们通常假设不同样本之间是独立同分布的(i.i.d.)——也就是说,一张图片与另一张图片在统计上是相互独立的,模型只需要把一张图片看作一个整体输入来处理即可。卷积网络(CNN)则利用图像内部像素之间强烈的局部相关性,通过卷积核在空间上提取局部到全局的层级特征。
但在处理序列任务(sequence modeling)时情况就完全不同了:语言、语音、时间序列信号都具有明显的时间依赖,同一个序列内部,不同时间步之间往往高度相关。要正确预测下一个值、下一个词或下一个声音,模型必须记住同一条序列中之前发生过什么。这一点正是循环神经网络(Recurrent Neural Network, RNN)诞生的核心动机。
1.1 序列的本质:时间上的依赖
在 RNN 中,模型通过一个循环结构不断接收输入,并将前一时刻的“隐藏状态”传递给当前时刻,从而建立时间依赖。其核心公式为:
$$h_t = f(Wx_t + Uh_{t-1})$$
其中,$x_t$ 表示当前输入,$h_{t-1}$ 表示上一时刻的隐藏状态,$W$ 与 $U$ 为可学习的权重矩阵,$f(\cdot)$ 是非线性激活函数(如 $\tanh$ 或 ReLU)。可以看到,$h_t$ 的计算既依赖当前输入,又依赖历史状态,这使得网络能够“记忆”过去。换句话说,RNN 不仅在空间上建模特征,更在时间上捕捉依赖关系——它拥有“短期记忆”。
1.2 时间反向传播:信息传递的代价
在训练过程中,RNN 通常采用 时间反向传播(Backpropagation Through Time, BPTT)。顾名思义,这种方法会将网络在时间上展开成多层结构(每一层对应一个时间步),然后将误差信号从最后时刻逐步反向传递至最初输入。然而,这种“时间展开”带来了一个严重问题:梯度链式相乘。
由于每一步的梯度都要经过上一层的非线性变换,当时间步较长时,梯度会被连续乘上许多小于 1 的数(例如激活函数 $\tanh$ 的导数通常在 0~1 之间),结果是:
- 若导数平均小于 1,梯度会指数式衰减(梯度消失);
- 若导数平均大于 1,梯度会指数式膨胀(梯度爆炸)。
这意味着,RNN 很难学习长距离的时间依赖——信息在传播过程中被“稀释”或“放大”,无法有效回传到早期时间步。
严格地说,梯度是否会消失/爆炸,取决于时间方向上 Jacobian 链 $\prod_t \frac{\partial h_t}{\partial h_{t-1}}$ 的谱半径(最大特征值的大小)。这里只用“每步导数的平均大小”来做直观类比,便于把握现象本质,并不构成严格的数学分析。
1.3 直觉类比:传话游戏中的“信息失真”
理解梯度消失,可以用一个简单类比:想象一群人围成一圈玩“传话游戏”,第一个人对第二个人耳语一句话,第二个人再转告第三个……当消息传到最后一个人时,往往已经面目全非。
在 RNN 中,信息沿时间方向逐步传递,每一次传播都会引入少量误差或衰减。当时间步过长时,这种累积效应导致最初的信息几乎完全丢失。因此,RNN 在理论上具备记忆能力,但在实践中往往只能“记住最近的几步”。
1.4 时间展开与梯度衰减
图中左侧展示了循环神经网络在单个时间步的结构:当前输入 $x_t$ 与前一时刻隐藏状态 $h_{t-1}$ 共同进入循环单元 $A$,得到当前隐藏状态 $h_t$。右侧则展示了“时间展开(Unfolding in Time)”的形式:同一个循环单元 $A$ 在每个时间步共享参数 $W, U, V$,依次处理输入序列 $x_1, x_2,\dots,x_t$,并输出对应的隐藏状态 $h_1, h_2,\dots,h_t$。这种展开方式揭示了 RNN 如何通过时间维度的连接实现记忆与状态传递。

可以把这张图理解成“梯度在时间上传递时的命运曲线”。横轴是时间步,也就是我们在 RNN 中不断向前展开的序列长度;纵轴是梯度的大小,用对数坐标画出来,这样能清楚看到变化的趋势。
蓝色的线代表当梯度在每一步都被乘上一个小于 1 的数时(比如 0.85),它会越传越小,最后几乎变成 0——这就是我们说的“梯度消失”;橙色虚线是理想情况,乘的因子大约等于 1,梯度能稳定地传递下去;绿色虚线则相反,乘的因子稍微大于 1(比如 1.05),结果就是越传越大,最后爆炸。图中还标出了背景区域:下面那块橙色区域是“梯度几乎消失”的范围,上面那块蓝色区域是“梯度爆炸”的风险区。所以只要 λ(乘的这个因子)偏离 1 一点点,时间长了问题就被放大成指数级。
这张图告诉我们一个简单但重要的事实:在长序列或深层结构中,梯度要么消失、要么爆炸,很难自然保持稳定。 这也正是后来 LSTM、GRU 等结构被提出的原因——它们通过“门控机制”来控制梯度的流动,让信息能在时间上传得更远。
小结
循环神经网络的思想在于“让模型记得过去”,但其训练机制却天然存在“遗忘”的风险。由于时间反向传播导致的梯度衰减,RNN 往往只能学习短期依赖。这一局限成为序列建模的最大瓶颈,也直接促生了 LSTM、GRU 等改进结构——它们的设计目标,就是让记忆能跨越时间衰减,保留更长的上下文信息。
2. 门控机制:LSTM 与 GRU 的结构突破
在上一章中,我们看到普通 RNN 在长序列建模中会面临梯度消失与梯度爆炸的问题——模型要么“记不住过去”,要么“被历史淹没”。
为了解决这一困境,研究者们引入了一种“受控记忆机制(Gated Mechanism)”,让网络能够有选择地记忆与遗忘信息。其中最具代表性的结构,就是 LSTM(Long Short-Term Memory) 和 GRU(Gated Recurrent Unit)。
2.1 LSTM:通过“门”来控制信息流动
LSTM 的核心思想,是为传统 RNN 增加门(Gate)结构,在信息传递的每个时间步上,对“保留什么”“丢弃什么”进行精细调控。与普通 RNN 相比,LSTM 多了三个关键门控单元:
- 遗忘门(Forget Gate):决定前一时刻的状态 $C_{t-1}$ 中哪些信息应该被丢弃。
$f_t = \sigma(W_f [h_{t-1}, x_t] + b_f)$,当 $f_t$ 接近 0 时,该部分信息被遗忘;当 $f_t$ 接近 1 时,则被完整保留。 - 输入门(Input Gate):控制当前输入 $x_t$ 有多少新信息被写入。
$i_t = \sigma(W_i [h_{t-1}, x_t] + b_i), \quad \tilde{C}t = \tanh(W_c [h{t-1}, x_t] + b_c)$。最终的记忆更新为:$C_t = f_t \odot C_{t-1} + i_t \odot \tilde{C}_t$ - 输出门(Output Gate):决定当前时刻输出 $h_t$中哪些信息被暴露给下一层。
$o_t = \sigma(W_o [h_{t-1}, x_t] + b_o), \quad h_t = o_t \odot \tanh(C_t)$
通过这三个门,LSTM 形成了一条贯穿时间维度的 “记忆通道(Cell State)”。这条通路允许梯度在时间上直接传播,而不被反复缩放或爆炸,从而大幅缓解了梯度消失问题。换句话说,LSTM 让网络学会“什么时候记,什么时候忘”,而不是被动地受制于时间长度。这也是它在语言建模、语音识别等长期依赖任务中取得成功的根本原因。
如上图展示了长短期记忆网络(LSTM, Long Short-Term Memory)单元的内部结构及信息流向。
输入 $x_t$ 与前一时刻的输出 $h_{t-1}$ 一起作为当前时间步的输入信号,分别经过遗忘门 $f_t$、输入门 $i_t$、候选记忆单元 $\tilde{C}_t$ 和输出门 $o_t$ 的非线性变换,控制信息在细胞状态中的保留、更新与输出。图中上方贯穿整单元的粗线表示细胞状态(Cell State)$C_t$ 的主通路,它允许信息在时间维度上以较少衰减的方式传递,被形象地称为“梯度高速公路(Gradient Highway)”。图中多个乘法节点(×)表示各门控对信息流的选择性调节,加法节点(+)实现旧状态与新候选信息的融合。右侧的 $\tanh$ 与输出门 $o_t$ 共同决定当前隐藏状态(输出)$h_t$,并将其传递至下一时间步或上层网络。该结构直观地体现了 LSTM 通过门控机制与状态通路设计,在结构上实现长期记忆保留与梯度稳定传播的原理。
2.2 GRU:结构简化的轻量化版本
虽然 LSTM 在性能上优越,但其结构复杂、计算量大。为了提高训练效率,GRU(Gated Recurrent Unit) 在 LSTM 的基础上进行了简化:
- 将“遗忘门”和“输入门”合并为一个 更新门(Update Gate);
- 将“输出门”与隐状态更新逻辑融合,去掉了独立的 Cell State。
GRU 的更新逻辑本质上就是一种“可控混合”:它在旧记忆 $h_{t-1}$ 与新候选记忆 $\tilde{h}_t$ 之间进行加权选择。这种设计虽然省略了独立的 Cell State,但依然能保持长期依赖能力。因此在许多任务中,GRU 的表现与 LSTM 相差无几,甚至在小模型或低资源场景下更具优势。
2.3 从门控到“残差思想”的启示
值得注意的是,LSTM 中的 Cell State 通路在梯度流动的视角上,与后来 ResNet 中的残差连接有一定的相似性:两者都试图提供一条相对“平滑”的信息通路,让重要信息可以跨越多步传播,而不过度被每一层的非线性扰动所破坏。LSTM 通过 $$C_t = f_t \odot C_{t-1} + i_t \odot \tilde{C}_t$$这种门控加权和的形式,在 $f_t \approx 1$、$i_t \approx 0$ 时,为 Cell State 提供了一条弱非线性、弱衰减的“记忆通路”。虽然这并不等价于 ResNet 中严格意义上的 $y = x + F(x)$ 残差结构,但在“为深层/长时依赖提供稳定梯度路径”这一设计目标上,两者有着高度一致的思路。因此,LSTM 不仅是序列建模的一次突破,也为深度网络设计提供了重要启发:稳定的梯度流 + 信息直通通道 = 可训练的深度结构。
小结
LSTM 和 GRU 通过在结构中显式引入“门控”机制,为神经网络的记忆与遗忘提供了可学习的控制。LSTM 的三门设计更具表达力,而 GRU 则以更简洁的形式实现近似功能。它们共同的核心思想是:
让网络主动决定哪些信息该记住、哪些该忘记,从而打破时间依赖带来的梯度瓶颈。
3. 从 Seq2Seq 到注意力机制:对齐的诞生
在深度学习早期,Seq2Seq(Sequence to Sequence)模型 是机器翻译等序列任务的主流框架。它通过一个 Encoder-Decoder 结构,将输入序列编码成一个固定长度的向量,再由解码器生成输出序列。这种结构首次让模型具备了“读一句话、再写一句话”的能力,被广泛应用于机器翻译、对话系统、摘要生成等任务中。然而,Seq2Seq 模型也存在一个根本性的瓶颈——信息压缩问题。
3.1 Seq2Seq 的信息瓶颈
在标准 Seq2Seq 模型中,Encoder 逐步读取输入序列(如一句话的每个单词),并将其最终编码为一个固定维度的向量 c。随后,Decoder 仅凭这个向量去生成完整的目标句子。
$$h_t^{enc} = f(x_t, h_{t-1}^{enc}), \quad c = h_T^{enc}, \quad y_t = g(y_{t-1}, h_{t-1}^{dec}, c)$$
虽然这种方式在短句上效果良好,但随着输入长度增加,编码器必须在有限的向量中“压缩”整个句子的语义,这导致信息丢失严重。举例来说,当模型翻译长句时,它往往能正确生成句首,却在句尾出现遗漏或错译。这就是所谓的 “固定向量瓶颈(Fixed-length Bottleneck)” —— 模型试图用一个向量概括整段语义,却牺牲了上下文的细粒度。
3.2 注意力机制的引入:动态的信息通道
为了解决这一问题,Bahdanau 等人在 2014 年提出了注意力机制(Attention Mechanism)。核心思想是:
解码时,模型不必依赖单一的上下文向量,而是根据当前生成的词,动态选择输入序列中最相关的部分。
也就是说,每当解码器要输出一个新词时,它会计算当前状态与输入各部分的“相关程度”,并以此为权重对输入向量加权求和——得到一个动态上下文向量。
$$\text{Attention}(Q,K,V) = \text{softmax}\left(\frac{QK^\top}{\sqrt{d_k}}\right)V$$
其中:
- $Q(Query)$:来自解码器当前的隐状态;
- $K, V$:来自编码器所有时刻的输出;
- 相关性通过内积 $QK^\top$ 计算,并经 Softmax 转为权重分布。
最终的加权结果让模型在每个时间步都能“聚焦”到输入句子的不同部分。换句话说,注意力机制赋予了模型“选择性记忆”的能力,让信息流动不再被单一向量限制,而是形成一种可变的、位置相关的通道。
3.3 注意力的直观理解:对齐(Alignment)
在机器翻译场景中,注意力机制的效果可以通过对齐热力图(Alignment Heatmap) 来直观展示。横轴表示输入语言的单词,纵轴表示输出语言的单词。每个格子的颜色深浅表示当前输出词与某个输入词之间的注意力权重大小。
例如,当模型翻译英语句子 “I love deep learning” 为中文时,生成“我”时主要关注 “I”,生成“学习”时则聚焦 “learning”。这种“输入-输出位置的软对齐”是传统 Seq2Seq 无法实现的,它让网络能自然捕捉到跨语言、跨时间的语义对应关系。
图中横轴为英文源句单词,纵轴为中文目标句单词,颜色深浅表示注意力权重大小。深色格子表示生成对应中文词时,模型更关注的英文位置。该热力图直观展示了注意力机制在翻译过程中实现输入-输出动态对齐的过程。
3.4 Encoder–Decoder 与 Attention 的融合结构
在引入注意力机制后,原本单一的上下文向量 c 被动态计算替代。在解码阶段,每一步的上下文由注意力模块生成并传入解码器:
$$c_t = \sum_i \alpha_{t,i} h_i^{enc}, \quad y_t = g(y_{t-1}, h_{t-1}^{dec}, c_t)$$
这使得模型在每一时刻都能重新“查看”输入序列,从而有效突破长序列的依赖瓶颈。
图中左侧为编码器(Encoder),生成一系列隐藏状态 $h_{1}, h_{2}, …, h_{T}$;每个解码步 t 的解码器(Decoder)通过注意力权重 $\alpha_{t,i}$ 对所有编码器状态进行加权求和,得到上下文向量 $c_t = \sum_i \alpha_{t,i} h_i^{enc}$。该上下文向量与上一步解码状态共同决定当前输出 $y_t$。注意力机制使模型在生成每个词时都能动态“回看”整个输入序列,从而有效缓解长序列依赖问题。
小结:从记忆到对齐
注意力机制的引入标志着神经网络从“被动记忆”到“主动选择”的转变。它让模型在每次预测时都能灵活访问输入序列的不同部分,从而在长序列任务中保持稳定性能。
Seq2Seq 存在信息瓶颈:单向压缩导致长程依赖丢失;注意力通过“相关性加权”让模型动态访问输入;注意力即“软对齐”,让模型具备了灵活的语义映射能力。这为后来的 Transformer 架构 奠定了理论基础,也揭开了“注意力统一视角”的新篇章。
4. Self-Attention:从对齐他人到对齐自己
在上一章节中,我们看到注意力机制(Attention) 让模型在编码与解码之间建立了“对齐”关系:Decoder 每一步都可以选择性地关注 Encoder 的不同部分。然而,随着任务复杂度提升,研究者们开始思考——如果序列内部的不同位置也能彼此关注,会怎样? 这正是 Self-Attention(自注意力机制) 的出发点。
4.1 从“对齐他人”到“对齐自己”
传统的 Seq2Seq 注意力机制关注的是两个序列之间的依赖:Encoder 提供信息,Decoder 从中选取最相关的部分。而 Self-Attention 则将这种机制扩展到单个序列内部——每个位置(单词、token)都能直接“看到”序列中的其他位置,从而捕捉全局关系。
举例来说,句子 “The animal didn’t cross the street because it was too tired.” 在预测 “it” 时,模型需要知道它指的是 “animal” 而不是 “street”。这类依赖跨越较远,传统 RNN 难以保持,而 Self-Attention 能通过内在的“全连接式对齐”轻松捕获。
核心思想是每个词不再只依赖局部上下文,而是通过注意力分布,与序列中所有其他词建立联系。
4.2 Self-Attention 的数学原理
设输入序列为矩阵 $X \in \mathbb{R}^{T \times d}$,其中 T 是序列长度,d 是嵌入维度。Self-Attention 的计算流程可表示为:$$\text{SA}(X) = \text{softmax}\left(\frac{XW_Q(XW_K)^\top}{\sqrt{d_k}}\right)XW_V$$其中:
- $W_Q, W_K, W_V$ 分别是可学习的 Query、Key、Value 映射矩阵;
- $Q = XW_Q,K = XW_K,V = XW_V$;
- 相似度矩阵 $QK^\top$ 表示每个词对其他词的关注程度;
- 归一化项 $\sqrt{d_k}$ 用于防止内积值过大导致梯度爆炸。
最终结果是每个词对其他所有词的加权组合,即:输出的每个位置,都是对整个输入序列的“重构”与“聚合”。
4.3 缩放项的作用:稳定梯度
在未缩放的情况下,若 $d_k$ 较大(例如 512),内积 $QK^\top$ 的方差会随维度增大而膨胀。这会导致 softmax 输出趋于极端(过于尖锐或饱和),从而使梯度几乎为零或震荡剧烈。
引入 $1 / \sqrt{d_k}$ 的缩放项后,可在数值上将方差重新压回合适范围,从而保持训练稳定。这一看似微小的改动,是 Transformer 架构成功训练的关键之一。
4.4 Self-Attention 的并行优势
RNN 需要逐步处理时间步($O(T)$),而 Self-Attention 能同时计算所有位置间的相关性,因此整体计算复杂度为 $O(T^2)$,但可以完全并行化。这意味着:
- 训练速度大幅提升(适合 GPU/TPU 批量计算);
- 信息传播路径缩短,每个词能直接访问全局上下文;
- 模型在捕捉长程依赖时更高效。
缺点是:当序列过长时(如上千 token),计算与内存消耗会快速增加,这也催生了后续的 Sparse Attention、Linear Attention 等改进方向。
4.5 Mask 机制:保持时间一致性
在语言建模或生成式任务(如翻译解码、对话生成)中,模型在预测当前词时不应该看到未来的词,否则就破坏了因果性。为此,Self-Attention 中通常引入 Causal Mask(因果遮罩):
- 在 Encoder 侧的 self-attention 中,通常是双向的:每个位置可以关注整个序列(适合做理解/表征学习,比如 BERT);
- 在 Decoder 或自回归语言模型中,self-attention 则采用单向因果 Mask:在计算 $QK^\top$ 时,把“当前时间步之后”的位置的得分强制置为 $-\infty$,softmax 后对应权重为 0。
这样,位置 的 Query 只能看到 的 Key/Value 信息,这样既能通过 self-attention 访问完整的历史上下文,又保证了生成过程中严格的时间因果性(causality),不会“偷看未来”。
该图展示了句子 “The cat sat on the mat” 在 自注意力(Self-Attention)机制 下的词间关注关系。横轴与纵轴分别代表相同序列中的词(列为 Key,行为 Query),每个格子的颜色深浅表示某个词在计算自身表示时对另一词的关注权重(Attention Weight)。从图中可以观察到:
- 对角线部分颜色较深,说明各词倾向于自关注(Self-Focus),这是模型基础的稳定特征。
- “cat” 对 “sat” 的关注度较高,反映出语义上的动作-主体联系;
- “on”“the”“mat” 之间也形成较强关联,对应介词短语的内部依赖。
这种词间的“软对齐(Soft Alignment)”使得模型能够在内部自动捕捉句法和语义结构,无需显式规则即可建立上下文依赖,这为 Transformer 等架构提供了更强的表达能力。
该图展示了 自回归语言模型(Auto-Regressive Language Model) 中的 因果遮罩机制(Causal Mask)。矩阵的 行(Query) 表示当前生成位置 t,列(Key) 表示可被关注的词位置。在每个时间步 t:
- 蓝色区域 表示模型可以关注的历史信息(包括当前位置自身);
- 灰色区域 表示未来位置,被 Mask 掉以防止模型“偷看”尚未生成的词;
- 红色虚线框 展示了示例 t=5,此时模型只能看到第 1–5 个位置的内容。
这种 下三角结构(含对角线) 体现了生成式任务中的 单向注意力约束(Unidirectional Attention Constraint)。它确保模型在预测下一个词时,仅依赖过去和当前上下文,从而保持时间因果性(Causality)和生成一致性。
小结:从记忆到全局建模
Self-Attention 的提出,是深度学习从“时间依赖”到“结构依赖”的重大转变。它不再沿时间顺序传播信息,而是构建全局关系图。Self-Attention 不仅解决了长程依赖问题,也为后来的 Transformer 模型奠定了核心基石。从此,网络的“记忆”不再依赖循环,而由注意力矩阵来表达序列的内部结构。
5. Transformer:并行化的全局建模架构
当 Self-Attention 解决了序列中远距离依赖的问题后,一个更脑洞的想法随之诞生——如果我们完全去掉循环(RNN)与卷积(CNN),只用注意力机制,能否建立一个端到端的强大模型?2017 年,Vaswani 等人提出了 Transformer 架构,用一句话概括它的核心思想:“Attention is All You Need.”
Transformer 通过纯注意力机制实现了全局信息建模,并通过高度的并行化,使训练效率与性能同时达到新的高度。
5.1 模型总览:Encoder-Decoder 堆叠结构
Transformer 延续了 Seq2Seq 的基本思路,整体仍由 Encoder 与 Decoder 两部分组成:
- Encoder: 负责对输入序列进行表征建模;
- Decoder: 根据编码结果逐步生成输出序列。
不同于传统 RNN 的串行结构,Transformer 将 Encoder 与 Decoder 拆分为若干个可堆叠的模块(Blocks),每个模块都包含相同的内部结构,使得整个模型层次清晰、可并行计算。
5.2 Encoder 结构:并行建模与层内归一化
一个典型的 Transformer Encoder Block 包含三个核心组件:
- Multi-Head Self-Attention(多头自注意力)
让每个词同时从多个“视角”关注整个序列。每个头(head)通过独立的 $W_Q, W_K, W_V$ 学习不同类型的关系:语义、语法或位置依赖。所有头的输出被拼接(concatenate)后,再经线性变换整合为统一表示。$\text{MultiHead}(Q,K,V) = \text{Concat}(\text{head}_1, …, \text{head}_h)W_O$ ,其中每个 $\text{head}_i = \text{Attention}(QW_Q^i, KW_K^i, VW_V^i)$ - Position-wise Feed Forward(逐位置前馈网络)
在每个位置独立地进行两层全连接变换:$\text{FFN}(x) = \text{ReLU}(xW_1 + b_1)W_2 + b_2$,作用相当于在每个 token 上局部非线性变换,使表示更具表达力。 - Add & Norm(残差连接与层归一化)
每个子层(Self-Attention 或 FFN)都通过残差连接与 LayerNorm 保持梯度稳定:$\text{output} = \text{LayerNorm}(x + \text{Sublayer}(x))$,这种结构让信息可以直接跨层流动,减少梯度消失问题,与 ResNet 的思想一脉相承。
该图展示了 Transformer 编码器(Encoder Block) 的内部结构及信息流动方向。整体结构自下而上依次包含:
- 输入向量(Input Embedding / Hidden States) —— 表示来自前一层或词嵌入的输入特征;
- 多头自注意力层(Multi-Head Self-Attention) —— 通过多个注意力头并行建模不同维度的特征依赖,获取全局上下文关系;
- 残差连接与层归一化(Add & Norm) —— 将输入与注意力输出相加并归一化,保持信息流动与训练稳定;
- 前馈网络(Feed Forward Network, FFN) —— 对每个位置独立进行两层非线性变换,增强特征表达能力;
- 再次的残差连接与层归一化(Add & Norm) —— 输出稳定的上下文表示,用于后续编码层堆叠。
该模块是 Transformer 的基本单元,多个 Encoder Block 堆叠后即可实现高效的 全局依赖建模 与 深层语义抽象。
5.3 Decoder 结构:Masked Attention + Encoder-Decoder Attention
Decoder 的设计在 Encoder 基础上做了两处关键改动:
- Masked Multi-Head Attention(掩码自注意力)
用 Causal Mask 限制每个位置只能关注自己及之前的词,防止“看见未来”。 - Encoder-Decoder Attention(跨层注意力)
让 Decoder 能基于 Encoder 的输出向量进行查询,从而“对齐输入语义”。数学上等价于 Attention(Q=Decoder, K=V=Encoder)。
这两部分与 Feed Forward 层同样通过残差与归一化组成完整的 Decoder Block。最终输出层则接一个线性映射与 Softmax,用于生成概率分布。
5.4 位置编码:让模型“感知顺序”
由于 Transformer 完全去除了循环结构,模型本身无法区分序列的位置信息。因此,需要引入位置编码(Positional Encoding),在输入嵌入中加入与位置相关的固定或可学习向量。一种常用形式是基于正弦函数的周期编码:
$$PE_{(pos, 2i)} = \sin\left(\frac{pos}{10000^{2i/d}}\right), \quad PE_{(pos, 2i+1)} = \cos\left(\frac{pos}{10000^{2i/d}}\right)$$
它允许模型以几何方式捕捉相对位置信息,这种基于正弦/余弦的编码本质上是一种绝对位置编码:每个位置 $pos$ 都对应一个固定的向量。但由于不同频率的正弦波在叠加后具有良好的组合性质,模型在学习时可以很方便地从这些绝对编码中推断出相对位置信息(例如“相隔多少步”)。直观地看,可以把位置编码理解成在每个 token 上打上一个“节拍标签”,让模型在完全并行计算的前提下,依然能够区分“谁在前、谁在后”。
该图展示了 Transformer 中 多头注意力机制(Multi-Head Attention) 的基本结构。输入序列的 Query(Q)、Key(K) 和 Value(V) 首先分别经过线性变换,被分成多个子空间以形成多个“注意力头(heads)”。每个注意力头独立执行 缩放点积注意力(Scaled Dot-Product Attention),即通过计算 $\mathrm{softmax}(QK^T / \sqrt{d_k})V$ 来捕捉不同类型的依赖关系。这些头可被视为从不同角度关注输入序列的特征:有的捕捉语法结构(如主谓关系),有的关注语义联系(如指代或同义)。随后,各头输出的上下文向量被 拼接(Concat) 并再次通过线性层整合,形成更丰富、更全面的表示。这种多视角并行建模的机制,使 Transformer 能够在多个子空间中同时理解上下文信息,从而显著增强模型的表达能力与泛化性。
5.5 Transformer 的优势与启示
Transformer 的设计兼具结构优雅与计算高效:
- 并行计算: Self-Attention 可同时计算所有位置间关系;
- 长程建模: 任意两词可直接交互,无需递归传递;
- 残差与归一化: 保证深层网络的训练稳定;
- 多头机制: 让模型在多个表示子空间中学习不同的关系模式。
正是这些设计,使 Transformer 成为 NLP、CV、语音等多个领域的统一架构。从“时间递推”到“全局建模”,Transformer 不仅改变了神经网络的结构范式,也重塑了深度学习的认知方式。
小结
Transformer 通过多头注意力与层级堆叠,彻底实现了信息交互的并行化与全局化。其成功不在于复杂,而在于统一:统一的注意力机制、统一的层结构、统一的训练范式。 它既是 Seq2Seq 的继承者,又是后续 BERT、GPT、ViT 等一切基于注意力架构的前身。
6. 复杂度与性能:O(T) vs O(T²) 的新平衡
Transformer 的成功不仅在于性能突破,也在于对计算效率与模型表达力的重新权衡。RNN 与 Transformer 分别代表了两种极端的计算范式——一个以时间递推为核心(O(T)),一个以全局并行为核心(O(T²))。 要理解两者的差异,我们必须回到算法复杂度的根本。
6.1 RNN:线性复杂度的串行瓶颈
在循环神经网络(RNN)中,序列被逐步处理:第 $t$ 个时刻的输出依赖于第 $t-1$ 个隐状态。这意味着每一步都必须等待上一步完成,无法并行展开。时间复杂度为:$O(T)$
虽然计算量与序列长度成线性关系,但由于依赖链过长,RNN 在现代硬件(GPU/TPU)上利用率极低。尤其在长序列任务中,梯度传播困难、训练时间漫长。可以这么理解,RNN 就像“接力跑”,每一棒必须等前一棒跑完。即使单次计算不多,整体效率仍受限于顺序依赖。
6.2 Transformer:平方复杂度的并行革命
Transformer 通过 Self-Attention 实现了所有位置间的全连接交互。在每个 Attention 层中,需要计算 Query 与 Key 的两两相似度矩阵:$$QK^\top \in \mathbb{R}^{T \times T}$$这一步的复杂度为 $O(T^2)$,显存占用同样为平方级。理论上更“昂贵”,但 Transformer 的关键在于——所有这些计算可同时完成。也就是说,虽然计算量更大,但训练速度反而更快,因为它充分利用了 GPU 的并行矩阵运算能力。Transformer 像是一场“团队协作”的头脑风暴,所有人可以同时交流;RNN 则是一场“单线程”的传话游戏。
6.3 复杂度对比:计算与存储
| 模型 | 时间复杂度 | 并行性 | 显存占用 | 长序列表现 |
|---|---|---|---|---|
| RNN | O(T) | 低(顺序执行) | 低 | 差(梯度消失) |
| Transformer | O(T²) | 高(全局并行) | 高 | 优(捕获全局依赖) |
Transformer 在“并行性”上彻底碾压 RNN,但代价是显存消耗与时间复杂度成平方增长。因此,在极长序列任务(如视频、DNA、长文本)中,标准 Transformer 的成本非常高。
在这里我们刻意只突出对序列长度 $T$ 的依赖关系,为了便于比较,把隐藏维度 $d$、注意力头数等常数因子都省略掉。更精细的复杂度分析会写成 RNN 的 $O(T d^2)$、Transformer 的 $O(T^2 d + T d^2)$ 等,但在“长序列 vs 并行性”的讨论中,这里用简化的 O(T) / O(T²) 记号已经足以揭示两者在随 $T$ 增长时的本质差异。
6.4 新的平衡:长序列建模的改进方向
为应对这一挑战,研究者提出了多种改进变体,核心目标都是在保留全局感受的同时降低复杂度。
6.4.1 Linear Attention
将注意力的 softmax(QKᵀ) 改写为核函数形式,使计算可分解为线性复杂度。复杂度:$O(T \cdot d)$,适合超长输入。
6.4.2 Longformer / BigBird
引入“稀疏注意力(Sparse Attention)”,仅在局部窗口或部分全局位置计算注意力。能兼顾局部依赖与长程建模。
6.4.3 Performer
使用随机特征近似 softmax 函数,保持近似全局表达的同时降低内存成本。这些方法的共同目标是:在 O(T) 与 O(T²) 之间找到更优的平衡点。
如上图RNN 曲线(绿色) 随序列长度呈近似线性增长 O(T),因其每个时间步的计算仅依赖前一状态,虽然难以并行,但复杂度增长较平缓;Transformer 曲线(红色) 呈平方增长 O($T^2$),因为自注意力机制在每层需要计算所有位置两两之间的注意力权重,导致计算量与显存需求在长序列情况下迅速攀升。
该图直观反映了两类结构在 计算复杂度层面 的本质区别:RNN 计算受时间依赖限制但资源消耗较低,而 Transformer 虽能全局并行建模,但在长序列处理上代价更高。
该图对比了 RNN 与 Transformer 在不同序列长度下的训练效率变化趋势。可以观察到:
- RNN(绿色曲线) 的训练时间随着序列长度 T 近似线性上升。由于其结构上需要按时间步顺序迭代,无法实现并行化计算,因此在长序列场景下训练速度显著下降。
- Transformer(红色曲线) 在中短序列范围内保持相对稳定的训练时间,得益于其全局自注意力机制可在时间步间并行计算;但当序列极长时,注意力计算的 O(T^2) 复杂度使训练速度开始下降。
该图直观展示了两种结构在 计算并行性与长序列代价 之间的权衡关系:Transformer 在中短序列任务上具有显著效率优势,而 RNN 在资源受限或较短序列任务中仍具竞争力。
小结:效率与表达力的抉择
RNN 与 Transformer 代表了两种极端思路:
- RNN 在时间维度高效,但缺乏并行性;
- Transformer 全局建模强大,却带来计算负担。
现代研究正致力于融合两者的优点,让模型既能“看得远”,又能“算得快”。
7. 比较 LSTM 与 Transformer 在电商销量预测中的表现
7.1 实验背景与目标
在时间序列预测领域,电商销量是一个典型且具有商业价值的任务。不同的神经网络结构在捕捉季节性、趋势性以及节假日波动时表现各异。
本实验通过对比 LSTM(长短期记忆网络) 与 Transformer(基于自注意力的序列模型),探讨它们在销量预测任务中的建模差异与性能权衡。本实验不试图“证明某一结构一定更优”,而是希望在一个真实电商销量序列上,观察 LSTM 与 Transformer 在相同特征、相似参数规模下的建模差异,包括:
- 在中长期趋势与季节性建模上,二者的表现有何不同?
- 在训练稳定性与误差分布上,各自呈现出怎样的特征?
7.2 实验设置
7.2.1 数据与特征
数据集:使用 UCI Online Retail(2010–2011 英国零售销售记录)。从中提取英国的每日销售额,并按周聚合,构建一个典型的销量时间序列。特征工程包括:
- 基础时间特征:星期、月份、是否周末;
- 傅里叶季节特征:周周期与年周期;
- 滞后与滑动窗口特征:lag1, lag2, rolling4;
- 目标变量:每周销售额(非对数形式)。
需要特别说明的是:在采用周频聚合之后,可用样本长度相对较短,因此本实验更接近一个性质的对比示例,用于展示两类模型在相同管线下的行为模式,而不是追求在该数据集上给出具有统计显著性的“最优”结论。
数据按时间顺序划分为训练集(70%)、验证集(15%)与测试集(15%)。
7.2.2 模型结构
模型 1:LSTM(局部记忆型)
1 | class LSTMModel(nn.Module): |
模型 2:Transformer(全局注意力型)
1 | class TransformerModel(nn.Module): |
7.2.3 训练与评估
| 参数 | LSTM | Transformer |
|---|---|---|
| 批量大小 | 64 | 64 |
| 窗口长度 | 60 | 60 |
| 优化器 | AdamW | AdamW |
| 损失函数 | HuberLoss | HuberLoss |
| 调度策略 | ReduceLROnPlateau | Warmup + Cosine Annealing |
| 评价指标 | MAE / MAPE / sMAPE / Weighted MAE | 同左 |
其中 Weighted MAE(WMAE) 是我们根据电商场景定制的一个加权指标:在实际业务中,高销量周往往更重要——预测在这些时间段的误差,会对营收、库存、物流带来更大影响。因此,我们按照“销量相对于中位数的比例”给每个样本一个权重,并在区间 [1, 5] 内截断,以避免少数极端峰值完全主导整体指标。这样得到的 WMAE 既能反映整体误差水平,又适度强调了高销量区间的预测质量。
7.2.4 完整实验代码
运行说明:
- 直接保存为 exp_ch7_retail.py 并运行;
- 若首次运行下载失败,请手动下载 Online_Retail.xlsx 放在脚本目录;
- 自动生成 3 张图(验证曲线、预测趋势、误差随时间)。
1 | """ |
相关日志:
1 | [INFO] device: cpu |
7.3 实验结果与分析
实验最终在同一时间序列、相同特征输入条件下进行。下面总结了测试集的主要指标结果。
| 模型 | MAE ↓ | MAPE ↓ | sMAPE ↓ | WMAE ↓ |
|---|---|---|---|---|
| LSTM | 170 133 | 54.69 % | 76.93 % | 201 047 |
| Transformer | 162 398 | 51.82 % | 71.91 % | 192 370 |
在当前设置下,Transformer 在四项指标上都略优于 LSTM,数值差距大致在 4–6% 左右。考虑到样本量有限、且时间粒度为周频,这些结果更适合被理解为一种趋势性观察,而不是严格的统计结论。结合图 7-1/7-2/7-3 可以看到:Transformer 在捕捉整体趋势与节奏性波动时略显平滑,对较大的销量起伏有一定缓冲;而 LSTM 在局部短期段落上的拟合能力依然具有竞争力。
LSTM 的验证损失下降较为平稳,但在 20 轮后趋于停滞;Transformer 早期波动较大,随后在较低损失区间稳定,说明注意力机制在有限样本下仍具一定正则作用。
在整体趋势上,两者均能跟踪销售的季节变化。Transformer 在节假日后的销售回落段响应更灵敏,预测曲线相比略贴近真实值。
误差在高销售周(峰值)附近显著增大,说明两种模型在极端销量下仍存在欠拟合。但 Transformer 的误差曲线相对更平滑,极端值波动较小,体现了更好的鲁棒性。
总体而言,这一轮实验显示:
Transformer 在捕捉中长期趋势与复杂季节性时略有优势,而 LSTM 在短期平稳段仍具竞争力。
7.4 结论与启示
- 预测精度
- 两种模型在总体指标上差异有限,Transformer 仅小幅领先。
- 当销量波动较大或存在多周期叠加时,Transformer 的表现更稳定。
- 训练效率与稳定性
- Transformer 在 GPU 上能更充分利用并行计算资源,训练速度略快。
- LSTM 收敛更平滑,但对学习率与窗口长度更敏感。
- 模型偏好
- LSTM 适合短期预测或样本量有限场景,结构简单、鲁棒性好;
- Transformer 更适合中长周期预测,尤其是在引入多种外生特征时,注意力层能自适应调整关注区域。
- 改进方向
若希望进一步扩大性能差距,可尝试:
- 引入多层注意力或混合注意力结构;
- 使用更长的输入窗口(在数据充足时);
- 增加节假日、促销、价格等离散外生变量;
- 或采用 LSTM + Transformer 混合架构:前者建模短期局部模式,后者建模长期依赖。
结论:
- 在当前这条周频电商销量时间序列上,Transformer 相比 LSTM 在误差指标上呈现出轻微而稳定的优势,更容易捕捉中长期的趋势与季节性波动;
- LSTM 结构更简洁,在短期模式较为平稳的区间内依然表现良好,也往往是时间序列任务中可靠的基线模型;
- 由于数据长度与实验规模有限,这里的结论主要提供一个 “方法对比的定性参考”,在更大规模、更多品类和更长时间跨度的真实业务场景中,仍需要结合实际数据重新评估两类结构的优劣。
因此,如果任务更关注长期节奏、季节性与多种外生变量之间的复杂交互,Transformer 具有较大潜力;而在资源受限或希望快速建立可用基线时,LSTM 依然是一个简单而稳健的选择。
8. 小结与展望:从记忆到理解
在深度学习的发展历程中,时间序列建模经历了从 “记忆”到“理解” 的根本性变革。这不仅是一场技术的迭代,更是一场关于“时间”如何被机器感知与表达的认知革命。
8.1 三重革命的脉络
- 算法革命:LSTM 解决了记忆遗忘的问题
早期的 RNN 虽然能够处理序列输入,但由于梯度消失与爆炸,模型难以保留长期信息。LSTM 的提出,通过引入门控机制(Gate Mechanism)与细胞状态(Cell State),让神经网络学会“何时记、何时忘”,从而延长了时间依赖的有效跨度。这标志着深度学习从“被动记忆”进入了“主动控制记忆”的阶段。 - 结构革命:Attention 实现了全局建模
注意力机制打破了序列的线性限制,让模型在每一步都能动态地“聚焦”于输入的不同部分。通过计算 Query 与 Key 的相似度,Attention 建立了一种可学习的关系图谱,使模型能够捕捉全局上下文,而不受时间顺序的束缚。这一思想,为后来的 Transformer 奠定了结构基础。 - 范式革命:Transformer 将时间转化为关系
Transformer 进一步摒弃了循环结构,把原本“沿时间传播”的依赖转换为 “通过关系传播”的全局建模。在这个新范式下,时间不再是信息传递的唯一维度,模型可以在任意位置间建立直接联系。
Transformer 的革命性在于:它重新定义了“时间”。 时间不再是顺序的,而是结构的;模型不再被时间限制,而能在关系中理解语义。
8.2 统一的思想:从记忆到理解
如果说 RNN 是“记忆机器”,LSTM 是“有选择的记忆机器”,那么 Attention 与 Transformer 则让机器具备了“理解能力”。
- RNN 学会了“记住过去”;
- LSTM 学会了“有选择地记忆”;
- Attention 学会了“聚焦重要”;
- Transformer 则学会了“理解关系”。
从时间依赖到关系建模,这一演化轨迹本质上是模型认知层次的跃升:从线性思维到结构思维,从被动记忆到主动理解。