从 RNN 到 Transformer:时间建模的变革
1. 时间依赖与梯度消失:序列建模的困境
在很多经典的图像任务中,我们通常假设不同样本之间是独立同分布的(i.i.d.)——也就是说,一张图片与另一张图片在统计上是相互独立的,模型只需要把一张图片看作一个整体输入来处理即可。卷积网络(CNN)则利用图像内部像素之间强烈的局部相关性,通过卷积核在空间上提取局部到全局的层级特征。
但在处理序列任务(sequence modeling)时情况就完全不同了:语言、语音、时间序列信号都具有明显的时间依赖,同一个序列内部,不同时间步之间往往高度相关。要正确预测下一个值、下一个词或下一个声音,模型必须记住同一条序列中之前发生过什么。这一点正是循环神经网络(Recurrent Neural Network, RNN)诞生的核心动机。