时序卷积网络(TCN)百科全书用卷积征服序列
一、开篇:卷积也能做序列
2018 年 3 月,一篇看似"挑衅"的论文出现在 arXiv 上:
An Empirical Evaluation of Generic Convolutional and Recurrent Networks for Sequence Modeling
Shaojie Bai, J. Zico Kolter, Vladlen Koltun
Carnegie Mellon University / Intel Labs
论文的核心论点直接而大胆:
在大多数序列建模任务上,一个简单的卷积网络(TCN)能够超过 LSTM、GRU 等经典循环网络——而且训练更快、梯度更稳定。
这在 2018 年是个反常识的说法。
当时的"常识"
2018 年,序列建模的世界被RNN 家族统治:
- RNN(1986):处理序列的标准方法
- LSTM(1997):解决长程依赖的王者
- GRU(2014):LSTM 的简化版
- Seq2Seq(2014):机器翻译的标准框架
