Long
Sequence
Input
长序列输入
RNN
Processing
Core
问题暴露
Problem Layer
梯度爆炸
早期信息梯度指数级暴涨
数值失控
梯度变为无穷大的无效数值
1
正常
10
增大
50
暴涨
爆炸
技术突破
Solution Layer
梯度裁剪
限制梯度最大值防止爆炸
权重正则化
控制权重大小稳定训练