Review on transformer

Transformer 的计算，出现序列长度坍缩（Sequence Length Collapse）导致自注意力机制失效。
模型实际上变成了一个拥有 40,000 个输入维度的深层 MLP。
40,000 维的特征空间对于 871 个样本来说太“宽阔”了。模型通过极其复杂的非线性映射，轻而易举地在训练集里画出了分类界线。
acc为0.677273，4% 的提升让我觉得“Transformer 的全局建模能力起作用了”，但实际上，似乎这只是深度模型靠参数量硬堆出来的拟合能力。