Transformer 的计算,出现序列长度坍缩(Sequence Length Collapse)导致自注意力机制失效。 模型实际上变成了一个拥有 40,000 个输入维度的深层 MLP。 40,000 维的特征空间对于 871 个样本来说太“宽阔”了。模型通过极其复杂的非线性映射,轻而易举地在训练集里画出了分类界线。 acc为0.677273,4% 的提升让我觉得“Transformer 的全局建模能力起作用了”,但实际上,似乎这只是深度模型靠参数量硬堆出来的拟合能力。