由于注意力计算方式的不同 fastattention似乎不能用于序列预测任务?
由于注意力计算方式的不同 fastattention似乎不能用于序列预测任务?