优享资讯 | 为什么transformer里面的自注意力总是被魔改，但里面的FFN却始终不变？

知乎热榜 ( ) • 2024-04-18 15:42

为什么transformer里面的自注意力总是被魔改，但里面的FFN却始终不变？

苏剑林的回答

FFN有两个常见变体，一个是LLAMA用的GLU，一个是稀疏化的MoE，目前三者都有一席之地。FFN不是不能改，而是FFN本身已经足够简单，而且足够有效，你改的话只能往复杂里改，还不一定有效，何必呢。

相反，Attention部分虽然有很多魔改工作，但多数都是ChatGPT出来之前的结果，大部分工作目前看来已经过时，在LLM的今天，主流的Attention形式依然是最早Transformer的scaled-dot product形式（顶多加了个RoPE），所以Attention才是几乎没变化的那个。

不限定Attention的话，还有一些想用RNN、Linear Attention等替换二次型Attention的尝试，但不管如何，在目前仍属于非主流选择。