知乎热榜 ( ) • 2024-04-18 15:42
苏剑林的回答

FFN有两个常见变体,一个是LLAMA用的GLU,一个是稀疏化的MoE,目前三者都有一席之地。FFN不是不能改,而是FFN本身已经足够简单,而且足够有效,你改的话只能往复杂里改,还不一定有效,何必呢。

相反,Attention部分虽然有很多魔改工作,但多数都是ChatGPT出来之前的结果,大部分工作目前看来已经过时,在LLM的今天,主流的Attention形式依然是最早Transformer的scaled-dot product形式(顶多加了个RoPE),所以Attention才是几乎没变化的那个。

不限定Attention的话,还有一些想用RNN、Linear Attention等替换二次型Attention的尝试,但不管如何,在目前仍属于非主流选择。