知乎热榜 ( ) • 2024-05-02 21:54
孙挺Sunt的回答

OPT-175B。

Offline inference:参见盛颖他们的ICML 2023 FlexGen,用长达数小时的延迟换吞吐。

Interactive inference:参见上交的PowerInfer,利用了ReLU引起的稀疏性减少了显存压力。