孙挺Sunt的回答
OPT-175B。
Offline inference:参见盛颖他们的ICML 2023 FlexGen,用长达数小时的延迟换吞吐。
Interactive inference:参见上交的PowerInfer,利用了ReLU引起的稀疏性减少了显存压力。
OPT-175B。
Offline inference:参见盛颖他们的ICML 2023 FlexGen,用长达数小时的延迟换吞吐。
Interactive inference:参见上交的PowerInfer,利用了ReLU引起的稀疏性减少了显存压力。