知乎热榜 ( ) • 2024-04-24 10:16
Sam多吃青菜的回答

大家还沉浸在LLaMa3的热度中,微软发布的Phi-3-mini就又夺走了(小)大模型的桂冠,让我们看到了手机等移动设备端侧部署LLM的曙光。目前模型权重还未开源,之前phi-2是MiT License开源,期待一波。论文中的亮点如下:

  1. 参数量和性能:以3.8B的参数量匹敌LlaMa3-8b、GPT-3.5和Mistral-8x7b,经过int4量化可以运行在iPhone上,每秒12个token,只需要1.8G内存。
匹敌参数量更大的LlaMa3-8b、GPT-3.5和Mistral-8x7b的性能在iPhone上的表现

2. 数据为王:使用了3.3T tokens的高质量数据,包括LLM过滤的网页数据和LLM生成数据。预训练分两个阶段,第一阶段在整个数据集上训练,学习基本的语言能力和世界知识;第二阶段在高质量的子集上继续训练,着重逻辑推理等高阶能力。

3. 模型结构和训练方面的细节:使用GQA,上下文4k,还发布了LongRope优化的128k长上下文版本。使用DPO做RLHF。


我是 @Sam多吃青菜 ,一枚即将从北大毕业的NLPer,日常更新LLM和深度学习领域前沿进展,也接算法面试辅导,欢迎关注和赐读往期文章,多多交流讨论:

为什么现在的LLM都是Decoder only的架构?在用llava架构训vlm时,llm基模选择base模型好还是chat模型好呢?Llama 3 发布,那些信息值得关注?llama3来了,提升大吗?羊驼家族还能引领LLM开源浪潮吗?Sam多吃青菜:大模型微调新范式:当LoRA遇见MoESam多吃青菜:算法冷知识第1期-大模型的FFN有什么变化?Sam多吃青菜:算法冷知识第2期-一文看遍节省显存技巧(附代码)Sam多吃青菜:算法冷知识第3期-1B参数的大模型训练需要多少显存?Sam多吃青菜:算法冷知识第4期-LoRA为什么能加速大模型训练?别想得太简单哦Sam多吃青菜:算法冷知识第5期——L2正则化和Weight Decay总是分不清?AdamW经典重温Sam多吃青菜:算法冷知识第6期——适合大模型训练的浮点格式BF16机器学习中有哪些形式简单却很巧妙的idea?NLP中有什么比较好的sentence/paragraph embedding方法 ?Sam多吃青菜:开卷翻到毒蘑菇?浅谈大模型检索增强(RAG)的鲁棒性Sam多吃青菜:LLaMA2+RLHF=脆皮大模型?ICLR 2024 高分投稿:多样性驱动的红蓝对抗深度学习调参有哪些技巧?Sam多吃青菜:大模型对齐的奇兵——黑盒 Prompt 优化BPOSam多吃青菜:个性有了,心眼坏了?大模型微调的潜在危害Transformer解码器推理速度慢怎么优化?现在的深度学习的模型越来越大,有个结论是说,大脑的激活是非常稀疏的,对模型参数有什么好的办法压缩吗?

#LLM #人工智能 #深度学习 #自然语言处理 #NLP #算法面试 #大模型 #ChatGPT