优享资讯 | 如何评价微软发布的 phi-3？

知乎热榜 ( ) • 2024-04-24 10:16

如何评价微软发布的 phi-3？

Sam多吃青菜的回答

大家还沉浸在LLaMa3的热度中，微软发布的Phi-3-mini就又夺走了(小)大模型的桂冠，让我们看到了手机等移动设备端侧部署LLM的曙光。目前模型权重还未开源，之前phi-2是MiT License开源，期待一波。论文中的亮点如下：

参数量和性能：以3.8B的参数量匹敌LlaMa3-8b、GPT-3.5和Mistral-8x7b，经过int4量化可以运行在iPhone上，每秒12个token，只需要1.8G内存。

匹敌参数量更大的LlaMa3-8b、GPT-3.5和Mistral-8x7b的性能在iPhone上的表现

2. 数据为王：使用了3.3T tokens的高质量数据，包括LLM过滤的网页数据和LLM生成数据。预训练分两个阶段，第一阶段在整个数据集上训练，学习基本的语言能力和世界知识；第二阶段在高质量的子集上继续训练，着重逻辑推理等高阶能力。

3. 模型结构和训练方面的细节：使用GQA，上下文4k，还发布了LongRope优化的128k长上下文版本。使用DPO做RLHF。

我是 @Sam多吃青菜，一枚即将从北大毕业的NLPer，日常更新LLM和深度学习领域前沿进展，也接算法面试辅导，欢迎关注和赐读往期文章，多多交流讨论：

为什么现在的LLM都是Decoder only的架构？在用llava架构训vlm时，llm基模选择base模型好还是chat模型好呢？Llama 3 发布，那些信息值得关注？llama3来了，提升大吗？羊驼家族还能引领LLM开源浪潮吗？Sam多吃青菜：大模型微调新范式：当LoRA遇见MoE Sam多吃青菜：算法冷知识第1期-大模型的FFN有什么变化？Sam多吃青菜：算法冷知识第2期-一文看遍节省显存技巧（附代码）Sam多吃青菜：算法冷知识第3期-1B参数的大模型训练需要多少显存？Sam多吃青菜：算法冷知识第4期-LoRA为什么能加速大模型训练？别想得太简单哦 Sam多吃青菜：算法冷知识第5期——L2正则化和Weight Decay总是分不清？AdamW经典重温 Sam多吃青菜：算法冷知识第6期——适合大模型训练的浮点格式BF16 机器学习中有哪些形式简单却很巧妙的idea？NLP中有什么比较好的sentence/paragraph embedding方法？Sam多吃青菜：开卷翻到毒蘑菇？浅谈大模型检索增强（RAG）的鲁棒性 Sam多吃青菜：LLaMA2+RLHF=脆皮大模型？ICLR 2024 高分投稿：多样性驱动的红蓝对抗深度学习调参有哪些技巧？Sam多吃青菜：大模型对齐的奇兵——黑盒 Prompt 优化BPO Sam多吃青菜：个性有了，心眼坏了？大模型微调的潜在危害 Transformer解码器推理速度慢怎么优化？现在的深度学习的模型越来越大，有个结论是说，大脑的激活是非常稀疏的，对模型参数有什么好的办法压缩吗?

#LLM #人工智能 #深度学习 #自然语言处理 #NLP #算法面试 #大模型 #ChatGPT

相关内容

雷军回应“不应给年轻人太多建议”；微软发现严重安全漏洞：受影响Android应用安装量超40亿次 | 极客头条

微软公布安全未来倡议的6大支柱，部署全新的安全治理框架

李飞飞首次创业：瞄准空间智能；巴菲特股东大会谈AI：与核武器相似；69岁比尔·盖茨被曝主导微软OpenAI联姻 | AI 周报

研究机构：今年第一季度微软 Azure 云服务市场占比 25%，正逐步追赶亚马逊 AWS

Synergy Research Group研究：微软云端服务逐渐缩小与AWS的差距

微软宣布将在马来西亚投资 22 亿美元

微软发现严重安全漏洞：受影响安卓应用安装量超40亿次！

微软发现严重安全漏洞：受影响Android应用安装量超40亿次

微软 MSN 天气引入全新 AI 模型：一周预报准确度提升 17%、可预测 30 日天象

微软终于为更多Windows 10用户提供了直接升级到Windows 11 23H2的能力