南方周末-推荐 ( ) • 2024-04-30 13:53
大小模型搭配,用合适的模型解决特定的问题,“本地+云端”的方式,对用户更加适用。

责任编辑:黄金萍

4 月 23 日,微软推出小语言模型(SLM)Phi-3系列,有Phi-3-mini、Phi-3-small、Phi-3-medium三个版本,在评估语言、编程、数学能力等的基准测试中,Phi-3系列模型表现优于同等规模甚至更大规模模型(如GPT-3,5)。微软称其是目前同类中最强大且最具成本效益的小型语言模型。

Phi-3模型的“小体积”,让手机上运行高能力的语言模型成为可能。如Phi-3-mini只占用手机18GB内存,如在iPhone 14上部署,苹果的A16仿生芯片在设备上脱机运行,可以实现每秒超过12个token。

自2022年12月ChatGPT爆火之后,科技公司们一头扎进了大型模型的竞争,2023年接连刷新模型参数,2024年开始“内卷长文本。大家似乎默认数据越多、参数越大、算力越强,模型的能力越强。

但是,高昂的运行成本、具体场景模型调试难度等问题,让大模型商业化的路径慢下来。此时小模型的优势就体现出来了。

小模型,目前某些领域也能接近大模型的性能。特别是在各手机和PC厂商正在力推的AIPC、AI手机上,对设备计算能力、运行能力、储存能力要求较低,能在地化运行的小模型,的确是不错的选择。

其实早在2023年6月份,微软就发布了第一代Phi模型,Phi-3系列已经是其第四代产品。近期,苹果公司也凑了小模型的热闹。

2024年4月24日,在大模型上没有什么动静的苹果公司,发布开源小语言模型OpenELM,包括

登录后获取更多权限

立即登录

校对:胡晓

欢迎分享、点赞与留言。本作品的版权为南方周末或相关著作权人所有,任何第三方未经授权,不得转载,否则即为侵权。