新聞 | iThome ( ) • 2024-04-19 12:02
图片来源: 

Meta

Meta周四(4/18)释出新一代的开源大型语言模型Meta Llama 3,目前具备Llama 3 8B及Llama 3 70B两种版本,即将透过AWS、Databricks、Google Cloud、Hugging Face、Kaggle、IBM WatsonX、Microsoft Azure、NVIDIA NIM与Snowflake等平台供应。

Meta表示,该公司对Llama 3的目标是可与现今最好的专有模型媲美,并提高Llama 3的整体实用性,由于改善了预训练与后训练,大幅减少错误拒绝率,改善一致性,强化了模型反应的多样性,且不管是在推论、程式码生成或指令遵循上都有所进步。

于是,若相较于Gemma 7B-it及Mistral 7B Instruct这两个分别由Google及Mistral AI所发表的开源模型,Llama 3 8B不管是在MMLU、GPQA、HumanEval、GSM-8K或MATH等基准测试上都大幅胜出。若以Llama 3 70B来比较商用的Gemini Pro 1.5及Claude 3 Sonnet,那么,Llama 3 70B全面赢过了Claude 3 Sonnet,也在MMLU、HumanEval与GSM-8K上超越Gemini Pro 1.5。

图片来源_Meta

Llama 3不仅追求基准测试上的效能,也希望能最佳化其真实场景的应用,因而打造出一个新的人类评估集,涵盖了12个关键应用的1,800个提示,包括寻求建议、脑力激荡、分类、封闭式问答、撰写程式码、创意写作、萃取、塑造角色、开放式问答、推论、改写与概要等,结果发现Llama 3 70B在大多数情况下的表现,都凌驾了Claude Sonnet、Mistral Medium及GPT-3.5。

图片来源_Meta

Llama 3使用了一个具备12.8万个Token词汇的标记器,可更有效地将语言编码,以提高模型对文本的理解,另也借由分组查询注意力(Grouped Query Attention,GQA),以长达8,192个Token的序列来训练模型,同时使用Mask来确保模型的注意力不越界,以改善推论成效。

此外,Llama 3是在超过15T个Token的资料上进行预训练,用来训练的资料集是Llama 2所使用的7倍大,当中所包含的程式码是之前的4倍多,而且有超过5%的训练内容来自于非英文的资料,这些资料是由逾30种语言组成。Meta也坦承,其它语言在Llama 3上的表现无法与英文一致。

为了训练最大的Llama 3模型,Meta结合了3种平行化策略,包括资料平行化、模型平行化与管道平行化,有助于将模型训练的运算分散到不同的运算设备上,因而在1.6万个GPU上进行训练时,每个GPU的利用率超过400 TFLOPS,亦于两个客制化、具备2.4万个GPU的丛集上进行训练,也为了最大化GPU的利用率,打造先进的训练堆叠以自动化错误的侦测、处理与维护。

再加上改善了硬体可靠性与侦测机制,发展更具弹性的储存系统,而令Llama 3模型的训练效率比Llama 2提高了3倍。

Llama 3模型很快就会登上各大云端平台,或是透过模型API供应商释出,Meta将会继续改善Llama 3,也正在开发最大的、具备4,000亿个参数的Llama 3模型,尽管现在的Llama 3 400B还未完成,但Meta已公布它现有的基准测试成绩供外界一睹为快。