优享资讯 | Meta释出最新的开源大型语言模型Meta Llama 3

新聞 | iThome ( ) • 2024-04-19 12:02

图片来源:

Meta

Meta周四（4/18）释出新一代的开源大型语言模型Meta Llama 3，目前具备Llama 3 8B及Llama 3 70B两种版本，即将透过AWS、Databricks、Google Cloud、Hugging Face、Kaggle、IBM WatsonX、Microsoft Azure、NVIDIA NIM与Snowflake等平台供应。

Meta表示，该公司对Llama 3的目标是可与现今最好的专有模型媲美，并提高Llama 3的整体实用性，由于改善了预训练与后训练，大幅减少错误拒绝率，改善一致性，强化了模型反应的多样性，且不管是在推论、程式码生成或指令遵循上都有所进步。

于是，若相较于Gemma 7B-it及Mistral 7B Instruct这两个分别由Google及Mistral AI所发表的开源模型，Llama 3 8B不管是在MMLU、GPQA、HumanEval、GSM-8K或MATH等基准测试上都大幅胜出。若以Llama 3 70B来比较商用的Gemini Pro 1.5及Claude 3 Sonnet，那么，Llama 3 70B全面赢过了Claude 3 Sonnet，也在MMLU、HumanEval与GSM-8K上超越Gemini Pro 1.5。

图片来源_Meta

Llama 3不仅追求基准测试上的效能，也希望能最佳化其真实场景的应用，因而打造出一个新的人类评估集，涵盖了12个关键应用的1,800个提示，包括寻求建议、脑力激荡、分类、封闭式问答、撰写程式码、创意写作、萃取、塑造角色、开放式问答、推论、改写与概要等，结果发现Llama 3 70B在大多数情况下的表现，都凌驾了Claude Sonnet、Mistral Medium及GPT-3.5。

图片来源_Meta

Llama 3使用了一个具备12.8万个Token词汇的标记器，可更有效地将语言编码，以提高模型对文本的理解，另也借由分组查询注意力（Grouped Query Attention，GQA），以长达8,192个Token的序列来训练模型，同时使用Mask来确保模型的注意力不越界，以改善推论成效。

此外，Llama 3是在超过15T个Token的资料上进行预训练，用来训练的资料集是Llama 2所使用的7倍大，当中所包含的程式码是之前的4倍多，而且有超过5%的训练内容来自于非英文的资料，这些资料是由逾30种语言组成。Meta也坦承，其它语言在Llama 3上的表现无法与英文一致。

为了训练最大的Llama 3模型，Meta结合了3种平行化策略，包括资料平行化、模型平行化与管道平行化，有助于将模型训练的运算分散到不同的运算设备上，因而在1.6万个GPU上进行训练时，每个GPU的利用率超过400 TFLOPS，亦于两个客制化、具备2.4万个GPU的丛集上进行训练，也为了最大化GPU的利用率，打造先进的训练堆叠以自动化错误的侦测、处理与维护。

再加上改善了硬体可靠性与侦测机制，发展更具弹性的储存系统，而令Llama 3模型的训练效率比Llama 2提高了3倍。

Llama 3模型很快就会登上各大云端平台，或是透过模型API供应商释出，Meta将会继续改善Llama 3，也正在开发最大的、具备4,000亿个参数的Llama 3模型，尽管现在的Llama 3 400B还未完成，但Meta已公布它现有的基准测试成绩供外界一睹为快。