优享资讯 | Nvidia开源Nemotron-4 340B家族，以供开发者建置大型语言模型

新聞 | iThome ( ) • 2024-06-17 16:10

Nvidia开源Nemotron-4 340B家族，以供开发者建置大型语言模型

图片来源:

Hugging Face

Nvidia上周开源了Nemotron-4 340B模型家族，它包含了基础模型、指令模型及奖励模型，可用来生成合成资料，借以训练大型语言模型（LLM），现已可自Hugging Face下载，之后也能透过Nvidia网站以API及NIM微服务来存取模型。

Nvidia表示，高品质的训练资料对一个客制化LLM的性能及准确度都很重要，但强大的资料集既难存取又昂贵，现在开发者可借由开放模型授权来免费存取Nemotron-4 340B，以生成合成资料，并建置强大的LLM。该模型家族支援医疗照护、金融、制造、零售与其它领域的商业应用。

其中，Nemotron-4 340B的基础模型在9兆个Token上进行训练，可利用NeMo框架进行客制化，以支援特定领域；而指令模型则是用来创建模仿真实世界资料特征的各种合成资料，以提高不同领域的资料品质；再利用奖励模型进行过滤，进而获得更高品质的回应。总之，Nemotron-4 340B的3种模型建立了一个管道，以生成及优化用来训练LLM的合成资料。

此外，上述模型已针对NeMo框架及TensorRT-LLM函式库进行最佳化，前者可用来支援端对端的模型训练，后者则是用来加速推论。