优享资讯 | IBM与NASA共同开发科学文献专用大型语言模型

新聞 | iThome ( ) • 2024-03-14 17:24

IBM与NASA合作创建Transformer架构大型语言模型，针对科学文献进行训练，提高包括分类、实体撷取、问答和资讯检索等各种科学自然语言理解任务的效能。目前相关模型已经在Hugging Face上开源，供科学与学术社群使用。

研究人员解释，大型语言模型的能力来自于对语言的统计理解。这些模型接受遮罩语言模型任务训练，借由重构已被遮蔽单字的句子来进行学习。研究人员借由随机遮蔽句子中的单词，要求模型预测被遮蔽的单字，而这有助于模型理解单词之间的关系，以及这些单词如何共同决定句子的意思。

在这个过程，标记器（Tokenizer）是一个重要的工具，可以将单字分解成模型可以理解的单位，对于模型学习大量词汇非常重要。IBM表示，使用维基百科或是BooksCorpus等资料训练标记器，通常对通用文字标记器很有效，但在科学领域，需要能够处理像是Phosphatidylcholine这种专业术语的标记器。

科学领域的文本经常包含特殊术语和复合词，一般标记器难以正确处理这些词，因此训练针对专门领域的标记器，对于提高模型在特定领域的表现非常重要。研究人员使用来自天文物理学、地球科学与太阳圈物理学（Heliophysics）等多个专业领域的资料集的600亿个Token来训练模型。

科学文献用的标记器与通用标记器有很大的不同，科学文献用的标记器要能够辨识Axes和Polycrystalline这类科学术语，IBM-NASA新开发的模型，其所处理的5万个Token中，有一半都是Hugging Face其他开源的RoBERTa模型未曾出现的。

在用于评估模型处理生物医学任务表现的基准测试BLURB，IBM-NASA模型的分数也较其他开源的RoBERTa模型高出5％。另外，该模型在内部科学问答的基准测试的F1分数提高了2.4％，在地球科学实体辨识的内部测试上，也改进了5.5％。

这个IBM-NASA编码器模型可针对许多非生成式语言任务微调，并且透过检索增强生成（RAG）技术生成资讯丰富的嵌入，用于文件检索任务上。研究人员利用编码器模型建立检索器模型，以产生资讯丰富的嵌入，映射文字对（Pairs of Text）之间的相似性，使得检索模型学习根据问题，找出最相关的文件或是资讯。

而研究人员用来训练检索模型的文字对有2.68亿笔，包括标题、摘要以及问题和答案，使其能够良好地处理NASA所准备的问题测试集，与经过类似微调的RoBERTa模型相比，检索模型效能提升了6.5％，与另一种开源嵌入模型BGE-base相比，效能也上升5％。

IBM与NASA的研究人员透过专门的训练资料、自订标记器和特别的训练方法，强化科学文献用的大型语言模型。现在编码器模型和检索器模型都已经在Hugging Face上开源，IBM也与NASA进一步合作，将这些模型用于强化科学搜寻引擎。