优享资讯 | 给大模型考“五三”？清华和曲一线的大模型测评集来了

多知网 ( ) • 2024-03-08 16:20

给大模型考“五三”？清华和曲一线的大模型测评集来了

　　来源|多知网

　　作者|王上

　　针对大模型的考试越来越丰富了!

　　近日，清华⼤学THUNLP实验室和北航、曲⼀线智能出版中⼼联合发布了OlympiadBench，这是⼀个Olympiad-level的双语、多模态的科学评测集，主要评测大模型在数学和物理方面的推理能力。

　　根据OlympiadBench研究团队的论文显示，这套评测集包含了8952条数学和物理问题，这些都来⾃于国际奥赛、中国奥赛、中国⾼考模拟题。

　　这套评测集的特点是：达到奥林匹克竞赛难度，多模态，主要评估⼤模型在数学、物理上的推理能⼒;且是双语的。这是第一个提供双语、多模态的科学基准。

　　曲一线是中国教辅头部企业，旗下“五三”教辅闻名全国。OlympiadBench评测集的推出意味着可以给大模型考“五三”了。

　　各大模型的成绩如何?

　　根据OlympiadBench研究团队的研究结果显示，OpenAI旗下的大模型GPT-4V在OlympiadBench上的平均得分为17.23%，仅在物理学方面得分为11.28%。

　　OlympiadBench出炉：给大模型考试加大难度

　　每一个大模型发布之前，都会公布一些评测数据。这是怎么得出来的?背后就是基准(Benchmarks)评测数据集(简称“评测集”)。

　　为了评估模型的性能，需要使用评测集来测试模型对未见过的数据的预测能力。因此，评测集不同于训练集，两者是独立的。

　　当前，有很多专门人员或者机构来构建测试数据集，可以说他们是针对大模型的“考试题”。

　　比较常用评测集有：

　　GSM8K，一个由8.5K高质量的语言多样化的小学数学问题组成的评测集，采用英文格式。

　　MMLU，该测评数据集为英文格式，涵盖 STEM、人文学科、社会科学等领域的 57 个学科。难度从初级到专业高级，既考验世界知识，又考验解决问题的能力。

　　C-Eval，是首个评估中文基础模型高级知识和推理能力的广泛基准，由清华大学THUNLP实验室联合上海交通大学推出，该评测集包括四个难度级别的多项选择题：初中、高中、大学和专业。

　　MMCU，这是甲骨易AI研究院推出的中文评测数据集，为中文格式，涵盖医学、法律、心理学和教育四大领域，主要是选择题，题目的数量达到1万+，主要评测理解能力。

　　随着大模型的发展，传统的数学、物理基准已经难以满足大模型的快速发展，需要更具难度的评测集来评估。

　　数学、物理难度的最高标准是什么?非奥林匹克竞赛莫属。因此，这个数据集命名为OlympiadBench。这是由清华⼤学和北航、曲⼀线智能出版中⼼联合发布的⼀个Olympiad-level的双语、多模态的科学评测集，来向⼤模型发起挑战。

　　OlympiadBench挑选了国内外奥林匹克竞赛和国内⾼考的的开放性回答题⽬。⽆论是难度还是题⽬形式，均和以往的基准不同，都对模型进⾏⾼阶推理提出更大的挑战性。

　　在学科方面，OlympiadBench选择了数学、物理。数学、物理这两个对⼈类科学极其重要的学科，其中物理的难度不亚于数学，却经常被忽略。

　　在形态上，OlympiadBench是多模态的。随着大模型的快速发展，传统的基准评测集⼀般是只有文本，不满⾜研究需求。尤其是物理和数学经常是很多图形、表格的题目，需要图片上传，OlympiadBench则正好包含了多模态信息。

　　在语言方面，是双语的。⽬前⽐较多的基准评测集⼤都是英⽂的格式，⽽中⽂环境下也缺少有难度的问题。所以OlympiadBench收集了中⽂环境下有难度的问题，为中⽂⼤模型、中⽂的研究提供资源。

　　且每条数据都包含了专家级别标注的解答过程、细分领域、题型等等，以及丰富的数据量。

　　OlympiadBench可以说为推理研究提供了一个资源库。

　　OlympiadBench的评测集是怎样构建的?

　　对于大模型研究来说，数据集的作用非常大。不过，构建测试数据集这件事本身难度很大，比如要构建哪些能力?测评哪些方面?

　　其中，推理能力是重要的评测标准。

　　OlympiadBench团队的出发点是，通过OlympiadBench建⽴⼀个代表⼈类智⼒成就顶峰的基准，从⽽⿎励研究⼈员推动⼤模型的数学和物理推理能⼒的边界。

　　为了实现这⼀愿景，OlympiadBench团队收集了国内外奥林匹克竞赛题⽬以及国内的⾼考题⽬：

　　对于奥林匹克竞赛题目，OlympiadBench研究团队从官⽅下载PDF，并使⽤Mathpix转化为markdown。

　　研究团队对处理的结果进⾏细致的校对、修复。然后进⾏统⼀去重。

　　最后，按照细分领域、题型、答案格式和子字段等关键信息进⾏属性标注，从⽽获得⼀个含有多种详细分类且⼲净、准确和详细的数据集。

　　(OlympiadBench评测集构建流程)

　　对于国内高考题目，OlympiadBench研究团队选择曲一线的“五三”教辅，这集合了从2005年到现在历年的高考模拟题和真题。

　　(详细的数据集)

　　实际上，曲一线很早就开始了数字化，曲⼀线智能出版中⼼就是专门做数字化内容的部门。此前，“五三”此前也进入了小猿智能本、有道等智能硬件。

　　可以说，“五三”教辅是一个现成的中文高考评测集，有详细的题目和解题过程，且均是标注好的。

　　曲一线团队告诉多知网：“‘五三’题库非常精准，题目和答案都经历了三审三校的过程，差错率远低于国内对出版要求的万分之一。”

　　OlympiadBench采用“五三”教辅，对于曲一线而言，一方面象征着其数字化内容得到了更为深入的应用，另一方面也强化了其品牌势能。

　　结果来了：GPT-4V平均准确率为17.23%

　　大模型在OlympiadBench评测集的表现如何?

　　在研究上，为了更准确全⾯的评估，OlympiadBench研究团队举例针对以上五种答案题型的题⽬，构建了⼀个⾃动评分的路径。

　　OlympiadBench测试了5家大模型(当时Anthropic推出Claude 3大模型还未面市，因此不在其中)，包括微软、零一万物、谷歌、通义千问和OpenAI旗下的大模型。

　　从测试结果可以看到，OlympiadBench⽐现在基准评测集更具有挑战性，OpenAI旗下GPT-4V的平均准确率仅为17.23%，通义千问旗下Qwen-VL-Max平均准确率为10.31%，谷歌旗下Gemini-Pro-Vision平均准确率为4.38%。

　　(实验结果)

　　从理论上来看，大模型通过各项基准测试的数据越高，在一定程度上意味着越接近AGI，即能达到人类水平。从OlympiadBench测试结果来看，各家大模型离AGI还有一定的差距。

　　OlympiadBench研究团队还对大模型测试结果分析了错误的原因。

　　(错误类型)

　　论文提到，对于证明题的分析，GPT-4V在Math-Zh_COMP的81道题中只答对了6道，都是相对简单经典的结论或者只涉及简单的计算推导，在Math-En_COMP中基本⽆法在标记限制内完成证明，表明现有模型仍⽆法有效解决冗⻓的推理和证明。

　　同时GPT-4V暴露了⼏个问题，包括：⽆法充分利⽤图像信息；倾向于在简化和转换代数表达式时犯错误；提出简单、基本的不正确结论等。

　　目前，OlympiadBench已经全部公开，相信不久的将来，会有更多大模型用OlympiadBench评测集进行测试。

　　研究团队表示，希望OlympiadBench可以为推动AGI的发展提供帮助，另外科学的评测集也不仅限于数学、物理，未来也将继续扩展基准，来提供更全⾯的评估。

　　END

　　本文作者：王上