优享资讯 | 人工智能在几乎所有性能基准测试中都超过了人类

cnBeta.COM - 中文业界资讯站 ( ) • 2024-04-19 16:03

回顾过去两年人工智能的整体进步...人工智能在很多领域都在快速追赶人类，坦率地说，我们需要新的测试。斯坦福大学以人为中心的人工智能研究所（HAI）发布了第七期年度人工智能综合指数报告，该报告由一个跨学科的学术和工业专家团队撰写。

与前几期相比，本期内容更丰富，反映了人工智能的快速发展及其在我们日常生活中日益增长的重要性。从哪些行业使用人工智能最多，到哪个国家最担心人工智能会导致失业，报告都进行了研究。但报告中最突出的一点是人工智能在与人类竞争时的表现。

对于没有关注人工智能的人来说，人工智能已经在许多重要的基准测试中击败了我们。2015 年，它在图像分类方面超过了我们，然后是基本阅读理解（2017 年）、视觉推理（2020 年）和自然语言推理（2021 年）。

人工智能变得如此聪明，速度如此之快，以至于在此之前使用的许多基准现在都已过时。事实上，该领域的研究人员正在争分夺秒地开发新的、更具挑战性的基准。简单地说，人工智能通过测试的能力越来越强，以至于我们现在需要新的测试--不是为了衡量能力，而是为了突出人类和人工智能仍有差异的领域，找到我们仍有优势的地方。

值得注意的是，下面的结果反映的是使用这些旧的、可能已经过时的基准进行的测试。但总体趋势仍然非常明显：

人工智能已经超越了人类的许多性能基准

看看这些轨迹，尤其是最近的测试是如何用一条接近垂直的线来表示的，需要知道的是这些机器还只是蹒跚学步的婴儿。

新的人工智能指数报告指出，到2023年，人工智能在高级数学问题解决和视觉常识推理等复杂的认知任务上仍将举步维艰。不过，这里的"挣扎"可能会引起误解；这当然并不意味着人工智能做得很差。

MATH 是一个包含 12500 个具有挑战性的竞赛级数学问题的数据集，自推出以来的两年中，其性能得到了显著提高。2021 年，人工智能系统只能解决 6.9% 的问题。相比之下，在 2023 年，基于 GPT-4 的模型解决了 84.3% 的问题。人类的基线是 90%。

我们这里说的不是普通人；我们说的是能解决这样的测试题的人：

向人工智能提出的数学问题示例

这就是 2024 年高等数学的发展状况，我们仍然处于人工智能时代的黎明期。

然后是视觉常识推理（VCR）。除了简单的物体识别外，VCR 还能评估人工智能如何在视觉环境中利用常识性知识进行预测。例如，当看到桌子上有一只猫的图像时，具有 VCR 的人工智能应该预测猫可能会从桌子上跳下来，或者根据猫的重量，预测桌子足够结实，可以容纳猫。

报告发现，在 2022 年至 2023 年期间，VCR 增加了 7.93%，达到 81.60，而人类的基线是 85。

用于测试人工智能视觉常识推理的示例问题

把思绪拉回到五年前。想象一下，即使你想给电脑看一张图片，并期望它能"理解"上下文，从而回答这个问题。

如今，人工智能可以生成许多行业的书面内容。但是，尽管取得了巨大进步，大型语言模型（LLM）仍然容易产生'幻觉'。"幻觉"是OpenAI等公司推崇的一个非常柔和的术语，大致意思是"将虚假或误导性信息作为事实呈现"。

去年，人工智能的"幻觉"倾向让纽约律师史蒂文-施瓦茨（Steven Schwartz）尴尬不已，他使用 ChatGPT 进行法律研究，却没有对结果进行事实核查。审理此案的法官很快就发现了人工智能在提交的文件中捏造的法律案件，并对施瓦茨的粗心大意处以 5000 美元（7750 澳元）的罚款。他的故事成为了全球新闻。

HaluEval被用作幻觉的基准。测试表明，对许多当地语言学习者来说，幻觉仍然是一个重要问题。

真实性是生成式人工智能的另一个难点。在新的人工智能指数报告中，TruthfulQA被用作测试法律硕士真实性的基准。它的 817 个问题（涉及健康、法律、金融和政治等主题）旨在挑战我们人类常犯的错误观念。

2024 年初发布的 GPT-4 在基准测试中取得了 0.59 的最高分，比 2021 年测试的基于 GPT-2 的模型高出近三倍。这样的进步表明，在给出真实答案方面，LLM 的性能正在逐步提高。

人工智能生成的图像如何？要了解文本到图像生成的指数级改进，请查看 Midjourney 自 2022 年以来在绘制《哈利-波特》方面所做的努力：

渐进式版本的 Midjourney 如何改进文本到图像的生成

这相当于人工智能 22 个月的进步。你认为人类艺术家需要多长时间才能达到类似的水平？

利用文本到图像模型整体评估（HEIM），对 LLM 的文本到图像生成能力进行了基准测试，测试涉及对图像的"实际部署"非常重要的 12 个关键方面。

人类对生成的图像进行了评估，发现没有一个模型在所有标准中都表现出色。在图像与文本的对齐度或图像与输入文本的匹配度方面，OpenAI 的DALL-E 2得分最高。基于Stable Diffusion的梦幻般逼真模型在质量（照片的逼真程度）、美学（视觉吸引力）和原创性方面排名最高。

明年的报告会更精彩

您会注意到，这份人工智能指数报告的截止时间是 2023 年年底，这一年是人工智能加速发展的动荡之年，也是人工智能发展的地狱之年。事实上，唯一比 2023 年更疯狂的年份是 2024 年，在这一年里，我们看到了Suno、Sora、Google Genie、Claude 3、Channel 1 和Devin 等重大发展成果的发布。

这些产品和其他一些产品都有可能彻底改变整个行业。而 GPT-5 这个神秘的幽灵正笼罩着它们，它有可能成为一个广泛而无所不包的模式，从而吞噬所有其他模式。

人工智能不会消失，这是肯定的。从本报告中可以看出，整个 2023 年的技术发展速度非常快，这表明人工智能只会不断发展，不断缩小人类与技术之间的差距。

我们知道这有很多东西需要消化，但还有更多。报告还探讨了人工智能发展的弊端，以及它如何影响全球公众对其安全性、可信度和道德的看法。

敬请期待本系列报道的第二部分！