新智元报谈CYL699.VIP
剪辑:KingHZ
【新智元导读】AI模子可能并莫得念念象中浩瀚。在最新的AI基准测试「东谈主类临了一次考试」中,整个顶尖LLM通过率不高出10%,而况模子齐发挥得过度自信。
捍卫「东谈主类贤人」临了一战!
刚刚,Scale AI和Center for AI Safety(CAIS)公布了「东谈主类临了一场考试」着力!
新基准全称「东谈主类临了一次考试」(Humanity’s Last Exam),简称「HLM」,包含3000个问题,由数百位规模各人拓荒,用于追寻东谈主类知识推理的规模。
现在,最佳的模子,准确率也小于10%,而况自信「过甚」。
具体着力如下:
Scale AI和CAIS同期公布了关系论文、数据集和测试代码。
名目相接:https://lastexam.ai/
《泰拉科技》故事背景设定在遥远的未来,作为远离地球的探矿者你的工作就是不停的在外星球上探索前行,收集所有的好东西,带回家获得报酬。在这个星球上你需要寻找各种稀有资源,因为最稀有的资源可以打造出最好的装备,你就可以用以摧毁敌人的基地,扩大自己的地盘,这样你的安全就可以获得保证。
你觉得这张海报能引起你对《星际:异端先知》的兴趣吗?
网友对这项责任也不惜唱和:
「东谈主类临了一次考试」
为了评估AI的技艺的进展,已发布了多个数据集,针对言语模子,左证「Paper with code」网站统计,就有165个关总计据集。
然则,现在的基准测试难度并未跟上高出的容颜:LLM在一些热点基准测试(如MMLU)上已能达到90%以上的准确率,这甘休了对最新LLM技艺的灵验评估。
为此,Scale AI和CAIS推出了名为「东谈主类临了的考试」(Humanity's Last Exam)的多模态基准测试,旨在成为这类闭塞式学术基准测试的最终版块,秘密无为的学科规模。
测评一览
「东谈主类临了一次考试」(HLE)包含两种问题法子:
精准匹配题(Exact-Match Questions):模子需要输出一个全齐匹配的字符串手脚谜底。
采纳题(Multiple-Choice Questions):模子需要从五个或更多选项中采纳一个正确谜底。
此外,HLE是一个多模态基准测试,其中10%的问题条款意会文本和图像参考,80%的问题为精准匹配题,其余为采纳题。
该数据集包含3000谈难度较高的问题,波及100多个学科。
各学科分类,大体如下:
图3:HLE高档类别分组。
大部分问题已公拓荒布,同期保留了一部分独到测试集,用于评估模子是否存在过拟合表象。
在名目网站上,公布了不同规模/科预计打算8个样题,包含化学、物理、数学、狡计机科学、言语学等。
比如,其中的一起知识性问题:
希腊听说中,伊阿宋的曾祖父是谁?
具体样题,参考下列图片。
创建历程
为了蛊惑高质地的问题提交,HLE建设了总和50万好意思元的奖金池,彩娱乐邀请码并提供以下奖励:
顶级问题奖励:每谈名次前50的问题将取得5,000好意思元奖金。
优评述题奖励:接下来的500谈问题,每谈将取得500好意思元奖金。
此外,任何被HLE采纳的问题提交者,齐有契机成为关系论文的共同作家,激发了广大高水平的各人参与,止境是那些领有高档学位或在关系时候规模领有丰富训戒的专科东谈主士。
总体而言,总汇集了高出70,000个检修性问题,其中13,000个问题被选出来供东谈主类各人评审,进而最终细目在公开考试中发布的3,000个问题。
近1000名各人得胜提交了问题。
他们来自50个国度的500多个机构,其中大广阔孝敬者是活跃的征询员或解说。
问题涵盖了多种法子,包括纯文本和多模态难题,整合了图像和图表。
为了确保问题的高质地和难度,HLE的数据集通过以下历程创建:
问题筛选:最初汲取问题提交,这些问题挑升前沿的LLM遐想,LLM频勤勉以正确恢复。
迭代优化:在各人同业评审的匡助下,反复修改和优化提交的问题,升迁问题的复杂性和准确性。
手动审核:由组织者或由组织者培训的各人,手动审核每谈问题,确保问题适应测试条款。
保留独到数据集:除了公开数据集,还保留了一部分独到测试集,用于评估模子在公开基准测试上的过拟合和可能的舞弊活动。
HLE的数据集创建历程
具体着力
征询者共测评了7个模子,包括GPT-40、Grok 2、Claude 3.5 Sonnect、Gemini 1.5 Pro、Gemini 2.0 Flash Thinking、o1和DeepSeek-R1。
表1透露,整个前沿模子在HLE中的准确率齐很低,整个模子的校准发挥齐很差,反馈在较高的RMS校准误差分数中。
表1:不同模子在HLE上的准确率和RMS校准误差。
具有推理技艺的模子,频繁需要权臣更多的推理时辰和狡计资源。
为了更明显地了解这少许,对各模子生成的补全(completion)token数目进行了分析。
正如图5所示,推理模子Gemini 2.0 Flash Thinking、o1和DeepSeek-R1为了升迁性能,需要生成的token数目远远高出非推理模子GPT-40、Grok 2、Claude 3.5 Sonnect以及Gemini 1.5 Pro(见图5)。
图5:不同模子的平均补全(completion)token数目
预测改日
在「东谈主类临了一次考试」(Humanity's Last Exam,简称 HLE)中,现在的LLM发挥仍然特别差。
但从发展历史来看,基准测试的实足速率特别快——模子频频在短短的时辰内,从接近0的准确率跃升至接近100%的发挥。
鉴于AI发展的快速容颜,在2025年底前,模子有可能在HLE上高出50%的准确率。
AI履行室有新榜单可刷了,擦拳抹掌
若是模子在HLE中取得高分,将标明模子在闭塞式、可考据的问题以及前沿科学知识方面的各人级发挥,但这并不虞味着模子具备自主征询技艺或「通用东谈主工智能」(AGI)。
HLE测试的是结构化的学术问题,而非通达式征询或创造性问题处分技艺,因此它更侧重于时候知识和推理技艺的策动。
作家在论文暗示:「诚然HLE是给以模子的临了一场学术考试,但它远非AI评估的临了一个基准。」
参考辛劳:
https://x.com/DanHendrycks/status/1882433928407241155
https://x.com/alexandr_wang/status/1882481229708358027
https://scale.com/blog/humanitys-last-exam-results
https://lastexam.ai/
https://static.scale.com/uploads/654197dc94d34f66c0f5184e/Publication Ready Humanity's Last Exam.pdf