奥飞寺的房子
量子比特 | 公众号
没想到麻省理工数学考试被GPT-4破了? !
突然有人在最新论文中高调宣布:
GPT-4关于MIT的数学和EECS(电气工程与计算机科学系)本科学位考试,证明能力完全符合毕业要求。
并妥妥得满分!
要知道,测量这个结果的不是别人,正是麻省理工学院、波士顿大学和康奈尔大学的研究团队。
而且比上一代王者GPT-3.5还要强。 同样的测试,它只成功了三分之一。
论文一出,顿时吸引了无数目光。
GPT-4看似黑客行为,自然引起了众多网友的感慨。
比 GPT-3.5 好得多,是的!
就说吧,以后有没有比GPT-4更强的模型就可以解决学术问题了?
有网友晒出了自己在网上冲浪的“新锐”,玩了一个Yann LeCun这两天吐槽“GPT-4智商不如狗”的梗:
GPT-4开挂MIT考试
具体来说,GPT-4这次参加了这样一个测试:
研究团队策划了一个包含 4,550 个问题和解决方案的数据集。
这 4,550 个问题和解决方案来自麻省理工学院数学系和 EECS 学生需要学习以获得本科学位的课程问题集、期中和期末考试。
包括:
6-1:电气科学与工程;
6-2:电气工程与计算机科学;
6-3:计算机科学与工程;
6-4:人工智能与决策;
18-1:普通数学;
18-2:应用数学;
18-3:纯数学;
18-C:数学和计算机科学。
问题全部来自MIT数据集,随机生成228道题,不涉及图像和已有解。
题目难度从易到难依次为:习题、习题、期中考试、期末考试、实验、专题。
按题型排序,题目难度从易到难依次为:编程、开放式、选择题、数值、表达式、图像。
这次不仅有GPT-4和GPT-3.5参加考试,还有-13B、LLaMA-30B和LLaMA-60B。
这 4 个大型模型之所以被选为测试参赛者,是因为它们是“state-of-the-art 大型语言模型”。
从表中数据可以看出,调优后的GPT-4得分最高,得分率为100%; 表现最一般的是LLaMA-30B,只拿到了30%的分数。
值得注意的是,原来的GPT-4版本开箱即用,完全没有调优,在这次MIT考试中也取得了90%的成绩。
调优过程,包括Few-Shot+CoT+Self-+。
从最终测试结果的表格数据我们可以看出,从左到右每增加一个链接,调优后的GPT-4分数就会提升一个档次。
此外,研究团队还对提示框进行了工程优化。 具体“法术”如下:
等等,评分者是 GPT-4 本人?
看到这样的结果,不少网友都觉得LLM在数学考试中的进度有点快。
2 年前,AI 在小学数学题上苦苦挣扎。
类似于“小明种了5棵柠檬树,每棵树每年得到6个柠檬,10年一共得到多少个柠檬”。
去年初,MIT+哈佛+哥伦比亚大学+滑铁卢大学的联合研究称,通过将数学问题转化为等价的编程问题,GPT-3的兄弟Codex可以掌握高数,达到MIT本科水平。
我从麻省理工大学本科基础数学课程中随机抽取了6道样题。 6 门课程每门课程随机抽取 25 道题,加上来自 ACT 级别(美国高考)数据集的 60 道题。
AI 总共回答了 210 个问题。
不过有人提出,AI做到的“麻省理工本科水平”其实是Codex在做语言题而不是数学题——
因为在当时的评测中,Codex是负责读写的,不包括。
所以,这一次GPT-4的表现极其出色,真是妙极了~
好吧,我知道你急着要表扬它,但先别急着表扬它,因为很快就有人发现了一些“奇怪”的东西。
主要有2个主要插槽。
首先值得质疑的是训练数据集没有完全发布。
这也意味着无法证明数据集中的4550个问题和解在GPT-4训练集中不存在。
也就是说,如果GPT-4在预训练阶段就已经接触过试题,那么它最终会打出满分,不会出现意外。
难怪有网友毫不客气地yygq,认为GPT-4得到这样的结果,一定是数据集被纳入了训练数据。
第二个slot是GPT-4最终100%的得分率。 好像哪里不对? ? ?
仔细一看,论文2.6节有一个关键点:
该团队对数据集上的开源大型模型进行了微调,“给定一个问题 Q、一个基本事实解决方案 S 和一个 LLM 答案 A,我们使用 GPT-4 自动对模型响应进行评分。”
在实践中,每个大模型都会生成这个测试的答案,然后发送 GPT-4 进行评分,评分在 0-5 之间。
所以给GPT-4打满分的其实是GPT-4本身。
啊,这……难说没有王破卖瓜吹牛的嫌疑。
此外,许多人抱怨需要为 GPT-4 提供“好的提示”才能使其获得满分。
什么是“好建议”? 似乎无法定义。
甚至有人喊话,要把这些题丢给MIT数学和EECS的学生去做,不断给他们“好提示”,让人类学生也能100%拿分……
还有一件事
一个小彩蛋:
在整个测试中,基本可以部署运行在笔记本电脑上的运-13B的得分率也达到了48%。
这个分数不仅比型号更大的LLaMA-65B高出近10个百分点,就连MIT微调后的LLaMA-30B也更高。
人们不得不对模型大小和能力之间的相关性进行一些思考
参考链接:
[1]