ChatGPT有多聪明?ChatGPT在人类考试中的表现

(George Q) ChatGPT 是 OpenAI 开发的一种语言模型,在过去一年中成为火热话题,因为它能够在各种情况下做出类似人类的响应。
事实上,ChatGPT 已经变得如此强大,以至于学生们现在正在使用它来帮助他们完成家庭作业。这促使美国的几个学区阻止其网络上的电子设备访问ChatGPT.
在 2023 年 3 月 27 日发布的一份技术报告中,OpenAI 全面介绍了其最新模型 GPT-4。
该报告包含了Chat GPT-3.5和ChatGPT-4参加一系列人类考试后所取得成绩,今天的图就形象地展示了他们的能力。


GPT-4 与 GPT-3.5
为了对 ChatGPT 的功能进行基准测试,OpenAI 进行了各种专业和学术考试的模拟测试。这些考试包括SAT、律师资格考试和各种大学先修课程 (AP) 期末考试。
考试成绩以百分位数衡量,百分位数基于每种考试类型的应试者的最新分数分布。
百分位评分是一种个人表现相对于其他人的表现进行排名的方法。例如,如果您在测试中排名第 60 个百分位数,则意味着您的得分高于 60% 的应试者。
正如我们所见,在大多数这些考试中,GPT-4(2023 年 3 月发布)比 GPT-3.5(2022 年 3 月发布)的能力强得多。然而,它在AP课程里的英文语言和英文文学以及编程课程上没有任何改善。
对于AP课程的英文课程(以及其他需要书面回答的考试),ChatGPT 的回答由“1-2 名具有相关工作经验的合格第三方承包商对这些论文进行评分”。虽然 ChatGPT 确实能够写出足够长度的论文,但它可能难以理解考试的一些潜在要求。
对于竞争性编程,GPT 尝试了 10 场 Codeforces 比赛,每场比赛 100 次。 Codeforces 举办竞争性编程竞赛,参赛者必须解决复杂的问题。 GPT-4 的平均 Codeforces 评分为 392(低于第5%),而其在单场比赛中的最高评分约为 1,300。 参考 Codeforces 评分页面,得分最高的用户是来自中国的 Jiangly,评分为 3,841。
GPT-4 有什么变化?
以下是 GPT-4 相对于 GPT-3.5 做出的一些用户体验的改善。
互联网接入和插件
GPT-3.5 的一个限制因素是它无法访问互联网,并且只接受了截至 2021 年 6 月的数据训练。
借助 GPT-4,用户将可以访问各种插件,这些插件使 ChatGPT 能够访问互联网、提供更多最新响应并完成更广泛的任务。 这包括来自 Expedia 等服务的第三方插件,这些插件将使 ChatGPT 能够为您预订整个假期行程。
视觉输入
GPT-3.5 只能接受文本输入,而 GPT-4 已具有分析图像的能力。 用户将能够要求 ChatGPT 描述照片、分析图表,甚至解释模因。
更大的文本处理能力
最后,GPT-4 能够处理更多的文本并使对话持续更长时间。 作为参考,GPT-3.5 的最大请求值为 4,096 个tokens, 相当于大约 3,000 个单词。而GPT-4有两个变体,一个可以处理约6,000个单词,另一个则能处理24,000个单词。