ChatGPT有多聪明？ChatGPT在人类考试中的表现

(George Q) ChatGPT 是 OpenAI 开发的一种语言模型，在过去一年中成为火热话题，因为它能够在各种情况下做出类似人类的响应。
事实上，ChatGPT 已经变得如此强大，以至于学生们现在正在使用它来帮助他们完成家庭作业。这促使美国的几个学区阻止其网络上的电子设备访问ChatGPT.
在 2023 年 3 月 27 日发布的一份技术报告中，OpenAI 全面介绍了其最新模型 GPT-4。
该报告包含了Chat GPT-3.5和ChatGPT-4参加一系列人类考试后所取得成绩，今天的图就形象地展示了他们的能力。

GPT-4 与 GPT-3.5
为了对 ChatGPT 的功能进行基准测试，OpenAI 进行了各种专业和学术考试的模拟测试。这些考试包括SAT、律师资格考试和各种大学先修课程 (AP) 期末考试。
考试成绩以百分位数衡量，百分位数基于每种考试类型的应试者的最新分数分布。
百分位评分是一种个人表现相对于其他人的表现进行排名的方法。例如，如果您在测试中排名第 60 个百分位数，则意味着您的得分高于 60% 的应试者。
正如我们所见，在大多数这些考试中，GPT-4（2023 年 3 月发布）比 GPT-3.5（2022 年 3 月发布）的能力强得多。然而，它在AP课程里的英文语言和英文文学以及编程课程上没有任何改善。
对于AP课程的英文课程（以及其他需要书面回答的考试），ChatGPT 的回答由“1-2 名具有相关工作经验的合格第三方承包商对这些论文进行评分”。虽然 ChatGPT 确实能够写出足够长度的论文，但它可能难以理解考试的一些潜在要求。
对于竞争性编程，GPT 尝试了 10 场 Codeforces 比赛，每场比赛 100 次。 Codeforces 举办竞争性编程竞赛，参赛者必须解决复杂的问题。 GPT-4 的平均 Codeforces 评分为 392（低于第5%），而其在单场比赛中的最高评分约为 1,300。参考 Codeforces 评分页面，得分最高的用户是来自中国的 Jiangly，评分为 3,841。
GPT-4 有什么变化？
以下是 GPT-4 相对于 GPT-3.5 做出的一些用户体验的改善。
互联网接入和插件
GPT-3.5 的一个限制因素是它无法访问互联网，并且只接受了截至 2021 年 6 月的数据训练。
借助 GPT-4，用户将可以访问各种插件，这些插件使 ChatGPT 能够访问互联网、提供更多最新响应并完成更广泛的任务。这包括来自 Expedia 等服务的第三方插件，这些插件将使 ChatGPT 能够为您预订整个假期行程。
视觉输入
GPT-3.5 只能接受文本输入，而 GPT-4 已具有分析图像的能力。用户将能够要求 ChatGPT 描述照片、分析图表，甚至解释模因。
更大的文本处理能力
最后，GPT-4 能够处理更多的文本并使对话持续更长时间。作为参考，GPT-3.5 的最大请求值为 4,096 个tokens, 相当于大约 3,000 个单词。而GPT-4有两个变体，一个可以处理约6,000个单词，另一个则能处理24,000个单词。

ChatGPT有多聪明？ChatGPT在人类考试中的表现

春季联展周日启动，三重大礼惊喜相送

省府資助華社活動中心廳長出席長者慶生宴

教皇之争撕裂天主教会，谁将成为下一任教皇？

白宫释放“大幅下降”口风！多国抵制关税，美方“眨眼”了？