当ChatGPT参加中国高考，把全国A卷B卷喂给它后，竟严重偏科！

ChatGPT作为一个智能人机对话应用，在推出后迅速风靡全球。仅仅一个月的时间，其用户数量已经突破了一亿大关。人们也用ChatGPT测试了很多考试项目，例如SAT、AP、GRE等。然而，如果让ChatGPT来参加我们中国的高考，会是怎样的一番光景呢？他会不会偏科呢？我们这些普通人又能否考得过ChatGPT呢？且看复旦大学和华东师大的同学们给大家带来的评测。

(资料图)

论文题目:
Evaluating the Performance of Large Language Models on GAOKAO Benchmark

如何让ChatGPT解答高考题？

该论文采用零监督prompt的方式，将试题转化为ChatGPT的输入，如下图所示。对于不同的学科和题型，设计了不同的询问方式。对于数学题，则将公式转化为latex输入。

高考数据集

本文测试采用2010~2022年，一共13年间的全国A卷和全国B卷，每套试卷包含10门学科，即语数英物化生史地政，其中数学分为理科数学与文科数学。

数据集一共包含2811道试题。具体题型这里就不展开，相信读者们对高考题还是十分了解的。

在评估时，聘请上海市曹杨第二中学的高中老师批阅主观题。

实验与分析

历年高考，ChatGPT取得的分数如下图所示。由于在计算分数时，将每科都归一化到100分，所以这个成绩无法和你我的高考成绩直接比较。但也可以看出，这个分数并不理想，估计无论是复旦还是华东师大都是考不上的。这是为什么呢？

上图展示了ChatGPT在各个学科、以及主客观题上的表现。蓝色为客观题，黄色为主观题。分析发现，ChatGPT对客观题的成绩较好，尤其是英语阅读理解、单选、完形填空，分别取得了88.3%，78.1%，73.8%的准确率。但即使是客观题，理科数学的准确率还不到40%。数学是真的难呀~

主观题上，ChatGPT的表现较差，物理、化学、生物和数学科目中，主观题的表现明显不如客观题。结合理科客观题分数也较差，或许ChatGPT偏向文科？根据阅卷人的评语，ChatGPT主要欠缺在：1.数学问题中的复杂方程难以正确解决，在解题过程中使用了错误的公式。2.阅读较长材料时理解和概括能力不足。

总结

ChatGPT在训练过程中可能没有使用中国高考题数据，因此其表现不受数据泄露的影响，具有较高的可信度。

观察结果显示，与国外考试相比，ChatGPT在中国高考题方面的表现稍逊一筹。因此，国内的学生暂时无需过分担心无法考过ChatGPT。然而，文章中提到的长文本概括能力等在GPT4-32K中有显著改进，国产大模型也在中文数据上做了进一步的优化。因此，我们可以期待未来大模型高考题上取得更瞩目的表现。

此外，用ChatGPT解高考题这个思路，或许可以回答网友们对哪个省的考题更难的争论？

关键词：

当ChatGPT参加中国高考，把全国A卷B卷喂给它后，竟严重偏科！

如何让ChatGPT解答高考题？

高考数据集

实验与分析

总结

推荐阅读

月壤形成的主要原因月壤与土壤有什么区别

域名抢注是是什么意思？投资角度来看什么域名好?

捷达保养费用是多少?捷达是哪个国家的品牌?

天然气泄露会造成爆炸吗?天然气泄漏怎么办?

四部门明确App收集个人信息范围个人信息保护范围判断标准

相关新闻

新闻

热点

资讯

当ChatGPT参加中国高考，把全国A卷B卷喂给它后，竟严重偏科！

如何让ChatGPT解答高考题？

高考数据集

实验与分析

总结

推荐阅读

月壤形成的主要原因 月壤与土壤有什么区别

域名抢注是是什么意思？投资角度来看什么域名好?

捷达保养费用是多少?捷达是哪个国家的品牌?

天然气泄露会造成爆炸吗?天然气泄漏怎么办?

四部门明确App收集个人信息范围 个人信息保护范围判断标准

相关新闻

新闻

热点

资讯

月壤形成的主要原因月壤与土壤有什么区别

四部门明确App收集个人信息范围个人信息保护范围判断标准