当ChatGPT参加中国高考,把全国A卷B卷喂给它后,竟严重偏科!
ChatGPT作为一个智能人机对话应用,在推出后迅速风靡全球。仅仅一个月的时间,其用户数量已经突破了一亿大关。人们也用ChatGPT测试了很多考试项目,例如SAT、AP、GRE等。然而,如果让ChatGPT来参加我们中国的高考,会是怎样的一番光景呢?他会不会偏科呢?我们这些普通人又能否考得过ChatGPT呢?且看复旦大学和华东师大的同学们给大家带来的评测。
(资料图)
论文题目:
Evaluating the Performance of Large Language Models on GAOKAO Benchmark
如何让ChatGPT解答高考题?
该论文采用零监督prompt的方式,将试题转化为ChatGPT的输入,如下图所示。对于不同的学科和题型,设计了不同的询问方式。对于数学题,则将公式转化为latex输入。
高考数据集
本文测试采用2010~2022年,一共13年间的全国A卷和全国B卷,每套试卷包含10门学科,即语数英物化生史地政,其中数学分为理科数学与文科数学。
数据集一共包含2811道试题。具体题型这里就不展开,相信读者们对高考题还是十分了解的。
在评估时,聘请上海市曹杨第二中学的高中老师批阅主观题。
实验与分析
历年高考,ChatGPT取得的分数如下图所示。由于在计算分数时,将每科都归一化到100分,所以这个成绩无法和你我的高考成绩直接比较。但也可以看出,这个分数并不理想,估计无论是复旦还是华东师大都是考不上的。这是为什么呢?
上图展示了ChatGPT在各个学科、以及主客观题上的表现。蓝色为客观题,黄色为主观题。分析发现,ChatGPT对客观题的成绩较好,尤其是英语阅读理解、单选、完形填空,分别取得了88.3%,78.1%,73.8%的准确率。但即使是客观题,理科数学的准确率还不到40%。数学是真的难呀~
主观题上,ChatGPT的表现较差,物理、化学、生物和数学科目中,主观题的表现明显不如客观题。结合理科客观题分数也较差,或许ChatGPT偏向文科?根据阅卷人的评语,ChatGPT主要欠缺在:1.数学问题中的复杂方程难以正确解决,在解题过程中使用了错误的公式。2.阅读较长材料时理解和概括能力不足。
总结
ChatGPT在训练过程中可能没有使用中国高考题数据,因此其表现不受数据泄露的影响,具有较高的可信度。
观察结果显示,与国外考试相比,ChatGPT在中国高考题方面的表现稍逊一筹。因此,国内的学生暂时无需过分担心无法考过ChatGPT。然而,文章中提到的长文本概括能力等在GPT4-32K中有显著改进,国产大模型也在中文数据上做了进一步的优化。因此,我们可以期待未来大模型高考题上取得更瞩目的表现。
此外,用ChatGPT解高考题这个思路,或许可以回答网友们对哪个省的考题更难的争论?
关键词:
推荐阅读
月壤形成的主要原因 月壤与土壤有什么区别
月壤形成的主要原因月壤形成过程没有生物活动参与,没有有机质,还极度缺水干燥;组成月壤的矿物粉末基本是由陨石撞击破砰形成,因此,粉末 【详细】
域名抢注是是什么意思?投资角度来看什么域名好?
域名抢注是是什么意思域名抢注是通过抢先注册的方式获得互联网删除的域名的使用权。域名是由点分隔的一串数字,用于标记一台计算机或一组计 【详细】
捷达保养费用是多少?捷达是哪个国家的品牌?
捷达保养费用是多少?全新捷达的保修期为2年或6万公里,以先到者为准,新车可享受一次免费保养,首次免费保养在5000-7500km或1年内进行。如 【详细】
天然气泄露会造成爆炸吗?天然气泄漏怎么办?
天然气泄露会造成爆炸吗?家里用的天然气如果泄露是会发生爆炸的。当空气中含有混合天然气时,在与火源接触的一系列爆炸危险中,就会发生爆 【详细】
四部门明确App收集个人信息范围 个人信息保护范围判断标准
四部门明确App收集个人信息范围近日,国家互联网信息办公室、工业和信息化部、公安部、国家市场监督管理总局联合印发《常见类型移动互联网 【详细】
相关新闻
- 当ChatGPT参加中国高考,把全国A卷B卷喂给它后,竟严重偏科!
- 思科瑞:近期公司与下游航天领域客户在电磁兼容业务上达成了初步合作意向
- 全球首台套最大功率超大采高智能化高端采煤机问世
- 初心不忘,品质不改!南京依维柯持续领跑行业发展
- 辽宁两名副厅级干部被决定逮捕
- 洪桥集团已基本完成珠峰香港及其子公司的业务及财务尽职审查
- 人类或被困在太阳系?旅行者2号飞了40多年,遭遇49427℃“火墙”
- 别让她火了,她要被毁了
- 手机壁纸|过好自己的生活,该来的,都在路上
- 雷军和任正非的差距在哪儿?
- 在日本人眼中,世界上科研实力最强大的"6个国家",看都有多强
- 东京股市继续上扬
- 钉钉公布商业化核心数据,软件付费企业数达10万家
- 钉钉宣布开放智能化底座AI PaaS,让千行百业低门槛使用AI
- 第十二届“中国软件杯”大学生软件设计大赛颁奖活动在南京举行
- 新学期新营养!蒙牛学生奶赋能健康开学季
- 82岁院士火出圈,年龄从来不是热情生活的限制
- 海尔冰箱和美的冰箱哪个质量好?3个方面对比,结果一目了然
- 可靠性失效机理分析-IC器件与功率器件
- 空气能热泵工作原理与日常维护