AI高考测试数学全不及格 首个AI高考全卷评测结果发布
高考覆盖各类学科及题型,同时因其开考前的“绝密性”,被视作中国最具权威的考试之一。这一面向人类设计的高难度综合性测试,目前普遍被研究者用于考察大模型的智能水平。AI高考测试数学全不及格是怎么回事?首个AI高考全卷评测结果发布,一起去看具体详情。

AI高考测试数学全不及格
在前不久高考结束后,上海人工智能实验室旗下司南评测体系OpenCompass选取了7个大模型进行高考“语数外”全卷能力测试。6月19日,OpenCompass发布了首个大模型高考全卷评测结果。
语数外三科加起来的满分为420分,此次高考测试结果显示,阿里通义千问2-72B排名第一,为303分,OpenAI的GPT-4o排名第二,得分296分,上海人工智能实验室的书生·浦语2.0排名第三,三个大模型的得分率均超过70%。来自法国大模型初创公司的Mistral排名末尾。
此次测试的模型分别来自阿里巴巴、零一万物、智谱AI、上海人工智能实验室、法国Mistral的开源模型,以及来自OpenAI的闭源模型GPT-4o。实验室表示,因无法确定闭源模型的更新时间,为公平起见,此次评测没有纳入商用闭源模型,仅引入GPT-4o作为评测参考。这次选择参与高考的“考生”均在高考前(2024年4月-6月)开源,避免了“刷题风险”。

从结果来看,大模型的语文、英语考试水平普遍不错,但数学都不及格,最高分也只有75分,来自书生·浦语2.0,其次是GPT-4o,得分73分。语文最高分是通义千问,英语最高分是GPT-4o。
在数学方面大模型还有很大的提升空间。数学关乎复杂推理相关能力,这是大模型普遍面临的难题,也是大模型在金融、工业等要求可靠的场景落地需要的关键能力。
上海人工智能实验室领军科学家林达华此前在采访中对第一财经介绍,复杂推理关系到落地应用时大模型的可靠性,例如在金融这样的场景下不能在数字上有差错,会对数学上的可靠性有较高的要求。另外随着大模型进入商用,若要分析一家公司的财报,甚至是工业领域要去分析一些技术文档,这时数学方面的计算能力就会成为一个壁垒。
来源:第一财经
声明:据网络资尊重版权,若有来源标注错误或侵犯了您的合法权益,请作者持权属证明与我们联系,我们将及时更正、删除,谢谢!
相关查询:北京天气预报、旅游景点天气、上海天气预报15天、广州国际机场天气、卫星云图天气预报、天气预报降水分布
- 上一篇:假期前夕出行防雨雪!山西明夜起雨雪
- 下一篇:最后一页
最新社会热点信息
- 中新网评:必胜客,别让消费者举着放大镜吃饭
- 浙江女子一到晚上眼睛就发痒 睫毛上附着10个灰白色虫体
- 坠机身亡主播“唐飞机”是当地驻村干部 村民讲述救援过程
- 特斯拉员工被机器人打伤 索赔5100万
- 每天喝咖啡是“续命”还是“伤身”?答案藏在这3个细节里
- 一上班就胸闷咳嗽,元凶竟是同事
- “客服”热情指导 “约会”要先充值?警方:这是电诈连
- 七夕传佳话 广东早餐店老板16年后重逢初恋 二人皆单身
- 绵阳情侣分手后20万转账起纠纷 法院调解女方自愿返还7万元
- 南京陈女士花7200元找育儿嫂 一周遇两问题阿姨 退费遭
- 重庆27岁挂车司机失联两月余 信号最后现缅甸佤邦 警方
- 厦门航班起飞前突发充电宝起火 及时处置后正常起飞
- 女子酒店洗澡时浴室天花板突打开 酒店称或因热胀冷缩
- 广东26岁女子遭丈夫残忍杀害 凶手一审获死缓
- 湖南2岁女童山林走失34小时 无人机热成像锁定位置 多方
- 境外间谍借“合法”外衣渗透窃密
- 男子三亚游泳溺水妻子崩溃大哭
- 西藏教师格桑德吉坚守讲台16载 溜索家访筑梦大山学子
- 下班跑外卖成潮流 解压增收之余引职业观念讨论
- 河北孟村发生重大刑事案件致女子死亡 丈夫及婆婆被刑拘
台风预报及台风路径
雷达云图天气预报
全国天气视频预报
卫星云图天气预报
全国天气降水分布图
全国气温图查询