大模型PK高考数学:DeepSeek文心豆包皆满分,差生意外
为了防止高考生使用AI作弊,今年高考期间,腾讯混元、通义千问、Kimi、豆包等国内知名AI大模型的图片识别问答功能均暂停服务。对于这些企业的做法,小雷却有一些质疑,之前小雷测试AI大模型做高考题,大多表现不佳,暂停图片识别问答服务似乎过于高看自家AI大模型的能力。
到截稿时,2025年高考全国一卷仅有语文、英语和数学三套试卷公布,其中语文高考题目曝光后,已有多家媒体实测AI大模型撰写作文。不过作文写得如何,每个人的观点可能不同,小雷看到的几篇评测基本是截取AI大模型撰写的文章,没有给出点评,文章质量需要读者评判。

(图源:百度搜索截图)
慎重起见,小雷选择了有标准答案的数学科目,测试AI大模型的能力,所选的AI大模型分别为DeepSeek、豆包、讯飞星火、文心一言、Kimi、通义千问,它们能考上985、211吗?
六款大模型PK,谁才是AI界的高考状元?
首先说一下测试环境和题目,考虑到部分AI大模型不支持手动开关联网模式,因而所有AI大模型启用联网搜索,深度思考功能也全部打开。
所选的数学题,包含一道单选题、一道多选题、一道填空题、一道简答题,最终会按照题目的分数进行打分。
第一题(5分):
若双曲线C虚轴长是实轴长的√7倍,则C离心率为(正确答案:D)
A:√6B:2C:√7D:2√2
第一道题属于开胃小菜,难度不算大,参与测试的六款AI大模型也没有令小雷失望,全部计算出了正确答案,而且给出了详细推理过程。本题测试中,所有AI大模型均获得满分5分。(图片从左往右以此为:DeepSeek、讯飞星火、豆包、Kimi、文心一言、通义千问,下图同)

(图源:App截图)
尽管这道题难度不算高,但这六款AI大模型的表现令小雷眼前一亮。此前测试AI大模型的数学计算能力时,面对稍微复杂一些的问题,AI大模型很难计算出正确答案。
仅一轮测试,DeepSeek、讯飞星火、豆包、文心一言、Kimi、通义千问六款AI大模型就证明了它们的能力,存在被高考生用于的作弊的可能性,暂停图片识别问答功能绝非为了蹭高考的热度。
第二题(6分):
若cos 2A+cos 2B+2sin C=2,SΔABC=1/4,cos Acos Bsin C=1/4,则(正确答案:ACD)
A:sin C=sin²A+sin²BB:AC²+BC²=3C:AB=√2
D:sin A+sin B=(√6)/2
这道题难度相当高,仅有豆包在两分钟内计算出正确答案,讯飞星火和通义千问耗时略长一些,其他几款AI大模型用时更长,尤其是DeepSeek,耗时足足572秒,接近10分钟。

(图源:App截图)
若是AI大模型像考生一样每次只做一道题,推理较慢的三款AI大模型,存在两小时时间做不完题的可能性。
尽管本轮测试中所有AI大模型均正确回答出了问题,但结合推理所需时长来看,豆包、讯飞星火、通义千问表现较好。
第三题(5分):
若一个等比数列的前4项和为4,前8项和为68,则该等比数列的公比为(正确答案:±2)
与上一题相比,这一题的难度有所下降,讯飞星火、文心一言、Kimi、通义千问、DeepSeek五款大模型均迅速计算出了正确答案,文心一言几乎是秒算。豆包虽计算出了正确答案,但在输出答案时却犯了迷糊,排除了-2。因此,小雷不得不扣掉豆包的三分,该题豆包只能得2分。

(图源:App截图)
在本轮测试中,DeepSeek服务器繁忙的问题频繁发生,小雷不得不借助第三方应用。好在,现阶段许多AI应用已接入DeepSeek,小雷使用的腾讯元宝App,无论是推理速度,还是稳定性,都远高于DeepSeek网页版或App。
第四题(17分):
设数列{an}满足a₁=3,(an+1)/n=(an/(n+1))+(1/(n(n+1)))
(1)证明:{n an}是等差数列;(正确答案:n an是an=3,公差为1的等差数列)
(2)设f(x)=a₁X+a₂X²+a₃X³+...+amX^m,求f′(-2)。(正确答案:f′(-2)=(7/9)-((3m+7)/9)·(-2^m))
前三道题,几款AI应用仅在体验上存在一定的差异,能力基本没有表现出区别,第四道题不同,它的复杂度远超前面三道题,也是检验AI大模型能力最重要的一项挑战。
在本轮测试中,豆包、讯飞星火、Kimi、文心一言、DeepSeek依然表现出色,正确计算出了两道题的答案。通义千问解答这道题时,能够推理出第一道小题的答案,但第二道小题却给出了错误答案,表现稍逊一筹。

(图源:App截图)
豆包、讯飞星火、文心一言、Kimi、DeepSeek可以在本轮测试中拿到满分17分,通义千问因答错了第二道小题,只能获得7分。
依靠公式和逻辑推理的数学题,似乎更符合AI的特性,但往年的评测中,AI大模型通常做阅读理解和写作文效果较好,面对复杂的数学题找不到答题方法。
光明网在去年6月的报道中提到,复旦大学NLP实验结果显示,AI大模型在做2024年高考题时,在语文领域的表现远强于数学,部分数学题AI大模型甚至全军覆没,没有一个能够正确计算出答案,遇到多选题时也是错误频出。究其原因,数学失之毫厘差之千里,不能出一丁点错误,文史类内容则可以允许出现部分错误和较为模糊的答案。
一年时间过去,AI大模型进步神速,深度思考模式的加入、针对数学题的专项优化,令AI大模型在处理高考数学题时更加游刃有余。
比学霸更牛,但大模型做题能力已拉开差距
四道题目测试下来,最终得分如下:
DeepSeek:33分;讯飞星火:33分;豆包:30分;Kimi:33分;文心一言:33分;通义千问:23分。经过测试,DeepSeek、讯飞星火、Kimi、文心一言均获得满分,豆包表现不错,因一时疏忽,遗憾丢了三分,痛失高考状元。通义千问计算较为简单的问题时,都保持了极高的水准,但处理较难的问题时出现了计算错误,需要再接再厉。

(图源:豆包AI生成)
总是向AI行业泼冷水的苹果,日前在论文中表示,AI推理模型只是「假思考」,根本没有稳定、可理解的推理过程,更像是记忆,处理复杂任务时可能会崩溃。AI研究者Lisan al Gaib复刻苹果测试方法后表示,模型不是因为推理能力差失败,而是因为苹果限制了输出token。
或许AI大模型推理能力仍存在上限,但我们看得到它们的进步。去年复旦大学NLP实验室测试AI大模型时,它们面对高考数学题表现糟糕,小雷在几次AI大模型横评测试中,也得到了类似的结果。今年的测试中,AI大模型基本都能计算出问题的正确答案,曾经难住AI大模型的多选题,也未能再对AI大模型造成困扰。
AI大模型数学题解答能力提升,最大受惠者可能是学生群体。国内学习机厂商和教育辅导平台,已陆续加入AI答题能力,但许多设备的AI大模型仅能解答中小学问题,例如行业翘楚小猿搜题,题目库不包含大学课程。
这六款AI大模型的优秀表现,证明了国内头部AI企业的实力,高考数学题已被征服,高等数学也不会远了。学习机厂商、教辅平台可以与头部AI企业合作,增强产品AI答题的能力,继续强化AI教育硬件业务。
本文来自“雷科技”,36氪经授权转载。
火爆的“苏超”出现了一个变化!这个“作业”好不好抄?
欢乐,成为火爆的秘诀

6月14日,“苏超”淮安对阵南京的比赛即将举行。中新社记者 泱波 摄
这个周末,江苏省城市足球联赛将重燃战火。
从上一轮起,这个被外界称作“苏超”的比赛出现了一个变化:徐州、苏州、无锡、南通等地陆续宣布,更换主场比赛场地。
新更换的场地,容纳观众数量更多,观赛体验更好。例如,苏州主场新的举办地点昆山市奥体中心体育场,是江苏省首座专业足球场馆,总建筑面积13.51万平方米,可容纳4.5万人。
更换场地背后,是“苏超”的火爆。
按照江苏省体育局公布的情况,端午小长假期间,共有18万名球迷进入各个主场城市现场观赛。
玩转热梗:政府与民间的协同叙事
6月1日下午4点半,在南京生活了二十多年的周桂宏到达五台山体育中心。此时距离比赛开始还有3个小时,检票口已排起长队。
当天的比赛是南京队对阵无锡队。周桂宏说,平时并不怎么看足球比赛,觉得“苏超”很有意思,就到现场来看看。虽然淋着雨,看台还是满满当当。比赛进行中,一万五千多名观众玩起了“人浪”。“非常难得有这样的欢乐时光!”
欢乐,成为火爆的秘诀。层出不穷的梗,是“苏超”出圈的基础。
此次联赛在组队方式上,由江苏13个设区市分别组建1支代表队,球队以城市命名,每场比赛就成了城市间的“对决”。
多位受访的江苏本地人士认为,省内城市之间并不真的存在“恩怨”,但基于历史发展和地缘关系,出现了很多有特点和有意思的话题,可以被挖掘并演变为各种地域梗。
梗的数量很多,且不断推陈出新。
例如,先前就存在南京与苏州的“榜一大哥之战”、徐州与宿迁的“楚汉之争”、扬州与淮安的“美食之都对决”。随着比赛推进,又出现“太湖三傻”“南哥之争”等。如今进入拉歌阶段,即将交手的扬州对着泰州唱“泰委屈”。
许多梗也和当地居民经历有关,容易共情。

南通队战胜南京队后,商家推出的“叫南哥”帆布包。
南通队战胜南京队后,商家推出的“叫南哥”帆布包上,印着一行小字“我以为你们只有考试不行,没想到足球也不行”。南京人孙卿看到后,“哈哈哈”笑个不停。对着南通学校编写的中高考模拟试卷挠头,是许多南京学生的深刻记忆。
梗有了,接下来是传播。
北京体育大学新闻与传播学院副教授宋巍分析,在传播过程中,政府与民间的协同叙事,是推动赛事传播破圈的重要力量。
5月9日,江苏省体育局副局长刘彤在联赛开幕前的新闻发布会上介绍,已构建国家级、省级媒体传播矩阵,对联赛前期工作与官方重点发布内容进行多轮推送。

6月14日,“苏超”淮安对阵南京的比赛即将举行,南京街头大屏打出“友谊十四?比赛第一!”等标语。中新社记者 泱波 摄
中共南京市委宣传部官方账号“南京发布”在5月28日发布文章《“比赛第一,友谊第十四”》,被江苏当地媒体人士形容为“火力全开”。看到官方都能突破常规,网友们乐此不疲,于是热梗不断涌现。
这些热梗成为社交谈资。盐城人陈吉庆每天和同事朋友见面,免不了谈到“苏超”。省内各个城市都发展得不错,就算被网上形容为“死对头”,但没有人会当真,更不会因此争吵,只是觉得好玩。
“欢乐是最大的核心因素”,北京师范大学艺术与传媒学院博士后、助理研究员吴雨航认为,这种大众草根的欢乐通过社交媒体等渠道迅速逐层扩散,赛事传播范围也随之扩大,最终全民都喜闻乐见。
政策支持:保障赛事,把流量接住
“苏超”的口碑,离不开政府方面的支持。
首先,作为经济大省的江苏,完善的基础设施让参赛观赛的成本更低。
江苏省人民政府网的数据显示,至2024年,普通国省干线一级公路占比全国最高;全省高速公路实现“县城通”以及10万人口以上城镇全覆盖。设区市全部通动车,共有9个城市开通城市轨道交通运营线路。
完善的立体交通网,不仅便于“苏超”比赛组织,也让观赛者的出行成本变低。
此外,据江苏省体育总局统计,目前全省足球场地总数达到11632个。国家统计局江苏调查总队介绍,江苏在占全国1.1%的国土面积上,建设了占全国7.2%的正规足球场。仅苏州一座城市,就拥有5座能够举办国际A级赛事的足球场。
这样一来,不仅各地可以快速更换主场比赛地点,球员训练和普通市民踢球也就有了就近进行的可能。

(资料图)航拍江苏淮安奥体中心。中新社发 赵启瑞 摄
其次,“政府主导+赛区协同+联赛运营”的立体组织架构,为赛事提供了组织保障。
国家体育总局公布的16个全国足球发展重点城市名单中,江苏有南京和苏州两座城市同时入选。
去年11月举行的第一届江苏足球发展重点城市对抗赛,江苏省省长许昆林出席并颁奖。
开展全省城市足球联赛,被写入今年的江苏省政府工作报告。今年5月在镇江举行的2025年“苏超”揭幕战,省长许昆林、副省长陈忠伟等均到场观战。
刘彤介绍,此次联赛创新了组织架构,以凝聚多方合力。联赛由省体育局与各设区市政府联合主办,各设区市体育局、省足协和省体育产业集团共同承办。
在省政府领导下,各部门和设区市分工负责,形成“政、社、企”三方协同的专业化运营闭环。
最后,各地围绕“赛事经济”出台措施,将流量接住。
常州在售票环节就推出福利套餐,花费9.9元票价,除了1张球票,还可得到塘桥老哥常州萝卜干炒饭1份。
南通发布“通通来、通通享受”福利,包括发放消费券、景区入园优惠、购物住宿餐饮优惠、交通出行优惠、研学路线拓展和“健康+”服务等。
扬州主场比赛日所在的周六、周日,扬州面向省内12个兄弟城市市民实行全市国有收费景区日间免费入园政策等。
无锡主场比赛日所在的周六、周日,全市政府性公共停车场库对客队城市牌照车辆提供免费停车服务。客队球迷购买小笼包、酱排骨、非遗糕团、水蜜桃等无锡特产享“苏超”专享价。
宋巍发现,“苏超”已形成从赛事引流到文旅消费的闭环生态。各地特色文旅活动和城市间文旅联动,为球迷提供了更加多元化的体验,提升了城市知名度和影响力,进一步拓展了文旅消费市场。
下一步:不必急于贴标签
“苏超”会一直火下去吗?
宋巍觉得,不必急于为“苏超”贴上“成功”或“失败”的标签,而应将其视为一次勇敢的试水。
北方某足球俱乐部原竞赛部负责人则建议,一方面可以进一步尝试市场化运营,同时政府部门的支持和服务必不可少。另一方面可以完善赛事体系,下探选手年龄段,设置更多年龄组别。让赛事进入良性运转,成为传统每年都办下去。
据媒体报道,多个省市也正在筹备举办足球联赛。
“苏超”这个作业,能不能抄一抄?
在宋巍看来,“苏超”本质上是“赛事搭台、城市唱戏、媒体传播”,其成功依赖于经济均衡、文化认同、足球底蕴等多重因素。
其一,经济均衡与城市竞争生态。江苏13个地级市经济实力接近,且赛事与城市荣誉深度绑定,形成天然的流量爆点。
其二,“散装文化”与自下而上的传播路径。这种文化土壤为赛事提供了强大的情感共鸣基础,其他地区若缺乏类似的文化认同,短期内难以复制这种“玩梗破圈”的效应。
其三,足球底蕴与市场基础。“草根赛事职业化”的模式,需要当地具备一定的足球人口和消费习惯,而在足球氛围较弱的地区推广难度较大。
作者:段修健
来源: 国是直通车
相关问答
库销比多少比较合理-安居客房产问答
要说库存和销售的比例是多少比较合理,那么首先应该说的是你从事的是哪一方面的工作,销售的是哪一类的产品?如果是从房产方面考虑,那这个比例就没有...
小六数题1.甲乙油库存油数比是5:3,如果从甲库运出90桶放进乙...
[回答]1.甲乙油库存油数比是5:3,如果从甲库运出90桶放进乙库,甲乙两库油桶数比为2:3,求乙库原有多少桶?原来甲占总数的5/(5+3)=5/8后来甲占总数的2/(2+3)=...
excel库销比计算公式?
库销比(InventoryTurnoverRatio)是衡量企业库存管理效率的一种重要指标,它反映了企业库存周转的速度和效率。库销比的计算公式如下:库销比=年销售成本/...
店铺正常库销比是多少?
合理库销比3或者4库存量与销售额的比率,是一个检测库存量是否合理的指标,如月库销比,年平均库销比等,计算方法:月库销比,月平均库存量/月销售额年平均...合...
甲油库存油比乙油库多三分之二,从甲油库运出90桶放入乙库,甲...
[回答]一开始:甲:乙=(1+3分之2):1=5:3甲占全部的=5÷(5+3)=8分之5后来:甲:乙=2:3甲占全部的=2÷(2+3)=5分之2全部=90÷(8分之5-5分之2)=400桶乙原有=400×.....
库化比怎么计算?
f''(x0)=0和f'''(x0)<>0的x0f''(x0)=0和f'''(x0)<...
什么叫库销比?
库销比是指库存量与销售额的比率,是一个检测库存量是否会理的指标,如月库销比,年平均库销止等,计算方法:月库销比,月平均库存量/年销售额,比率高说明库存...
中兴和哲库哪个公司好?
中兴和哲库都是知名的技术公司,它们有着各自的优势和业务领域。因此,无法简单地说哪个公司更好,而需要根据具体的情况和需求来选择。中兴通讯是一家以通信技...
粮食储备库1号库的粮食比2号库多5分之1,如果从1号库调出280吨放入2号库,那么两个仓库的粮食质?
一号库。1+5/1280÷5/1=14002号库是1400吨粮市。一号库。1+5/1280÷5/1=14002号库是1400吨粮市。
库存比计算公式?
库存占比是库存量占总产量的比例,即库存占比=库存量÷总产量。库存,是仓库中实际储存的货物。可以分两类:一类是生产库存,即直接消耗物资的基层企业、事...