据悉,LLMEval是由复旦大学NLP实验室推出的大模型评测基准,专注于评估专业领域的知识能力。评测团队表示,全新出炉的高考试题具备高度的独创性和保密性,是用来评测大模型的“绝好评测集合”。因此,团队在高考后第一时间对13家大模型进行了评测。
今年5月,豆包大模型在火山引擎原动力大会上正式发布。相关数据显示,在MMLU、BBH、GSM8K、HumanEval等11个业界主流的公开评测集上,Doubao-pro-4k的总分为76.8分,优于同期测试的其他国产模型。在数学能力、语言理解能力,以及综合评测集CMMLU和CEval的评测上,豆包也有不错的表现,得分排在前三。
评测选取2024高考数学新I卷和新II卷的14道客观题,参评“选手”涵盖GPT-4o、文心一言、阿里千问、字节豆包等主流大模型。GPT-4o是OpenAI于今年5月新推出的大语言模型,数学能力是其发布会现场着重展现的能力模块。但结果显示,部分国产大模型在本次数学评测中的成绩优于GPT-4o。在新II卷客观题测试中,字节豆包成绩排在首位,其次是阿里千问和GPT-4o。
99热久新民晚报讯(记者金志刚)近日,复旦大学自然语言处理(NLP)实验室LLMEVAL团队公布了2024年高考数学大模型评测结果。数据显示,字节豆包在2024高考数学新II卷客观题正确率达到74.66%,在13家大模型中排名首位,阿里千问和GPT-4o分列二三位。而在高考数学新I卷评测排名中,字节豆包也排在前列。
895.61MB
查看527.59MB
查看95.1MB
查看409.22MB
查看660.28MB
查看854.33MB
查看332.58MB
查看686.98MB
查看512.17MB
查看780.18MB
查看614.39MB
查看439.37MB
查看191.86MB
查看832.76MB
查看663.31MB
查看957.11MB
查看732.84MB
查看927.85MB
查看460.19MB
查看657.22MB
查看452.68MB
查看205.77MB
查看719.44MB
查看811.30MB
查看184.78MB
查看296.52MB
查看347.83MB
查看624.61MB
查看497.75MB
查看868.39MB
查看167.18MB
查看622.71MB
查看431.86MB
查看960.64MB
查看112.63MB
查看825.78MB
查看877.98MB
查看445.29MB
查看948.30MB
查看791.34MB
查看778.71MB
查看656.85MB
查看574.47MB
查看457.10MB
查看622.22MB
查看404.62MB
查看244.84MB
查看950.63MB
查看661.27MB
查看651.70MB
查看537.84MB
查看407.49MB
查看812.33MB
查看625.76MB
查看300.60MB
查看422.89MB
查看588.84MB
查看159.83MB
查看287.23MB
查看396.60MB
查看737.95MB
查看892.88MB
查看657.35MB
查看159.98MB
查看806.80MB
查看918.87MB
查看691.46MB
查看480.83MB
查看970.61MB
查看156.62MB
查看688.14MB
查看751.70MB
查看355.18MB
查看720.51MB
查看138.66MB
查看468.43MB
查看718.13MB
查看335.68MB
查看452.14MB
查看616.29MB
查看719.39MB
查看675.10MB
查看336.44MB
查看892.40MB
查看136.98MB
查看704.21MB
查看428.70MB
查看225.50MB
查看894.19MB
查看219.28MB
查看279.25MB
查看986.34MB
查看175.34MB
查看308.76MB
查看202.85MB
查看472.12MB
查看137.37MB
查看731.87MB
查看441.22MB
查看726.21MB
查看820.62MB
查看764.16MB
查看792.54MB
查看829.17MB
查看
383 建德ee
湖北一官员凌晨接上级电话未赴现场在家睡觉 被免职➗
2025-07-03 19:23:33 推荐
539 188****6044
安徽医卫系统又双叒掀反腐风暴 5个月落马16人➛
2025-07-01 19:04:50 不推荐
838 152****9079
吕秀莲“要切腹自杀”:不忍台湾在民进党执政下沦亡➟
2025-07-02 0-1:36:26 推荐
67 恐龙神奇宝贝
崔永元“一抽屉合同”杀伤力爆表:100多亿瞬间就没了➢
2025-07-03 19:44:16 推荐