今年5月,豆包大模型在火山引擎原动力大会上正式发布。相关数据显示,在MMLU、BBH、GSM8K、HumanEval等11个业界主流的公开评测集上,Doubao-pro-4k的总分为76.8分,优于同期测试的其他国产模型。在数学能力、语言理解能力,以及综合评测集CMMLU和CEval的评测上,豆包也有不错的表现,得分排在前三。
据悉,LLMEval是由复旦大学NLP实验室推出的大模型评测基准,专注于评估专业领域的知识能力。评测团队表示,全新出炉的高考试题具备高度的独创性和保密性,是用来评测大模型的“绝好评测集合”。因此,团队在高考后第一时间对13家大模型进行了评测。
男生女生靠逼新民晚报讯(记者金志刚)近日,复旦大学自然语言处理(NLP)实验室LLMEVAL团队公布了2024年高考数学大模型评测结果。数据显示,字节豆包在2024高考数学新II卷客观题正确率达到74.66%,在13家大模型中排名首位,阿里千问和GPT-4o分列二三位。而在高考数学新I卷评测排名中,字节豆包也排在前列。
评测选取2024高考数学新I卷和新II卷的14道客观题,参评“选手”涵盖GPT-4o、文心一言、阿里千问、字节豆包等主流大模型。GPT-4o是OpenAI于今年5月新推出的大语言模型,数学能力是其发布会现场着重展现的能力模块。但结果显示,部分国产大模型在本次数学评测中的成绩优于GPT-4o。在新II卷客观题测试中,字节豆包成绩排在首位,其次是阿里千问和GPT-4o。
360.34MB
查看576.93MB
查看93.9MB
查看304.97MB
查看974.49MB
查看974.98MB
查看225.60MB
查看602.79MB
查看596.13MB
查看645.41MB
查看304.59MB
查看737.55MB
查看672.87MB
查看670.80MB
查看642.26MB
查看252.40MB
查看525.17MB
查看864.36MB
查看815.43MB
查看118.48MB
查看234.69MB
查看328.70MB
查看546.31MB
查看399.89MB
查看768.60MB
查看531.21MB
查看713.10MB
查看578.28MB
查看871.84MB
查看974.45MB
查看305.23MB
查看719.53MB
查看166.68MB
查看300.15MB
查看695.99MB
查看786.21MB
查看481.46MB
查看412.17MB
查看160.94MB
查看807.19MB
查看414.88MB
查看887.57MB
查看241.55MB
查看254.69MB
查看357.25MB
查看907.46MB
查看232.54MB
查看824.43MB
查看304.39MB
查看793.61MB
查看656.35MB
查看701.92MB
查看925.76MB
查看784.24MB
查看545.76MB
查看156.22MB
查看418.81MB
查看922.31MB
查看322.68MB
查看289.49MB
查看918.16MB
查看229.28MB
查看520.26MB
查看871.95MB
查看466.71MB
查看451.60MB
查看934.73MB
查看954.50MB
查看316.82MB
查看464.73MB
查看684.65MB
查看785.57MB
查看471.18MB
查看584.48MB
查看508.96MB
查看915.50MB
查看702.90MB
查看799.13MB
查看779.49MB
查看966.51MB
查看865.74MB
查看218.36MB
查看866.46MB
查看653.81MB
查看583.99MB
查看363.77MB
查看214.79MB
查看433.90MB
查看438.59MB
查看363.14MB
查看315.27MB
查看659.97MB
查看234.84MB
查看275.36MB
查看433.96MB
查看166.67MB
查看487.78MB
查看264.54MB
查看613.42MB
查看341.61MB
查看287.32MB
查看246.23MB
查看996.26MB
查看214.88MB
查看
445 二连浩特sr
源控案例 | 激光辅助烧结,开启提质增效新...☮
2025-07-02 04:27:15 推荐
147 188****5110
在线研讨会 | 开放、灵活、独立——这就是...☲
2025-07-03 0-1:00:23 不推荐
199 152****5109
厦门ABB开关在输配电设备制造业中首家获得...☶
2025-07-02 18:43:05 推荐
72 鱼吃鱼
3D-A1000丨精准快速实现包裹标签的智能粘贴☹
2025-07-01 17:22:47 推荐