今年5月,豆包大模型在火山引擎原动力大会上正式发布。相关数据显示,在MMLU、BBH、GSM8K、HumanEval等11个业界主流的公开评测集上,Doubao-pro-4k的总分为76.8分,优于同期测试的其他国产模型。在数学能力、语言理解能力,以及综合评测集CMMLU和CEval的评测上,豆包也有不错的表现,得分排在前三。
桶机大全新民晚报讯(记者金志刚)近日,复旦大学自然语言处理(NLP)实验室LLMEVAL团队公布了2024年高考数学大模型评测结果。数据显示,字节豆包在2024高考数学新II卷客观题正确率达到74.66%,在13家大模型中排名首位,阿里千问和GPT-4o分列二三位。而在高考数学新I卷评测排名中,字节豆包也排在前列。
评测选取2024高考数学新I卷和新II卷的14道客观题,参评“选手”涵盖GPT-4o、文心一言、阿里千问、字节豆包等主流大模型。GPT-4o是OpenAI于今年5月新推出的大语言模型,数学能力是其发布会现场着重展现的能力模块。但结果显示,部分国产大模型在本次数学评测中的成绩优于GPT-4o。在新II卷客观题测试中,字节豆包成绩排在首位,其次是阿里千问和GPT-4o。
据悉,LLMEval是由复旦大学NLP实验室推出的大模型评测基准,专注于评估专业领域的知识能力。评测团队表示,全新出炉的高考试题具备高度的独创性和保密性,是用来评测大模型的“绝好评测集合”。因此,团队在高考后第一时间对13家大模型进行了评测。
452.99MB
查看470.32MB
查看62.5MB
查看494.85MB
查看857.53MB
查看232.42MB
查看290.61MB
查看449.72MB
查看516.28MB
查看159.60MB
查看217.26MB
查看807.23MB
查看484.77MB
查看548.55MB
查看967.99MB
查看245.43MB
查看915.96MB
查看844.19MB
查看997.86MB
查看138.96MB
查看345.61MB
查看478.83MB
查看153.95MB
查看592.86MB
查看145.36MB
查看653.74MB
查看780.70MB
查看792.68MB
查看353.33MB
查看743.86MB
查看513.47MB
查看866.66MB
查看835.14MB
查看961.99MB
查看832.26MB
查看501.97MB
查看330.96MB
查看666.55MB
查看902.63MB
查看194.60MB
查看894.47MB
查看865.77MB
查看171.97MB
查看995.73MB
查看984.99MB
查看566.37MB
查看632.65MB
查看790.33MB
查看634.33MB
查看290.61MB
查看192.44MB
查看400.79MB
查看791.66MB
查看717.13MB
查看150.98MB
查看876.80MB
查看185.90MB
查看804.37MB
查看261.43MB
查看776.79MB
查看185.34MB
查看660.15MB
查看615.85MB
查看318.46MB
查看368.46MB
查看131.48MB
查看869.74MB
查看171.18MB
查看816.90MB
查看240.86MB
查看126.59MB
查看306.29MB
查看504.50MB
查看829.18MB
查看587.70MB
查看937.93MB
查看713.69MB
查看108.96MB
查看556.73MB
查看611.47MB
查看454.67MB
查看333.84MB
查看221.31MB
查看669.33MB
查看542.35MB
查看165.79MB
查看178.36MB
查看334.55MB
查看587.52MB
查看292.13MB
查看202.31MB
查看127.83MB
查看289.25MB
查看730.30MB
查看636.42MB
查看626.61MB
查看348.57MB
查看369.50MB
查看768.56MB
查看159.32MB
查看256.99MB
查看805.65MB
查看212.58MB
查看953.29MB
查看
720 常州ah
两个项目“豪掷”近100亿元!办大学是个人掏钱!曹德旺最新发声🎽
2025-06-28 17:33:31 推荐
795 188****7733
济南职校生伤人引发正当防卫争论:一场隔栏对骂酿成的冲突🏁
2025-06-28 14:07:52 不推荐
241 152****7810
艺考生,困在二本线🏉
2025-06-28 12:46:35 推荐
82 战斗机甲车选关版
“蹊跷的增补承包费”,是对农村土地承包经营权的一次考验 | 快评🏏
2025-06-28 15:54:25 推荐