中文大模型基准测评2024年上半年报告——2024年度中文大模型阶段性进展评估.pdf-资源下载-咨信网助力知识提升-让知识获取变得高效!

中文大模型基准测评2024年上半年报告——2024年度中文大模型阶段性进展评估.pdf

1、中文大模型基准测评中文大模型基准测评2022024 4年年上半年上半年报告报告 2024.07.09 2024年度中文大模型阶段性进展评估SuperCLUE团队精准量化AGI进展，定义人类迈向AGI的路线图Accurately quantifying the progress of AGI,defining the roadmap for humanitys journey towards AGI.报告核心结论摘要国内外大模型差距进一步缩小：国内外大模型差距进一步缩小：国内外大模型差距进一步缩小：OpenAI最新模型GPT-4o依然是全球表现最好的模型，但国内大模型已将差距缩小至5%以内。国内

2、开源模型崛起：国内开源模型崛起：本次登顶SuperCLUE的国内大模型为开源模型Qwen2-72B-Instruct，并且超过了众多国内外闭源模型。各任务表现：各任务表现：在文科、理科和Hard任务中，GPT-4o综合最佳，Claude-3.5在Hard任务表现突出，Qwen2-72B在文科任务表现优异。端侧小模型表现惊艳：端侧小模型表现惊艳：端侧小模型进展迅速，部分小尺寸模型表现要好于上一代的稍大尺寸模型，极大提升了落地的可行性。3SuperCLUE模型象限SuperCLUE各维度任务来源：SuperCLUE,2024年7月9日来源：SuperCLUE,2024年7月9日目录目录 1.1

3、.国内大模型关键进展及国内大模型关键进展及趋势趋势2023-2024年大模型关键进展2024年值得关注的中文大模型全景图2023-2024年度国内外大模型技术发展趋势中文大模型基准SuperCLUE介绍SuperCLUE测评体系及数据集总榜、理科榜单、文科榜单、Hard榜单及模型象限开源榜单及端侧小模型榜单大模型对战胜率、成熟度指数评测与人类一致性分析 2.SuperCLUE2.SuperCLUE通用能力测通用能力测评评 4.SuperCLUE4.SuperCLUE专项与行业专项与行业基准基准测评测评 5.5.优秀模型优秀模型案例介绍案例介绍优秀模型案例介绍各行业、专项测评未来两个月基准发布计

4、划 3.SuperCLUE3.SuperCLUE多模态能力测评多模态能力测评AIGVBench视频生成测评SuperCLUE-Image文生图测评SuperCLUE-V多模态理解测评4第1部分国内大模型关键进展及趋势国内大模型关键进展及趋势1.2023-2024大模型关键进展 2.中文大模型全景图 3.国内外大模型发展趋势5（关键进展）时间准备期准备期成长期成长期爆发爆发期期自2022年11月30日ChatGPT发布以来，AI大模型在全球范围内掀起了有史以来规模最大的人工智能浪潮。国内学术和产业界在过去一年半也有了实质性的突破。大致可以分为三个阶段，即准备期（ChatGPT发布后国内产学研迅

5、速形成大模型共识）、成长期（国内大模型数量和质量开始逐渐增长）、爆发期（各行各业开源闭源大模型层出不穷，形成百模大战的竞争态势）。故事的起点：故事的起点：ChatGPTChatGPT发布发布国内迅速形成大模型共识国内迅速形成大模型共识百度发布文心一言1.0 2023-2024大模型关键进展2022.122023.022023.122024.042024.062023.06OpenAIOpenAI发布发布GPT-4GPT-4清华开源ChatGLM360发布360智脑科大讯飞发布星火阿里云发布通义千问MetaMeta开源开源Llama2Llama2百川智能开源BaichuanOpenAIOpen

6、AI发布发布GPT-4 TurboGPT-4 Turbo、多模态多模态GPT-4VGPT-4V百度升级文心一言4.0阿里云开源Qwen-7B华为发布盘古3.0字节跳动公测大模型产品豆包vivo发布BlueLM小米发布大模型MiLM西湖心辰发布西湖大模型零一万物开源Yi-34B科大讯飞升级星火3.0云从科技发布从容大模型OPPO发布AndesGPT商汤科技发布商量2.0GoogleGoogle发布发布多模态大模型多模态大模型GeminiGemini腾讯发布混元助手SuperCLUE：AI大模型2023-2024年关键进展OpenAIOpenAI发布文生视频发布文生视频SoraSora百川智能发

7、布Baichuan3MiniMax发布ABAB6.5智谱AI发布GLM-4GoogleGoogle发布发布Gemini1.5Gemini1.5Claude3Claude3发布发布科大讯飞发布星火3.5商汤发布SenseChat5.0KimiChat支持200万上下文MetaMeta开源开源Llama3Llama3OpenAIOpenAI发布发布GPT-4oGPT-4o阿里云开源Qwen2-72B快手发布可灵视频生成百川智能发布Baichuan4RunwayRunway发布发布Gen-3Gen-3Claude3.5Claude3.5发布发布科大讯飞发布星火4.0零一万物发布Yi-largeDee

8、pSeek-V2发布国内大模型大幅降价62024年值得关注的中文大模型全景图通通用用大大模模型型字节豆包大模型AndesGPT玉言闭源闭源(语言模型语言模型)开开源源行行业业大大模模型型岐黄问道医疗医疗MindGPTMindGPT蚂蚁金融大模型轩辕大模型AInno-15BCOSMO-GPTCOSMO-GPTSMore LrMo妙笔大模型妙笔大模型文化文化/零售零售/交通交通部分部分领域领域汽车汽车教育教育金融金融工业工业.MedGPT华佗GPT左医GPT京医千询.NoNomiGPTmiGPT妙想大模型闭源闭源(多模态多模态)72023-2024年度国内外大模型发展趋势模型模型23年年5月

9、月 23年年6月月23年年7月月23年年8月月23年年9月月23年年10月月23年年11月月23年年12月月24年年2月月24年年4月月24年年6月月GPT最新模型（GPT3.5、4、4-Turbo、4o）76.6778.7670.8981.0383.2087.0889.7990.6392.7179.1381.00国内TOP153.5863.5362.0060.0262.7570.7474.0279.0287.7573.3277.00国内TOP249.5262.5859.3555.7062.6170.4272.8896.5486.7772.5876.00国内TOP346.4559.8058.0

10、253.4362.1269.5771.8775.0485.7072.4576.00 2023年5月至今，国内外大模型能力持续发展。其中GPT系列模型为代表的海外最好模型经过了从GPT3.5、GPT4、GPT4-Turbo、GPT4o的多个版本的迭代升级。国内模型也经历了波澜壮阔的14个月的迭代周期，其中Top1的模型经历了8次易主，不断提升国内模型的最强战力。总体趋势上，国内外第一梯队大模型在中文领域的通用能力差距在持续缩小，从2023年5月的30.12%的差距，缩小至2024年6月的4.94%。国内外Top1模型差距分数国内外Top1模型差距比例SuperCLUE基准：过去基准：过去14个月

11、国内外个月国内外TOP模型对比趋势模型对比趋势来源：SuperCLUE,2023年5月2024年6月，期间发布的11次大模型基准测评报告。8第2部分 SuperCLUESuperCLUE通用能力测评通用能力测评1.SuperCLUE介绍 2.SuperCLUE综合测评体系及数据集 3.国内外大模型总体表现 4.子任务测评结果 5.SuperCLUE模型象限 6.国内大模型历月前三甲 7.理科测评结果 8.文科测评结果 9.Hard测评结果 10.开源及端侧小模型总体表现 11.大模型对战胜率分布图 12.SuperCLUE成熟度指数 13.评测与人类一致性验证 9010203随着国内外大模型的

12、竞争日益激烈，模型开发方主导的评测可能存在偏向自家产品的风险。与之形成鲜明对比的是，SuperCLUE作为一个完全独立的第三方评测机构，承诺提供无偏倚的客观评测结果。SuperCLUE采用先进的自动化评测技术，有效消除人为因素带来的不确定性，确保每一项评测都公正无私。独立第三方测评，独立第三方测评，非大模型方主导非大模型方主导中文语言理解测评基准中文语言理解测评基准 C L U E（T h e C h i n e s e L a n g u a g e Understanding Evaluation）是致力于科学、客观、中立的语言模型评测基准，发起于201

13、9年。陆续推出CLUE、FewCLUE、KgCLUE、DataCLUE等广为引用的测评基准。SuperCLUE是大模型时代是大模型时代CLUE基准的发展和延续基准的发展和延续。聚焦于通用大模型的综合性测评。SuperCLUE根据多年的测评经验，基于通用大模型在学术、产业与用户侧的广泛应用，构建了多层次、多维度的综合性测评基准。独立独立第三方第三方多轮多轮动态更新动态更新高高保密性保密性其他测评其他测评 SuperCLUE不同于传统学术领域的评测，SuperCLUE根据全球的大模型技术发展趋势，不断升级迭代测评体系、测评维度和方法，以保证尽可能精准量化大模型的技术演进程度。“livelive”更

14、新，测评体系更新，测评体系/方法与时俱进方法与时俱进不同于传统测评通过选择题形式的测评，SuperCLUE目标是与真实用户体验目标保持一致，所以纳入了开放主观问题的测评。通过多维度多视角多层次的评测体系以及对话的形式，模拟大模型的应用场景，真实有效的考察模型生成能力。测评方式与真实用户体验目标一致测评方式与真实用户体验目标一致非独立第三方非独立第三方单轮单轮学术学术保密性低保密性低VSSuperCLUESuperCLUE三三大特征大特征产业产业+用户用户视角视角SuperCLUE与其他测评与其他测评的区别的区别SuperCLUE介绍10SuperCLUE大模型综合测评体系通用能力通用能力评估

15、评估专项能力专项能力评估评估SuperCLUE重点专项评估重点专项评估Math6数学多步推理RAG检索增强生成Agent智能体Safety安全Code3代码Role角色扮演Long长文本代码助手AI搜索行业行业工业终端消费者专项能力评估包括文本专项和多模态专项注：专项与通用能力侧重点不同，通用侧重基础能力，专项侧重场景应用能力医疗汽车金融行业行业/应用评估应用评估理科理科计算逻辑推理代码文科文科知识百科安全HardHard精确指令遵循复杂任务高阶推理高难度问题解决生成创作语言理解角色扮演工具使用长文本AIGVBench视频生成Image文生图多模态理解AIAI产品产品SuperCLUE

16、大模型综合测评体系11SuperCLUE通用测评基准数据集理科文科Hard1.1.计算计算包括线性代数、概率统计、微积分及数学多步推理算术在内的基础数学数据集。2 2.逻辑推理逻辑推理包括三段论、关系推理、朴素推理等在内的中文逻辑推理数据集。3 3.代码代码HumanEval的中文升级版，分为初级、中级和高级的8种常见类型代码数据集。4 4.知识百科知识百科基础知识类数据集，包括但不限于历史、地理、科学、体育、娱乐、艺术。5 5.语言理解语言理解基础语义理解数据集，包括但不限于信息抽取、意图识别、情感分析、摘要。6 6.长文本长文本考察长文处理能力的数据集，包括全文摘要、线索摘要、多文本创作等

17、。7 7.角色角色扮演扮演考察模型角色模拟扮演能力，包括语言风格、行为习惯、角色背景等数据集。8 8.生成与创作生成与创作包括但不限于广告文案、技术写作、公文写作、文学创作的数据集。9 9.安全安全包括但不限于违法犯罪、财产隐私、偏见歧视、脏话侮辱、道德伦理等。1 10.0.工具使用工具使用用来评估大模型的Agent能力，包括检索、调用、规划API以及通用工具使用能力的数据集。1 11.1.精确指令精确指令遵循遵循主要考察模型的指令遵循能力，包括但不限于定义的输出格式或标准来生成响应，精确地呈现要求的数据和信息。1 12.2.复杂任务多步复杂任务多步推理推理主要考察模型在复杂任务

18、中的多步推理能力。复杂任务推理涉及在多个变量和条件下进行逻辑推理。1 13.3.高难度问题处理高难度问题处理考察AI模型解决实际生活或专业领域中的复杂问题的能力。SuperCLUE通用基准数据集通用基准数据集为进一步真实反应大模型能力，本次半年度测评采用多维度、多层次的综合性测评方案，由理科、文科和Hard三大维度构成。【理科任务】分为计算、逻辑推理、代码测评集；【文科任务】分为知识百科、语言理解、长文本、角色扮演、生成与创作、安全和工具使用七大测评集；【Hard任务】本次测评首次纳入精确指令遵循测评集，另外复杂多步推理和高难度问题解决Hard测评集后续陆续推出。12模型模型机构机构简介简介模

19、型模型机构机构简介简介1.GPT-4oOpenAI官方于2024年5月13日发布的gpt-4o-2024-05-1318.Llama-3-70B-Instruct(poe)Meta在POE平台的Llama3的70B版本2.Qwen2-72B-Instruct阿里巴巴官方开源：qwen2-72b-instruct19.文心一言4.0百度官方公开发布的API版本：ERNIE-4.0-8K-Latest3.Claude-3.5-Sonnet-200kAnthropic官方在2024年6月21日发布的Claude-3.5-Sonnet20.Gemini-1.5-ProGooglePOE平台的Gemin

20、i-1.5-Pro4.DeepSeek-V2深度求索官方公开发布的API版本：deepseek-chat的V2版21.阶跃星辰step-1-32k阶跃星辰官方公开发布API版本：step-1-32k5.GLM-4-0520清华&智谱AI官方公开发布的API版本：GLM-4-052022.GPT-3.5-Turbo-0125OpenAI2024年1月25日发布的GPT-3.5-turbo的更新版本6.SenseChat5.0商汤官方公开发布的API版本：SenseChat5.023.Yi-1.5-34B-Chat-16K零一万物官方开源的Yi-1.5-34B-Chat-16K版本7.GPT-4-

21、Turbo-0409OpenAI2024年4月9日发布的GPT-4-turbo的更新版本24.qwen2-7b-instruct阿里巴巴官方开源：qwen2-7b-instruct8.AndesGPTOPPO官方小范围内测API的6月版本25.XVERSE-65B-2-32K元象科技官方开源的XVERSE-65B-29.GPT-4(官网)OpenAIOpenAI官网的GPT-4，支持联网功能26.qwen1.5-32b-chat阿里巴巴官方开源：qwen1.5-32b-chat10.山海大模型4.0云知声官方小范围内测API的6月4.0版本27.Llama-3-8B-InstructMeta官

22、方开源的Llama-3-8B-Instruct版本11.Moonshot(Kimi)月之暗面官方网页版产品【Kimi】，6月版本28.Yi-1.5-6B-Chat零一万物官方开源的Yi-1.5-6B-Chat版本12.360gpt2-pro360官方小范围内测API的6月V2版本29.Baichuan2-13B-Chat-v2 百川智能开源的第二代13B的Chat版本V213.Doubao-pro-32k-0615字节跳动字节公开发布的API版本：doubao-pro-32k/24061530.Phi-3-mini-128k-instruct微软官方开源的Phi-3-mini-128k-ins

23、truct版本14.Baichuan4百川智能官方公开发布的Baichuan4的API版本31.gemma-7b-itGoogle官方开源的7B版本15.MiniMax-abab6.5稀宇科技官方公开发布的abab6.5的API版本32.qwen2-1.5b-instruct阿里巴巴官方开源：qwen2-1.5b-instruct16.通义千问2.5阿里巴巴官方公开发布的API版本：qwen-max33.Llama-2-13b-chatMeta官方开源的2代13B的Chat的开源版本17.讯飞星火V4.0科大讯飞官方公开发布的星火V4.0的API版本/本次测评数据选取了SuperCLUE-6S

24、uperCLUE-6月月测评结果，模型选取了国内外有代表性的3333个大模型个大模型在6月份的版本。测评模型列表13海外模型海外模型国内模型国内模型国内外大模型国内外大模型SuperCLUE基准榜单基准榜单来源：SuperCLUE,2024年7月9日注：由于部分模型分数较为接近，为了减少问题波动对排名的影响，本次测评将相距1分区间的模型定义为并列，报告中分数展示以上区间为主。国内外大模型总体发展态势国内外大模型总体发展态势1.1.GPT-4GPT-4o o领跑，国内大模型进展迅速领跑，国内大模型进展迅速 GPT-4o以81分的绝对优势领跑 SuperCLUE基准测试，是全球模型中唯一超过80分

25、的大模型。展现出强大的语言、数理和指令遵循能力。国内大模型上半年发展非常迅速，其中有6个国内大模型超过GPT-4-Turbo-0409。绝大部分闭源模型已超过GPT-3.5-Turbo-0125。2.2.国内大模型形成三大国内大模型形成三大梯队，头部企业引领发展梯队，头部企业引领发展国内大模型市场形成多梯队格局，头部企业凭借快速迭代、技术积累或资源优势，引领国内大模型发展。例如大厂模型以阿里的Qwen2-72B、商汤的SenseChat5.0等均以 75+的分数位居国内大模型第一梯队。大模型创业公司的代表如GLM-4、Baichuan4、Kimi、MiniMax-abab6.5均有超过70分

26、的表现，位列国内大模型第一梯队。3.3.开源模型极大发展，有超出闭源模型趋势开源模型极大发展，有超出闭源模型趋势开源模型Qwen2-72B在SuperCLUE基准中表现非常出色，超过众多国内外闭源模型，与Claude-3.5持平，与GPT-4o仅差4分。零一万物推出的Yi-1.5-34B在开源领域表现不俗，有超过60分的表现，较为接近部分闭源模型。随着技术进步和应用场景拓展，2024年下半年国内外大模型市场竞争将持续加剧，推动技术创新和产业升级。SuperCLUE通用能力测评：一级总分14SuperCLUE通用能力测评：二级维度分数来源：SuperCLUE,2024年7月9日；由于部分模型分

27、数较为接近，为了减少问题波动对排名的影响，本次测评将相距1分区间的模型定义为并列，报告中分数展示以上区间为主。15SuperCLUE通用能力测评：三级细粒度分数来源：SuperCLUE,2024年7月9日；由于部分模型分数较为接近，为了减少问题波动对排名的影响，本次测评将相距1分区间的模型定义为并列，报告中分数展示以上区间为主。16基础基础能力能力应用能力应用能力潜力探索者技术领跑者实用主义者卓越领导者文心一言文心一言4.0通义千问通义千问2.5MoonShot(Kimi)GLM-4-0520MiniMax-abab6.5Yi-1.5-34B-ChatDoubao-pro-32k-0615(字

28、节豆包字节豆包)XVERSE-65B-2-32KGPT-4oGPT-4(官网官网)GPT-3.5-Turbo-0125Claude-3.5-Sonnet-200kLlama-3-8B-Instruct注：1.两个维度的组成。基础能力，包含：计算、代码、传统安全等能力；应用能力，包括：工具使用、角色扮演等能力2.四个象限的含义。它们代表大模型所处的不同阶段与定位，其中【潜力探索者】代表模型正在技术探索阶段拥有较大潜力；【技术领跑者】代表模型聚焦基础技术研究；【实用主义者】代表模型在场景应用上处于领先定位；【卓越领导者】代表模型在基础和场景应用上处于领先位置，引领国内大模型发展。360gpt2-p

29、roGemini1.5-pro来源：SuperCLUE,2024年7月9日Baichuan4讯飞星火讯飞星火V4.0qwen-1.5-32b-chatgemma-7b-itGPT-4-Turbo-0409山海大模型山海大模型4.0(云知声云知声)step-1-32k(阶跃星辰阶跃星辰)Llama-3-70B-Instruct(poe)SuperCLUE模型象限Qwen2-72BDeepSeek-V2(深度求索深度求索)AndesGPT(OPPO)SenseChat5.017测评时间测评时间第一名第一名第二名第二名第三名第三名2024年6月Qwen2-72BGLM-4-0520、DeepSeek

30、-V2、SenseChat5.0AndesGPT2024年4月Baichuan3GLM-4、通义千问2.1腾讯Hunyuan-pro、文心一言4.02024年2月文心一言4.0GLM-4通义千问2.12023年12月文心一言4.0 通义千问2.0AndesGPT2023年11月文心一言4.0 MoonshotYi-34B-Chat2023年10月BlueLMMoonshot文心一言4.0 2023年9月SenseChat3.0文心一言(网页v2.3.1)ChatGLM2-Pro2023年8月Baichuan2-13B-ChatMinimax-abab5文心一言(网页v2.2.3)2023年7月

31、文心一言(网页v2.2.0)ChatGLM-130B讯飞星火V1.52023年6月360智脑文心一言讯飞星火2023年5月360智脑讯飞星火ChatGLM-130B国内大模型SuperCLUE历届Top3来源：SuperCLUE,2023年5月2024年6月，期间发布的11次大模型基准测评报告。18SuperCLUE-理科测评说明SuperCLUE-理科评测数据集计算计算包括线性代数、概率统计、微积分及数学多步推理算术在内的基础数学数据集。逻辑推理逻辑推理包括三段论、关系推理、朴素推理等在内的中文逻辑推理数据集。代码代码HumanEval的中文升级版，分为初级、中级和高级的8种常见类型代码数据

32、集。测评方法评测流程：评测流程：我们采用高级AI模型（例如GPT-4o）来评估不同任务的表现，根据设定的评价标准进行打分（1-5分）。以【逻辑推理】任务为例，设定的评价标准包括：符合基本要求、推理准确性、结论合理性。假设在一个具体的题目中，模型A的得分如下：符合基本要求3分、推理准确性4分、结论合理性5分。首先，我们计算这一题目的平均得分：因此，该题目的具体得分为4分。最后，将所有题目的得分进行归一化处理，以确保满分为100分。这样，每个任务的得分都能清晰地反映模型在不同标准下的表现。问题：问题：在一场马拉松比赛中，有四位跑者：艾达、贝特、卡斯和丹尼。他们分别穿着红色、蓝色、绿色和黄色的运动衣

33、，他们的排名是1、2、3和4。以下是你知道的信息：穿红色衣服的跑者排名高于贝特，但低于卡斯。绿色衣服的跑者排名最低。艾达没有穿蓝色衣服，也没有获得第二名。丹尼穿黄色，是第一名。请问，穿红色衣服的是谁？名次是多少？回答：回答：由于丹尼是第一名并且穿黄色衣服，我们可以确定：丹尼=黄色=第一名由于绿色衣服的跑者排名最低，即第四名，我们可以确定：绿色=第四名由于艾达没有获得第二名，艾达的可能名次是第一名、第三名或第四名。但因为第一名和第四名已被丹尼和绿色衣服的跑者占据，所以艾达只能是第三名。艾达也没有穿蓝色衣服，所以艾达的衣服颜色只能是红色或黄色，但黄色已被丹尼穿着。所以，我们可以确定：艾达=红色=第

34、三名剩下的贝特和卡斯中，穿红色衣服的跑者排名高于贝特且低于卡斯，这意味着贝特不能穿红色（因为艾达已是红色）。所以贝特只能是第二名，并穿蓝色衣服。卡斯因此是绿色衣服的跑者，并排名第四名。最后整理：丹尼=黄色=第一名；贝特=蓝色=第二名；艾达=红色=第三名；卡斯=绿色=第四名；因此，穿红色衣服的是艾达，名次是第三名。评价打分：评价打分：打分与评价开始：基于标准1的；模型回答完整遵循用户意图，清晰整理了已知条件并进行了推理。符合基本要求。得分：5分；基于标准2的；模型回答的推理大体正确，但有些冗余和推理步骤可以优化，部分步骤显得重复。得分：3分；基于标准3的；模型回答最终得出的结论是正确且合理的，符

35、合现实世界的常识与已知信息。得分：5分；综合以上，AI助手的回答的综合得分（平均分）为4.33-逐项打分结束-示例19海外模型海外模型国内模型国内模型国内外大模型国内外大模型SuperCLUE基准：基准：理科得分理科得分国内外大模型理科能力分析国内外大模型理科能力分析SuperCLUE-理科成绩1.1.GPT-4GPT-4o o领先，国内外有一定差距领先，国内外有一定差距 GPT-4o以81分的绝对优势领跑SuperCLUE基准理科测试，是全球模型中唯一超过80分的大模型。GPT-4-Turbo-0409得分77分，紧随其后。国内大模型理科表现优异的模型，如 Q w

36、e n 2-7 2 B、AndesGPT和山海大模型4.0稍落后于GPT-4-Turbo-0409，均取得76分的高分。但与GPT-4o还有较大差距。2.2.理科任务具有较高的挑战难度，区分度明显理科任务具有较高的挑战难度，区分度明显理科任务有较高难度，我们可以发现，GPT-4o和GPT3.5-Turbo有17分的差距，Llama-3-70B比Llama-2-13B有34分的差距。在国内闭源模型中，表现最高的模型（76分）和表现最差模型（58分）有18分的区分度。可见在理科任务上较能反应大模型之间的能力差距。3.3.小参数量模型在理科能力上表现不足小参数量模型在理科能力上表现不足参数量较小

37、的模型在SuperCLUE理科测评中，基本均为达到60分及格线，可见在难度较高任务上，参数量依然是影响较大的因素。理科任务上主要包括计算、逻辑推理和代码任务，这几项将是国内外大模型在下半年重点突破的方向。20来源：SuperCLUE,2024年7月9日；由于部分模型分数较为接近，为了减少问题波动对排名的影响，本次测评将相距1分区间的模型定义为并列，报告中分数展示以上区间为主。SuperCLUE-文科测评说明SuperCLUE-文科评测数据集测评方法评测流程：评测流程：我们采用高级AI模型（例如GPT-4o）来评估不同任务的表现，根据设定的评价标准进行打分（1-5分）。以【知识百科】任务为例，设

38、定的评价标准包括：符合基本要求、事实正确性、清晰度。假设在一个具体的题目中，模型A的得分如下：符合基本要求3分、事实正确性4分、清晰度5分。首先，我们计算这一题目的平均得分：因此，该题目的具体得分为4分。最后，将所有题目的得分进行归一化处理，以确保满分为100分。这样，每个任务的得分都能清晰地反映模型在不同标准下的表现。问题：问题：中国第一部现代白话小说是什么？回答：回答：中国第一部现代白话小说是鲁迅的狂人日记。这部小说发表于1918年，标志着中国现代文学的开始，它采用了白话文写作，与传统的文言文小说形成鲜明对比，具有划时代的意义。狂人日记通过一个精神病患者的视角，揭露和批判了中国封建社会的残

39、酷和愚昧，是中国现代文学史上的重要作品。评价打分：评价打分：-逐项打分开始-我的思考与答案：中国第一部现代白话小说是鲁迅的狂人日记。这部小说发表于1918年，是中国现代文学的开端。它通过一个患有精神病的人的视角，批判了封建社会的残酷和愚昧。狂人日记采用白话文写作，与传统的文言文小说形成鲜明对比，具有重要的历史和文学意义。打分与评价开始：基于标准1的：模型的回答准确响应了用户的问题，提供了预期的信息，并且解释了相关的背景。基于标准1的得分为5分；基于标准2的：模型回答中的信息准确无误，包括小说的名称、作者和发表时间，且解释了其历史意义。基于标准2的得分为5分；基于标准3的：模型的回答整体清楚，但

40、稍显繁琐，若能精简一些，表达会更加清晰。基于标准3的得分为4分；综合以上，AI助手的回答的综合得分（平均分）为4.67-逐项打分结束-示例工具使用工具使用用来评估大模型的Agent能力，包括检索、调用、规划API以及通用工具使用能力的数据集。知识百科知识百科基础知识类数据集，包括但不限于历史、地理、科学、体育、娱乐、艺术。语言理解语言理解基础语义理解数据集，包括但不限于信息抽取、意图识别、情感分析、摘要。长文本长文本考察长文处理能力的数据集，包括全文摘要、线索摘要、多文本创作等。角色角色扮演扮演考察模型角色模拟扮演能力，包括语言风格、行为习惯、角色背景等数据集。生成与创作生成与创作包括但不限于

41、广告文案、技术写作、公文写作、文学创作的数据集。安全安全包括但不限于违法犯罪、财产隐私、偏见歧视、脏话侮辱、道德伦理等。21海外模型海外模型国内模型国内模型国内外大模型国内外大模型SuperCLUE基准：基准：文科得分文科得分来源：SuperCLUE,2024年7月9日由于部分模型分数较为接近，为了减少问题波动对排名的影响，本次测评将相距1分区间的模型定义为并列，报告中分数展示以上区间为主。国内外大模型国内外大模型文科能力分析文科能力分析SuperCLUE-文科成绩1.1.国内外头部模型处于同一水平，均未达到国内外头部模型处于同一水平，均未达到8080分良好线分良好线 GPT-4o在文科任务上

42、取得76分，并未超过80分，说明文科任务上实现高质量处理依然有较大提升空间。国内擅长文科的模型如 Q w e n 2-7 2 B、A n d e s G P T、通义千问 2.5 和 DeepSeek-V2同样取得76分，与GPT-4o处于同一水平。另外国内大模型如 S e n s e C h a t 5.0、山海大模型 4.0 和360gpt2-pro取得75分，表现不俗。与GPT-4-Turbo-0409表现相当。2.2.文科任务模型间的区分度不明显，表现文科任务模型间的区分度不明显，表现“中规中矩中规中矩”本次测评所有国内模型得分分布较为集中，没有较大的

43、区分性，均处于及格线（60分）-良好线（80分）之间。国内外闭源模型得分均处于70-80分，表现“中规中矩”，处理能力较为相似。国内开源模型得分大部分处于60-70分，表现“基本可用”，但在质量上还有较大提升空间。3.3.模型模型参数量在文科能力上不是模型的决定性因素参数量在文科能力上不是模型的决定性因素本次测评中参数量最小的模型qwen2-1.5b（15亿参数量），依然有超过60分的表现，而qwen2-7b有超过70分的表现，与文心一言4.0表现接近。文科任务上如何提高语言处理质量，增加内容生成和理解的优秀水平，是国内外大模型需要进一步优化的方向。22SuperCLUE-Hard测评说明（

44、高挑战性）SuperCLUE-Hard评测数据集精确指令遵循精确指令遵循主要考察模型的指令遵循能力，要求AI严格按照给定的指令进行回复，包括但不限于定义的输出格式或标准来生成响应，精确地呈现要求的数据和信息。测评方法评测流程：评测流程：我们完成了一个针对不同的语言模型的（文本输出）精确指令遵循表现的测试，根据设定的评估标准进行评估。评估的结果为布尔值（True 或 False）。以【写一篇关于可再生能源对减少碳排放的作用的短文。要求文章不得使用“二氧化碳”这个词，字数不少于10个字，以JSON格式返回】任务为例：设定的评价标准包括：遵循关键词限制、符合字数要求、输出格式正确遵循关键词限制、符合

45、字数要求、输出格式正确。模型只有在命中所有指令的条件下会得到True的返回结果。例如：模型输出结果1：response:可再生能源在减少碳排放和减轻气候变化方面起着关键作用，未来应加快推广。符合所有要求，返回True。模型输出结果2：response:使用可再生能源可以减少二氧化碳排放。违背了关键词限制，返回False。最后，我们将所有题目的评估结果进行汇总，根据模型完全命中的题目数量计算模型的最终命中率，命中率以百分比为单位。具体来说，命中率计算公式为：命中率命中率=(=(模型完全命中的题目数量模型完全命中的题目数量总题目数量总题目数量)100%100%问题：问题：用纯文本格式写一篇关于智

46、能医疗设备在现代医院中的应用的短文，要求在文章中使用这四个技术术语：机器人辅助、电子病历、机器人辅助、电子病历、3D3D打印、健康。并且每个技术术语必须至打印、健康。并且每个技术术语必须至少出现少出现1010次。次。回答：回答：智能医疗设备在现代医院中的应用正在迅速普及，机器人辅助技术已经在手术、康复等领域得到了广泛应用。通过机器人辅助，医生可以进行更精确的操作，从而提高成功率并减少术后并发症。此外，机器人辅助还广泛应用于微创手术，使患者能够在短时间内恢复健康。.省略.综上所述，机器人辅助、电子病历、3D打印和健康领域的智能医疗设备在现代医院中的应用，为医疗界带来了诸多革新。这些技术使患者能够

47、享受更加高效、安全、个性化的治疗和健康管理。通过不断发展和创新，智能医疗设备将在未来持续推动医疗行业的进步与健康改善。评价打分：评价打分：def check_following(model_response):idioms=机器人辅助,电子病历,3D打印,大数据 counts=idiom:0 for idiom in idioms for idiom in idioms:countsidiom=model_response.count(idiom)return all(count=10 for count in counts.values()测评结果：测试不通过测试不通过示例23海外模型海外模

48、型国内模型国内模型国内外大模型国内外大模型SuperCLUE基准：基准：HardHard得分得分来源：SuperCLUE,2024年7月9日由于部分模型分数较为接近，为了减少问题波动对排名的影响，本次测评将相距1分区间的模型定义为并列，报告中分数展示以上区间为主。国内外大模型国内外大模型HardHard能力分析能力分析SuperCLUE-Hard成绩1.1.国内外模型在精确指令遵循能力上有一定差距国内外模型在精确指令遵循能力上有一定差距 GPT-4o在Hard任务（精确指令遵循）任务上取得85分，领跑全球大模型。Claude-3.5-Sonnet-200k仅随其后取得84分，表现同样不俗。是国

49、内外模型中唯二超过80分的大模型。国内表现最好的模型是GLM-4-0520和Qwen2-72B，取得79分，较GPT-4o低6分，还有一定的提升空间。2.2.精确指令遵循有较大区分度精确指令遵循有较大区分度本次测评所有模型得分的差异性较大，超出80分只有2个模型，且与排名第三的模型有5分差距。国内仅有 4 个模型超过了 7 5 分，分别为 G L M-4-0 5 2 0、Qwen2-72B、SenseChat5.0和DeepSeek-V2。在国内大模型中较为领先。国内闭源模型中得分最低的仅有60分，这说明高难度任务可以进一步区分模型之间的能力差距。3.3.小小模型普遍不擅

50、长模型普遍不擅长精确指令遵循精确指令遵循本次测评中参数量最小的开源模型qwen2-1.5b在精确指令遵循任务上仅有18分，并且小于10B的模型均为达到60分及格线，是端侧小模型后续需要重点提升的能力。Hard任务如精确指令遵循，可以很好的考察大模型的极限能力，后续将陆续增加复杂任务高阶推理和高难度问题解决等Hard任务，会进一步发现大模型的优化方向。24SuperCLUE通用能力测评-开源榜单SuperCLUE开源开源榜单榜单来源：SuperCLUE,2024年7月9日；注：由于部分模型分数较为接近，为了减少问题波动对排名的影响，本次测评将相距1分区间的模型定义为并列，报告中分数展示以上区间

邮箱/手机：
验证码：	获取验证码
温馨提示：	支付成功后，系统会自动生成账号（用户名为邮箱或者手机号，密码是验证码），方便下次登录下载和查询订单；
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？