2023中国大模型行研能力评测报告.pdf

资源描述

1、12023年中国大模型行研能力评测AI变革行业创新发展2023 China Large Language Model Industry Research Evaluation2023年中国大規模産業研究能力評価报告提供的任何内容（包括但不限于数据、文字、图表、图像等）均系头豹研究院独有的高度机密性文件（在报告中另行标明出处者除外）。未经头豹研究院事先书面许可，任何人不得以任何方式擅自复制、再造、传播、出版、引用、改编、汇编本报告内容，若有违反上述约定的行为发生，头豹研究院保留采取法律措施、追究相关人员责任的权利。头豹研究院开展的所有商业活动均使用“头豹研究院”或“头豹”的商号、商标，头豹研究院

2、无任何前述名称之外的其他分支机构，也未授权或聘用其他任何第三方代表头豹研究院开展商业活动。头豹研究院弗若斯特沙利文咨询（中国）中国：人工智能系列行业研读|2023/400-072-5588n大模型技术潮流兴起催生中国大模型百花齐放。沙利文与头豹研究院联手对12个大模型进行综合评估，以深入梳理中国大模型在行研领域的应用表现，为各界提供清晰深入的视角，以应对预训练大模型引发的人工智能浪潮当前，自然语言处理技术中的预训练大模型正在全球范围内引领一场前所未有的人工智能革命。自ChatGPT推出以来，仅在中国地区，涌现出超过80个不同的预训练语言大模型。这些模型的参与者涵盖了中国顶尖的学术研究机构和领先

3、的互联网科技企业，均希望能在这场技术浪潮中抢占先机。值得一提的是，过去一年里，中国学术和产业界也取得了显著进展，商汤的“商量”、百度的“文心一言”等大模型持续迭代，推动了中国大模型产业的快速发展。沙利文与头豹研究院合作，基于数字行研解决方案的研究和实践经验，凭借百人分析师团队的匿名投票机制，筛选出12个大模型进行综合评估。这一评估旨在全面了解并梳理中国大模型在行研领域的应用表现。通过这份专业分析，各界能获取到清晰、深入的视角，以更好地理解和应对由预训练大模型引发的人工智能浪潮。n大模型是自然语言处理领域中深度学习技术的高级应用。通过对海量文本数据进行深度训练，能够吸收和提炼出丰富的语言学知识和

4、语义内涵。这种大模型通常参数规模庞大，动辄数十亿甚至数百亿，从而具备理解和生成自然语言的能力，与人类沟通几乎无障碍。它的应用场景广泛，包括但不限于机器翻译、智能问答、文本摘要等多个领域。从技术发展的视角来看，语言模型的演进历程颇具启发性。起初，基于深度神经网络进行训练；随后，业界逐渐采用预训练结合微调的模式来提升性能；而如今，最先进的范式已经转向预训练结合提示训练，这无疑标志着模拟人类思维交流方面的又一重大突破。这一发展轨迹不仅凸显了技术的迅速迭代，更揭示了自然语言处理领域巨大的探索空间和创新潜力n大模型能够显著增强研究报告的编写效率，通过采纳精细化的询问策略，分析师在研究过程中能够实现效率优

5、化。此外，这一模型还能够提供全面的文本编辑支持，包括校正、查重、以及文风润色等功能，从而确保分析师提交的工作成果达到更高的质量标准摘要大模型评测|2023/400-072-5588内容目录1大模型行研能力评测背景及方法05页行研背景概述传统行研发展痛点数字行研革新大模型赋能行研评测大模型参与者评测方法与指标报告撰写能力行研基础能力行业理解能力2大模型行研能力评测结果 15页评测结果总榜报告撰写能力总榜报告撰写能力综合表现报告撰写高阶难度模块表现报告撰写低阶难度模块表现报告撰写能力分布行研基础能力总榜行研基础能力综合表现行研基础能力细分模块行研撰写能力分布行业理解能力总榜行业理解能力综合表现行业

6、理解能力细分行业研究目标n研究目的基于数字行研解决方案的研究和实践基础，头豹研究院联合沙利文凭借百人分析师团队匿名投票机制，筛选了12个大模型，进行了多维度的综合评估，旨在全面了解并系统梳理中国大模型参与者在行研领域的应用表现。n研究目标了解中国大模型在行研领域的应用价值探析中国大模型在行研领域的综合表现梳理中国大模型的参与者现状评估中国大模型行研领域的发展潜力n本报告的关键问题参与者发展现状：中国大模型的参与者有哪些？在行研领域的发展现状如何？行研应用表现：中国大模型在行业研究领域的实际应用表现如何？报告撰写能力：中国大模型在撰写行业研究报告方面的表现能力如何？模型基础能力：中国大模型逻辑推

7、理能力、类比迁移能力等基础能力表现如何？行业理解能力：目前中国大模型在不同行业下的理解能力以及表现如何？大模型评测|2023/12中国：人工智能系列400-072-5588名词解释u预训练语言大模型：预训练语言大模型是一种先进的人工智能技术，它通过在大规模文本数据上进行预先训练，学习语言的复杂模式，从而能够理解、生成和处理自然语言。u数字行研：数字化行业研究解决方案通过集成精准信息溯源系统和标准化写作工具，降低了行研门槛，提高撰写效率，并简化了质量控制流程，从而革新了行业研究的范式。u8-D方法论：沙利文联合头豹企业研究所采纳的8-D方法论包括八个核心模块，包含定义、分类、发展历程、特征、产业

8、链、市场规模、政策和竞争格局，构成了一套全面而系统的研究方法。u类比迁移：指在机器学习中用于训练的数据，这些数据没有提供明确的标签或答案。u逻辑推理：类比迁移是指从一个领域或情境中提取概念、原则或模式，并应用到另一个不同的领域或情境。在内容评判中，评估模型在不同概念、情境之间建立联系的能力，以及这些联系的适当性和创造性。u语境转换：语境转换是指根据不同的交流环境或对象调整信息表达方式。在内容评判中，评估信息是否适应特定的受众、文化背景或沟通场合，以及是否能有效地调整语气、风格和内容以满足不同场景下的写作需求。u意图理解：意图理解是指识别和理解用户或作者想要传达的目的和动机。在内容评判中，评估信

9、息是否有效地传达了其预期的消息或意图，以及模型是否能清楚地识别这些意图。u文本生成：文本生成是指创建连贯、相关和有意义的文本内容。在评判内容时，评估文本的清晰度、连贯性、原创性以及语言的正确性和表达能力。u知识储备：知识储备是指个体或系统所掌握的信息、事实、概念和理论的总和。在内容评判中，知识储备体现在信息的准确性、深度和广度，以及模型能否正确并有效地使用相关知识。大模型评测|2023/12中国：人工智能系列400-072-5588Chapter 1大模型行研能力评测背景及方法q 本次大模型行研能力测试覆盖1,800+题目，由20人资深研究分析师团队经过严格的双盲评测流程，围绕研究报告撰写能力

10、，模型基础能力以及行业综合理解能力进行综合评测q 评测方法通过双盲机制最大程度保证公允性，每名测试人员会随机分配N个模型进行答案搜集，彼此在答案搜集期间互相禁止分享信息，以保持在答案评测阶段的公允性；在评测阶段，每个问题相对应的12个模型答案顺序会随机打乱，保证评测人员对答案不存在任何偏见q 本次大模型行研能力评测分为三个核心模块，分别为报告撰写能力、模型基础能力以及行业理解能力。报告撰写为本次评测的核心能力，基础能力以及行业理解能力为衍生能力，顾赋予40%/30%/30%的评分权重q 本次大模型行业研究能力评测截止于11月30日，所选模型基于目前开放可用的范围。本次评测未涵盖企业尚未开放的大

11、模型，评测结果仅反映当前公开可用模型的数据大模型评测|2023/12中国：人工智能系列400-072-5588中国：人工智能系列大模型评测|2023/12行业研究通过分析特定行业的定义、竞争格局、市场规模等关键方面，产行业研究通过分析特定行业的定义、竞争格局、市场规模等关键方面，产出深刻洞察和观点。方法论涵盖从宏观的产业层到微观的产品层的分析，出深刻洞察和观点。方法论涵盖从宏观的产业层到微观的产品层的分析，对企业战略、政策制定和金融决策等产生显著影响对企业战略、政策制定和金融决策等产生显著影响中国大模型行研能力评测行研背景概述行研背景概述n行业研究涵盖从宏观的产业层到微观的产品层，各层级决定着

12、相应的研究方法，研究方法论囊括外部宏观因素和内部微观细节的全面分析在行业研究中，产业层、行业层和产品层各自代表宏观经济的不同层次：产业层包含具相似特征的行业群体，行业层着重于特定行业的市场和企业情况，而产品层深入到具体产品或服务的设计、功能和市场定位。研究方法论根据这些层级的宏观到微观差异而有所不同，外部维度考虑政策、经济、环境等因素，而内部维度则包括发展历史、产业链分析等更细致的方面。来源：沙利文、头豹研究院行研范围外部维度内部维度政策经济环境法律发展历程产业链分析发展特征市场规模竞争格局产业层行业层产品层千行百业研究路径价值体现企业规划政务服务金融决策教育培训新闻传媒政策分析竞争格局发

13、展历程行业特征泛娱乐房地产农林牧渔互联网金融医疗采矿教育旅游制造市场规模行业分类产业链分析行业定义零售行研价值链重要程度高重要程度低n行业研究通过详尽方法论输出价值观点，对企业策略、金融决策等领域的价值显著行业研究是深入探讨分析特定行业的发展现状和市场动态的全面过程，包含行业定义、分类、竞争格局、市场容量等关键维度。分析师通过分析，生成具有深度的洞察和价值观点，对企业战略规划、政策制定、金融投资决策和教育培训等多个领域产生重要影响。400-072-5588中国：人工智能系列大模型评测|2023/12从基础数据收集到深度分析输出，传统行业研究的流程面临着工具革新滞从基础数据收集到深度分析输出，传

14、统行业研究的流程面临着工具革新滞后、团队知识难以传承、信息溯源复杂性以及研报质量控制的重大挑战，后、团队知识难以传承、信息溯源复杂性以及研报质量控制的重大挑战，共同影响行业研究的产出效率和创新能力，限制了其发展潜力共同影响行业研究的产出效率和创新能力，限制了其发展潜力中国大模型行研能力评测传统行研发展痛点传统行研发展痛点n传统行业研究在工具更新、知识复用、信息溯源和质量控制方面面临显著挑战，影响其效率和准确性传统行业研究的产出流程包括三个步骤：首先是基础调研，聚焦于一手和二手行业数据的收集；其次是数据加工，涉及整理逻辑、验证数据真实性，并对关键信息进行可视化处理；最后是产出结果，确保全文逻辑一

15、致、可视化清晰并且观点合理。在实际操作中，行业研究面临多个挑战：1）工具更新停滞，自互联网兴起以来，行研主要依赖网络检索和办公软件，近20年未见显著革新；2）团队知识难以复用，由于高人员流动性和新成员培养周期长，分析师的经验和知识传承困难；3）信息溯源和合规性考量复杂，在应对海量信息和时间成本压力下，信息来源和合规性难以全面保障；4）质量控制难度高，质控人员缺乏专业撰写技能，同时专业分析师缺乏时间进行广泛质控，导致质量监控极为困难。这些核心挑战共同影响着行研的产出效率和创新，阻碍行研进一步发展。来源：沙利文、头豹研究院二手数据统计局数据、文献、网页、垂直媒体、招股书、第三方研报、专业数据库一手

16、数据行业专家访谈、消费者调研（问卷，圆桌）、自行监测数据研究成果研究报告、演讲稿、招股书行业章节、视频.撰写行业定义、特征、分类、历史、政策、分析制图产业链、竞争格局建模行业规模与预测模型传统工具Excel行研发展痛点生产工具停滞PPT和Word仍是生产核心工具，20年来没有更新新的行研生产工具溯源难考证面对海量信息和时间成本，信息来源难以考证，信息合规无法全面保障团队知识难以复用行业人员流动性较大，新人成长周期较长，分析师掌握的经验和知识复用性差质量把控难度高质控人员缺乏专业撰写技能，而专业分析师则通常无暇进行广泛质控1234调研分析产出400-072-5588中国：人工智能系列大模型评测|

17、2023/12数字行研解决方案，结合标准化工具和先进的大模型技术，有效克服了传数字行研解决方案，结合标准化工具和先进的大模型技术，有效克服了传统行业研究的核心制约因素，显著提升研究的精度和效率，并引领行业研统行业研究的核心制约因素，显著提升研究的精度和效率，并引领行业研究进入一个效率更高和质量更优的新产出范式究进入一个效率更高和质量更优的新产出范式中国大模型行研能力评测数字行研革新数字行研革新（以头豹脑力擎为例）n数字化行研解决方案通过标准化工具和大模型技术，解决了行业研究的核心难题，提高了研究质量和效率，为行业分析带来了高效、精准的新范式数字化行研解决方案为行业研究带来范式革新。该系统通过引

18、入一系列标准化工具，如精准的信息溯源系统和写作规范，极大降低了行业研究的门槛，提升了撰写效率，并简化了质量控制流程。此外，数字行研基于大模型的强大底层支持，为分析师提供AI辅助工具，包括专家访谈、智能检索、查重、校对和改写功能，有效减少信息检索的难度，提升文本的准确性和撰写效率，同时加速分析师的专业成长。数字行研解决方案不仅解决了传统行业研究中的关键痛点，如信息溯源困难、严峻的质控挑战、知识低复用率和工具更新滞后，还借助大模型技术推动行业研究质量和分析师成长速度，引领行业研究向更高效、精准的新范式转变。来源：沙利文、头豹研究院AIGC文本创作辅助分析师智能研报生成高效智能AI生成AI改写AI续

19、写AI检索AI审核头豹写作系统“脑力擎”协同创作词条体系化培训工具可信协同开源数字身份Web3.0AI赋能标准赋能头豹研报产出提质增效接入智能技术工具提效创作沉淀，数据资产化协同创作词条开源信息调研综合分析结果呈现数字行研全面赋能400-072-5588中国：人工智能系列大模型评测|2023/12大模型在数字行业研究中扮演核心角色，其功能特性极大提升了研究的效大模型在数字行业研究中扮演核心角色，其功能特性极大提升了研究的效率和质量。本研究聚焦于挖掘中国大模型在行业研究中的实际应用和优势，率和质量。本研究聚焦于挖掘中国大模型在行业研究中的实际应用和优势，了解大模型当前的能力边界，以推动行研领域的

20、创新与变革了解大模型当前的能力边界，以推动行研领域的创新与变革中国大模型行研能力评测大模型赋能行研大模型赋能行研n大模型在数字行业研究中扮演核心角色，其功能特性极大提升了研究的效率和质量。本研究主要聚焦于中国大模型在行业研究中的实际应用和优势，知晓大模型的能力边界，旨在推动行研领域的创新与变革作为数字行研的关键支撑，大模型通过其创作、生成、改写和检索等核心功能，全方位推动行业研究向前发展。首先，大模型扮演第三方AI专家角色，协助分析师在研究初期进行框架搭建和内容创作，有效减轻案头工作负担。其次，通过与分析师的有效互动，大模型助力生成结构化内容和洞察，显著提高基础内容的产出效率。进一步，它通过减

21、少文本错误和重复内容，优化校对流程，提升产出质量。最后，大模型能够快速处理海量数据，提供实时信息检索，增强分析师在有限时间内获取全面信息的能力。鉴于此，深入了解中国大模型行业的发展态势和技术创新对引领数字行业研究新范式至关重要。本研究的目标是全面评价中国领先的大模型技术，深入分析其在行业研究领域的实际应用和优势，全面审视大模型对行业研究发展的影响，以促进数字行业研究的创新和变革。来源：沙利文、头豹研究院行研赋能大模型通过使用大模型的文字生成功能，结合恰当的提问问题，让大模型帮助产出结构化内容，提高研报的产出效率50%AI内容生成利用大模型的改写、续写和查重功能，可以显著减少错别字、病句和重复内

22、容，从而提升文本质量和可读性，同时减少分析师在文本检查上的时间投入，降低超过70%AI文字校对通过利用AI大模型进行行业专家访谈，分析师可以迅速掌握行业的核心信息和精确的定义、分类，从而将初期行业研究阶段的时间缩短30%AI专家访谈运用大模型的互联网检索访问功能，结合精准的提问策略，帮助分析师定位关键信息，从而提升资料搜索效率超60%AI资料检索400-072-5588中国：人工智能系列大模型评测|2023/12基于数字行研解决方案的研究和实践基础，沙利文联合头豹研究院依托百基于数字行研解决方案的研究和实践基础，沙利文联合头豹研究院依托百人分析师团队对人分析师团队对1212个大模型进行行研辅助

23、能力的综合评估，旨在全面了个大模型进行行研辅助能力的综合评估，旨在全面了解并系统梳理中国大模型参与者在行研领域的应用表现解并系统梳理中国大模型参与者在行研领域的应用表现中国大模型行研能力评测评测大模型参与者大模型行研能力评测参与者本次对大模型的行业研究能力进行评测的时间定于11月15日至11月30日，评选的模型基于目前市场上开放且可用的版本。评测结果将仅反映在评测时段内公开可获取的模型数据。在此次评测中，GPT模型选用的公测版本为3.5版本，文心一言模型也采用其3.5公测版本进行评估。n自ChatGPT推出后，中国在预训练大模型领域实现了显著进步，涉及顶尖学术机构和科技企业，沙利文联合头豹研究

24、院对12个大模型进行综合评估，以全面了解中国大模型在行研领域的发展与应用当前，基于自然语言处理技术的预训练大模型已在全球范围内掀起了有史以来最大的人工智能浪潮。自ChatGPT推出以来，仅中国地区就出现了超过80个不同的预训练语言大模型，参与者覆盖中国顶尖的学术研究机构以及互联网科技企业，旨在此番浪潮中拔得先机。过去一年中，中国学术与产业界也取得了实质性的突破，来自商汤的商量、百度的文心一言等前沿大模型不断升级，带动中国大模型产业的发展。基于数字行研解决方案的研究和实践基础，沙利文联合头豹研究院凭借百人分析师团队匿名投票机制，筛选了12个大模型，进行了多维度的综合评估，旨在全面了解并系统梳理中

25、国大模型参与者在行研领域的应用表现。商量3.5大模型参选者榜单来源：沙利文、头豹研究院400-072-5588中国：人工智能系列大模型评测|2023/12本次大模型行研能力测试覆盖本次大模型行研能力测试覆盖1,800+题目，由题目，由20人资深研究分析师团队人资深研究分析师团队经过严格的双盲评测流程，围绕研究报告撰写能力，模型基础能力以及行经过严格的双盲评测流程，围绕研究报告撰写能力，模型基础能力以及行业综合理解能力进行综合评测业综合理解能力进行综合评测中国大模型行研能力评测评测方法与指标大模型行研能力评测方法A.报告撰写能力问题B.行研基础能力问题C.行业理解能力问题行业定义行业分类行业特征

26、发展历程产业链分析市场规模政策分析竞争格局逻辑推理类比迁移文本生成意图理解知识储备语境转换金融业医疗业制造业互联网科技业零售业教育业运输业.n本次测试覆盖三大板块，1,800+道题目，由20人资深研究分析师团队经过严格的双盲评测流程得出，最大程度保证公允性本次大模型能力测试围绕三大核心板块展开评测：分别是研究报告撰写能力，模型基础能力以及行业综合理解能力。通过模型在三大核心板块的表现力最终得出评测结果。其中，报告撰写覆盖8篇不同主体报告撰写，涵盖128道问题，分析师长期跟踪报告问题累积超1,500道题；模型能力覆盖6大文本产出核心能力，涵盖54道问题；行业理解覆盖14大核心行业，每个行业涉及1

27、2个问题，总计1,168题。三大维度合计1,800道题目。分析师团队由头豹研究院各团队资深分析师组成，且均具备超过8个月的大模型使用经历。评测方法通过双盲机制最大程度保证公允性，每名测试人员会随机分配N个模型进行答案搜集，彼此在答案搜集期间互相禁止分享信息，以保持在答案评测阶段的公允性；在评测阶段，每个问题相对应的12个模型答案顺序会随机打乱，保证评测人员对答案不存在任何偏见。12个大模型来源：沙利文、头豹研究院400-072-5588中国：人工智能系列大模型评测|2023/12沙利文及头豹行企研究的沙利文及头豹行企研究的8-D方法论，是一种全面系统的研究方法，包含方法论，是一种全面系统的研究

28、方法，包含了八大关键模块，用于对行业进行深入分析。在这一框架下，百名分析师了八大关键模块，用于对行业进行深入分析。在这一框架下，百名分析师研磨提炼一套高效的研磨提炼一套高效的8D模块提问方法，以对模型能力进行评测模块提问方法，以对模型能力进行评测中国大模型行研能力评测报告撰写能力大模型报告撰写能力n百名分析师经过八个月实践研磨提炼8D模块的提示问题，以测试12大模型的报告撰写能力沙利文联合头豹企业研究所采纳的8-D方法论包括八个核心模块，构成了一套全面而系统的研究方法，专用于行业的深入分析。结合详实的数据和精准的分析，此方法能够提炼出深刻的观点和结论，显著提升行业研究内容的清晰度和数据的丰富性

29、。在该方法论的指导下，百名分析师历经八个月的密集工作及多次优化，精制而成一套高效的8D模块化大模型提示问题法。这套精练的提问技巧已转化为评估工具，旨在通过对十二个主要模型的针对性提问，检验并评估模型报告撰写的效能。行业特征行业定义政策分析产业链分析竞争格局市场规模发展历程行业分类行业研究报告撰写逻辑权重占比10.0%10.0%17.5%10.0%17.5%15.0%5.0%15%对特定行业的基本性质概述，涵盖主要活动、服务或产品区分一个特定行业与其他行业的独特属性和条件，囊括多个维度从原材料采购到最终产品销售的整个流程进行完整分析审视对影响特定行业的政府政策、法规和指导原则的评估根据某些共同特

30、征将不同的行业进行分组的过程，理解行业结构描述行业从诞生到当前状态所经历的各个阶段和重要转折点在给定时间内的总销售额或总市场价值，反映经济影响力和潜力描述行业内各企业间的竞争状态，包括市场份额分布和竞争动态变化概述类模块分析类模块行业定义行业分类发展历程行业特征产业链分析政策分析市场规模竞争格局概念引入44明确主体理清边界观点输出归纳总结趋势研判八大维度分析法八大维度分析法+来源：沙利文、头豹研究院400-072-5588中国：人工智能系列大模型评测|2023/12从从AI辅助文本创作角度出发，结合文字生成基础核心能力，归总出对于行辅助文本创作角度出发，结合文字生成基础核心能力，归总出对于行业

31、研究报告撰写角度最核心的六大能力维度，包括逻辑推理、文本生成、业研究报告撰写角度最核心的六大能力维度，包括逻辑推理、文本生成、类比迁移、语境转换、意图理解以及知识储备类比迁移、语境转换、意图理解以及知识储备中国大模型行研能力评测行研基础能力大模型行研基础能力n从AI辅助文本创作角度出发，结合大模型基础核心能力，归总出对于行业研究报告撰写角度最重要的六大能力维度逻辑推理：逻辑推理是指从已知信息出发，通过推论规则得出结论的过程。在内容评判中，关注信息组织、连接和推导的方式，以及结论是否合理、一致，且基于事实。类比迁移：类比迁移是指从一个领域或情境中提取概念、原则或模式，并应用到另一个不同的领域或情

32、境。在内容评判中，评估模型在不同概念、情境之间建立联系的能力，以及这些联系的适当性和创造性。文本生成：文本生成是指创建连贯、相关和有意义的文本内容。在评判内容时，评估文本的清晰度、连贯性、原创性以及语言的正确性和表达能力。意图理解：意图理解是指识别和理解用户或作者想要传达的目的和动机。在内容评判中，评估信息是否有效地传达了其预期的消息或意图，以及模型是否能清楚地识别这些意图。知识储备：知识储备是指个体或系统所掌握的信息、事实、概念和理论的总和。在内容评判中，知识储备体现在信息的准确性、深度和广度，以及模型能否正确并有效地使用相关知识。语境转换：语境转换是指根据不同的交流环境或对象调整信息表达方

33、式。在内容评判中，评估信息是否适应特定的受众、文化背景或沟通场合，以及是否能有效地调整语气、风格和内容以满足不同场景下的写作需求。文本生成内容生成连贯、清晰、正确且具备时效性语境转换在不同交流环境调整信息的表达方式知识储备模型在特定领域掌握的信息集合逻辑推理基于已知信息通过推理得出结论类比迁移从A领域到B领域转移概念或原则意图理解明晰提问者目的和深层意图模型基础能力来源：沙利文、头豹研究院400-072-5588中国：人工智能系列大模型评测|2023/12头豹研究院成立至今汇集超头豹研究院成立至今汇集超5,000+行企报告，覆盖超行企报告，覆盖超14个大类行业以及个大类行业以及上千个细分小类行

34、业。本次评测汇集百余名各资深行业分析师，上千个细分小类行业。本次评测汇集百余名各资深行业分析师，结合自身结合自身领域认知领域认知，对模型在，对模型在14大行业的理解和产出能力进行评估大行业的理解和产出能力进行评估中国大模型行研能力评测行业理解能力大模型行业理解能力n头豹研究院成立至今汇集超5,000+行企报告，覆盖超14个大类行业以及上千个细分小类行业。本次评测汇集头豹研究院百余名各资深行业分析师，结合自身特定领域认知与经验，对模型在14大行业的理解和产出能力进行评估沙利文联合头豹研究院成立至今，平台共积累超12万+注册用户，5,000+行业企业研究报告积累，覆盖14个大类行业，以及上千个细分

35、小类行业。沙利文联合头豹的精英分析师团队以及各项研究成果广泛受到金融、制造、互联网科技等各个行业领域的用户认可。当前，头豹已发展成为中国最大的行企研究平台之一，拥有行业覆盖程度广、报告库数量多、报告撰写效率高、行业知识精准度高四大优势。在本次大模型评测中，头豹研究院联合其上海、南京和深圳分院，汇聚了跨越多个行业领域的百余名分析师，利用自身对竞争格局、发展趋势、制约因素、以及行业壁垒等关键知识领域的深厚理解，并结合丰富的行业报告撰写经验，向模型提出了针对14个主要行业的细致问题。通过对模型在各特定行业细分领域的纵向评估和全行业范围的横向比较，最终确定了12大模型在行业理解和内容产出方面的深度与能

36、力。金融业医疗业制造业能源业运输业互联网科技零售业教育业咨询服务业泛娱乐业房地产业农林牧渔采矿业旅游业14大行业证券/保险/基金云计算/大数据/人工智能住宅开发/商业地产/物业管理医院服务/医疗器械/生物技术超市/专卖店/电子商务农作物种植/畜牧业/水产养殖/林业汽车制造/消费品制造/工业设备K-12教育/高等教育/职业培训煤炭开采/金属矿开采石油与天然气/可再生能源管理咨询/人力资源咨询/IT咨询酒店/景点/旅行社等货运物流/客运交通/航空运输/铁路运输等电影/电视/音乐/电子竞技等来源：沙利文、头豹研究院400-072-5588q 商汤科技商汤商量q 百度文心一言3.5q OpenAIGP

37、T3.5q 阿里云通义千问q 昆仑万维天工q 百川智能百川q 科大讯飞讯飞星火q 腾讯云腾讯混元q 智谱AI智谱清言q 武汉人工智能研究院紫东太初q 名之梦MiniMaxq 中科闻歌雅意Chapter 2大模型行研能力评测结果大模型评测|2023/12中国：人工智能系列400-072-5588中国：人工智能系列大模型评测|2023/12资深分析师团队根据三大维度，总计资深分析师团队根据三大维度，总计1,800+1,800+道题目，对十二大市场主流大道题目，对十二大市场主流大模型进行评估测试。评测结果显示，商汤商量、文心一言模型进行评估测试。评测结果显示，商汤商量、文心一言3.53.5、GPT3

38、.5GPT3.5、讯飞星火以及腾讯混元处在第一梯队，综合实力强劲讯飞星火以及腾讯混元处在第一梯队，综合实力强劲中国大模型行研能力评测分析评测结果中国大模型行研能力综合评测结果排名模型名称企业机构八大模块得分排名模型能力得分排名行业能力得分排名总得分GPT3.5OpenAI7.58 57.92 27.01 17.291商汤商量商汤商量8.27 18.17 16.55 47.732 文心一言3.5百度8.08 37.83 36.78 27.483讯飞星火科大讯飞8.10 27.33 46.27 107.254腾讯混元腾讯7.58 66.75 56.50 57.065智谱清言智谱AI7.44 76

39、.58 76.72 36.926天工昆仑万维7.58 46.58 76.32 96.907百川百川7.38 86.42 96.35 76.818通义千问阿里云7.34 96.33 106.33 86.769Minimax名之梦7.26 116.67 66.09 116.7410紫东太初武汉人工智能研究院7.33 106.08 116.41 66.6811雅意中科闻歌7.23 126.08 115.99 126.54商汤商量文心一言讯飞星火混元智谱天工百川通义千问 Minimax 紫东太初中科闻歌报告撰写能力行研基础能力行业理解能力第一梯队第二梯队第三梯队来源：沙利文、头豹研究院国产大模型

40、行研能力综合评测结果备注：评测的时间于11月15日至11月30日，评选的模型基于目前市场上开放且可用的版本。在此次评测中，GPT和文心一言均选用3.5公测版本进行评测。400-072-5588中国：人工智能系列大模型评测|2023/12模型在报告撰写能力板块的表现中，商汤商量、讯飞模型在报告撰写能力板块的表现中，商汤商量、讯飞星火以及文心一言星火以及文心一言3.53.5占据前三甲。其余模型的表现各有千秋，例如紫东在行业特征的归纳占据前三甲。其余模型的表现各有千秋，例如紫东在行业特征的归纳总结能力较强，总结能力较强，MinimaxMinimax则在发展历程和产业链分析细分维度表现优秀则在发展历程

41、和产业链分析细分维度表现优秀中国大模型行研能力评测分析报告撰写能力大模型报告撰写能力评测结果排名模型名称总得分定义分类行业特征发展历程产业链市场规模政策分析竞争格局1商汤商量8.272讯飞星火8.103文心一言3.58.084天工7.585GPT3.57.586腾讯混元7.587智谱清言7.448百川7.389通义千问7.3410紫东太初7.3311Minimax7.2612雅意7.23得分高得分低报告撰写能力由模型在定义、分类、行业特征、发展历程、产业链、市场规模、政策分析以及竞争格局8D模块的表现综合评定而成n模型在报告撰写评测的表现中，商量、讯飞星火、以及文心一言3.5是表现TOP3的模

42、型，其中商汤商量在8D模块均表现强劲，讯飞星火在高难度撰写板块展现一定实力根据大模型报告撰写能力综合热力矩阵图可以看出商汤商量是综合能力最强的模型，且在各个板块的表现稳定处在前列位置。讯飞星火虽在发展历程失分较为严重，但在市场规模、政策分析以及竞争格局的高难度撰写板块中表现强劲。来源：沙利文、头豹研究院400-072-5588中国：人工智能系列大模型评测|2023/12在报告撰写评测中，不同平台表现存在显著差异。例如，商量凭借其稳定在报告撰写评测中，不同平台表现存在显著差异。例如，商量凭借其稳定性和在关键模块的领先优势显著。而性和在关键模块的领先优势显著。而GPT3.5GPT3.5和百川因信息

43、库更新不足及答和百川因信息库更新不足及答案完整性与准确性问题，在高权重模块中失分较多案完整性与准确性问题，在高权重模块中失分较多中国大模型行研能力评测分析报告撰写能力表现大模型报告撰写能力评测结果4.55.56.57.5产业链定义发展历程分类竞争格局市场规模特征政策分析商汤商量讯飞星火文心一言天工GPT3.5(参考模型）腾讯混元智谱百川通义千问紫东太初Minimax中科闻歌n在报告撰写评测中，各平台表现各异，其中商量整体表现稳定且领先，而GPT3.5和百川因信息更新和答案完整性问题而在某些关键模块中失分较多在报告撰写能力评测中，商量的整体表现稳定，在8D模块中均超过均分，领先于其他。文心一言3

44、.5和星火表现出波动，例如讯飞在发展历程和竞争格局低于均分，但在分类任务中表现最佳。天工在发展历程、市场规模和定义方面表现优秀，但在产业链方面略显不足。GPT3.5在竞争格局和市场规模中失分较多，主要因为其信息库较旧，无法提供有效价值信息，影响了其在报告撰写的综合表现。智谱清言和通义千问的综合表现稳定，在8D各模块中与均分相近，其中智谱清言在政策分析方面表现优异，通义千问在特征环节表现突出。百川的表现波动较大，尤其是在政策模块由于无法给出答案，导致失分严重，影响了整体均分。紫东太初和雅意的表现相似，除在特征和政策分析模块外，其他分值走势几乎一致。Minimax在8D模块中五项略高于均分，但在产

45、业链和竞争格局这两个高权重模块中失分严重。来源：沙利文、头豹研究院400-072-5588中国：人工智能系列大模型评测|2023/12产业链分析是产业链分析是8D8D模块中最具挑战性和权重最高的部分，考验大模型在行模块中最具挑战性和权重最高的部分，考验大模型在行业定义、信息检索和价值挖掘方面的能力，其中商汤商量、文心一言业定义、信息检索和价值挖掘方面的能力，其中商汤商量、文心一言3.53.5和讯飞星火凭借出色的知识储备和逻辑推理表现优异和讯飞星火凭借出色的知识储备和逻辑推理表现优异中国大模型行研能力评测分析高阶难度模块表现大模型产业链分析能力评测结果n产业链分析作为8D模块中最具挑战性且权重最

46、高的部分，考验着大模型在定义行业、信息检索和价值挖掘方面的综合能力，其中商汤商量、文心一言3.5和讯飞星火因其优秀的知识储备和逻辑推理能力在这一模块中表现突出产业链分析是高阶难度撰写模块之一，权重在评测分数中占到了17.5%，是8D模块中评测得分权重最大的模块。其复杂性源于需要大模型在三个关键维度进行深入的信息处理：首先是对特定行业产业链的上中下游及其参与者的精确界定；其次是在确认主体后，筛选出与各环节相关的关键信息；最后是对收集到的信息进行深度加工，探索产业链的价值流向和影响力，以提炼出对该行业宏观层面的关键见解。这一系列步骤要求模型具备高度的信息检索和逻辑归纳能力，且随着过程的深入，难度逐

47、渐增大。大模型在产业链分析表现均分为5.8分，是8D模块的第二低分，侧面反映了其内容产出的难度。其中，商汤商量、文心一言3.5、百川、雅意、讯飞星火以及GPT3.5是表现优异的模型，综合表现高于均分。商汤商量、文心一言3.5以及讯飞星火得益于其优秀的知识储备能力以及逻辑推理归纳能力，在这一模块表现优秀。来源：沙利文、头豹研究院产业链分析产业链均值：400-072-5588中国：人工智能系列大模型评测|2023/12市场规模分析作为市场规模分析作为8D8D模块中难度较高和权重第二的模块，要求精确界定模块中难度较高和权重第二的模块，要求精确界定市场规模的测算标准和预测市场变化。在此模块中，讯飞星火

48、和天工因其市场规模的测算标准和预测市场变化。在此模块中，讯飞星火和天工因其在市场规模测算及未来变化推演方面的表现而尤其突出在市场规模测算及未来变化推演方面的表现而尤其突出中国大模型行研能力评测分析高阶难度模块表现大模型市场规模能力评测结果来源：沙利文、头豹研究院市场规模市场规模均值：6.32n市场规模分析作为8D模块中难度较高且权重第二的模块，主要挑战在于确定行业市场规模的测算标准和界限，以及分析和预测市场规模的过去和未来变化。其中，讯飞星火和天工在市场规模测算和未来变化推演方面表现突出市场规模是高阶难度撰写模块之一，权重在评测分数中占到了15%，是8D模块中评测得分权重第二高的模块之一。市场

49、规模测算是在给定时间内的总销售额或总市场价值，其价值意义是反映经济影响力和潜力。这一模块的挑战主要包括两个方面：首先是定义特定行业的市场规模测算标准，比如选择营收端还是成本端，并明确市场规模的界限，以确保测算结果的实际意义；其次是对过去五年及未来五年市场规模的变化进行原因分析和预测，这既考验大模型的信息整合能力，也考验其未来趋势的预判能力。正因为这些要求，市场规模分析被认为是高难度撰写模块之一。大模型在市场规模分析表现均分为6.32分，是8D模块的第五低分。在市场规模模块，商汤商量、文心一言3.5、Minimax、智谱清言、讯飞星火以及GPT3.5是表现优异的模型，综合表现高于均分。讯飞星火和

50、天工在市场规模测算口径制定以及未来变化推演能力强，因此表现优异。400-072-5588中国：人工智能系列大模型评测|2023/12竞争格局分析是竞争格局分析是8D8D模块中最具挑战性的部分之一，主要考验模型在精准模块中最具挑战性的部分之一，主要考验模型在精准筛选行业关键参与者和推演市场竞争态势的能力。在该模块中，商汤商量筛选行业关键参与者和推演市场竞争态势的能力。在该模块中，商汤商量和讯飞星火因其在企业筛选和未来变化推演上的强大能力而表现杰出和讯飞星火因其在企业筛选和未来变化推演上的强大能力而表现杰出中国大模型行研能力评测分析高阶难度模块表现大模型竞争格局能力评测结果n竞争格局分析作为8D模

展开阅读全文