收藏 分销(赏)

人工智能行业:「弈衡」通用大模型评测体系白皮书.pdf

上传人:Stan****Shan 文档编号:1290017 上传时间:2024-04-22 格式:PDF 页数:23 大小:3.68MB
下载 相关 举报
人工智能行业:「弈衡」通用大模型评测体系白皮书.pdf_第1页
第1页 / 共23页
人工智能行业:「弈衡」通用大模型评测体系白皮书.pdf_第2页
第2页 / 共23页
人工智能行业:「弈衡」通用大模型评测体系白皮书.pdf_第3页
第3页 / 共23页
人工智能行业:「弈衡」通用大模型评测体系白皮书.pdf_第4页
第4页 / 共23页
人工智能行业:「弈衡」通用大模型评测体系白皮书.pdf_第5页
第5页 / 共23页
点击查看更多>>
资源描述

1、1.1.1 大模型发展现状.21.2 评测需求.31.3 评测问题与挑战.4.2.1 主要评测方式.52.2 典型评测维度.52.3 常见评测指标.6.4.1 整体框架.84.2 评测场景.94.3 评测要素.114.4 评测维度.16.pOwOyRpPtRsQsMpMsPpOmQ9PcM7NtRnNmOtQkPnNvNeRrQsM9PqRrRuOoPmOxNpPvN1人工智能大模型(以下简称大模型)是实现生成式人工智能服务(AIGC)的重要技术,ChatGPT上线两个月活跃用户(MAU)突破 1 亿,激发了大模型技术的爆发式发展,全球科技公司开启大模型“科技竞赛”。国外科技巨头微软、谷歌、M

2、ETA等,加快大模型研发,并迅速应用到搜索、办公、音乐、视频等领域。我国头部企业积极开展自主可控的大模型研发,百度、腾讯、华为、阿里、中科院自动化所、智谱AI、科大讯飞等公司的大模型也相继推向市场。各家公司也加快大模型的迭代升级速度,OpenAI、谷歌、百度已经在短短几个月内多次升级大模型版本,能力提升明显,大模型行业竞争激烈。与此同时,随着大模型评测需求逐渐增加,相关研究也进一步深入。大模型相比传统模型,泛化能力更强、灵活性更高、适应性更广,多任务、多场景,评测维度、评测指标和数据集更复杂,面向大模型的评估方法、评测基准、测试集成为新的研究课题。业界头部公司、主流科研机构和重点高校等权威组织

3、,如OpenAI、微软、斯坦福大学、信通院,在评测框架、评测指标、数据构建方法等方面发表了一些论文和研究报告,从准确性、鲁棒性、毒害性、公平性等评测维度对相关大模型进行了评测,为用户和行业充分掌握大模型能力发挥了积极作用。目前业界多家机构发布了大模型的评测榜单,但是评测维度及侧重点各有不同。从推动AI大模型成熟应用、促进生态繁荣、指引产业优化方向的角度,有必要从用户视角,构建一套客观全面、公平公正的大模型评测体系。中国移动技术能力评测中心作为中国移动的专业评测机构,也在关注和跟进大模型评测技术发展。自 2019 年起陆续开展了专业公司 31+N考核对标评测、技术中台能力准入等工作,涵盖人工智能

4、、互联网、物联网、大数据、大视频等 20 余个领域 1000 余项产品和能力,积累了丰富的产品技术能力评测经验和数据。基于前期积累,对业界各类大模型评测技术进行了充分调研和评测验证,构建了“弈衡”通用大模型“2-4-6”评测体系,并基于该体系对已发布的大模型进行了广泛的评测。随着大模型技术的不断发展,“弈衡”通用大模型评测体系也将持续迭代完善,希望通过发布“弈衡”通用大模型评测体系白皮书,与产业界相关企业和研究机构一道,加强交流合作,逐步完善测试指标、测试方法、测试数据、测试自动工具,共同建立评测产业标准化生态,为业界大模型评测提供参考依据,促进大模型技术的产业成熟和应用落地。21.1 大模型

5、发展现状随着大模型技术的快速发展,其巨大的参数量、计算量以及模型复杂度,在解决复杂任务方面具有很大的优势,主要体现在强大的理解和生成能力、高度的泛化能力、优秀的可迁移学习特性及端到端训练优势。大模型技术受到各类行业的广泛关注,通过将大模型与实际业务相结合,可为用户提供更加个性化、更符合用户需求的服务。大模型在多个领域的应用示例如下:行业领域应用通用能力搜索领域用于实现更智能、更准确的信息检索和推荐。语音识别与合成领域识别并合成语音,实现更智能、更自然的语音助手。垂直行业内容创作与审核领域用于自动撰写文章、新闻、绘画、音乐等任务。教育科技领域为教育领域提供智能化支持。金融科技领域帮助金融机构提高

6、决策效率和质量。医疗健康领域协助医生和研究人员提高工作效率,提高医疗水平。智能制造领域助力工厂实现智能化生产、降本增效。软件开发领域提高开发人员的工作效率,降低人力成本。法律领域用于文书的撰写、法律咨询等任务,降低法律服务成本。人力资源领域帮助企业优化人力资源管理。媒体与娱乐领域为创作者提供创意灵感,提高创作效率。语言学习领域辅助语言教师授课,帮助学习者提高语言能力。旅游领域提供个性化的旅行建议和服务。公共服务领域提高政府服务效率,优化公共资源配置。客服领域应用于智能客服助手等任务,提高客服效率,降低成本。市场分析领域帮助企业洞察市场动态,优化产品、提供更加安全的服务。随着大模型的发展,模型能

7、力还将不断扩展,通过文本、图像和语音等多种形式。与更多新兴的应用场景相结合,赋能千行百业。31.2 评测需求由于大模型高度复杂的结构,如何对其进行全面、客观的评测成为了一个亟待解决的问题。与传统AI模型单一的应用领域相比,大模型在多任务和多领域方面展现出卓越的性能和泛化能力。因此,针对大模型产品的评估通常需结合多种不同任务,从多个维度展开综合评价。在现阶段的研究与实践中,大模型评测的主要需求包括但不限于以下几类:文本类大模型:此类模型需要能够依据提示创作符合需求的文本内容,并依赖知识和文本逻辑,推理并回答用户问题。在文本生成任务中,主要考察模型生成内容是否满足使用者要求,并具备正确性、流畅性、

8、规范性和逻辑性;在知识应用任务中,则需要模型覆盖尽可能多的领域,并具备一定深度,同时还应具备对知识的理解与运用能力;在推理任务中,还需对模型生成内容是否符合人类思维的判断、推理过程质量、推理过程与答案一致性、数值计算正确性等指标进行评估。图像类大模型:此类模型需要识别并定位图像中的各种物体,对其进行分类,并将不同对象或区域分割开来,在此基础上,通常还要求模型根据给定的描述生成新的图像。在图像分类任务中,核心指标包括分类的准确性、鲁棒性及对新类别的泛化能力;物体检测任务更关注对复杂场景的处理能力和检测的准确率、覆盖率;图像分割任务更能体现模型对细节的处理能力;对于图像生成任务,对于图像质量和创新

9、型的评测需要更综合的评测方法。语音类大模型:此类模型需要能够识别多种人类语音,实现文本和语音的双向转化。在语音识别任务中,需要评估模型是否能够准确、高效地将人类语音转化为文字表达,关注模型括识别准确率、噪声抑制效果、多语种处理能力等;在语音合成任务中更关注合成语音的括语音质量、语音流畅度、音韵准确性等。除上述几类模型中的评测需求之外,针对模型及产品的各项能力,还需探究大模型生成结果的置信度、训练数据与生成结果的一致性、对生成内容的规划能力、噪声和扰动下的稳定性、对于提示词的敏感性等传统NLP、CV及语音任务涉及较少的评测指标,形成更为标准化和通用的解决办法。大模型评测对于推动人工智能技术的发展

10、具有重要的意义。一方面,通过对大模型性能的评测,可以为模型优化和改进提供有力依据,从而提高其应用效果和商业价值。另一方面,大模型评测可以了解大模型在不同行业的性能和适用性,促进人工智能技术在各行业的发展和应用。此外,大模型评测还可以促进不同领域研究者的技术交流和合作,推动人工智能技术的共同发展。41.3 评测问题与挑战技术发展日新月异,大模型评测需要与时俱进。随着人工智能领域的飞速发展,评测难度也在逐渐增加。为了保障评测针对性和有效性,需要不断更新评测标准和方法。首先,大模型复杂性对评测提出挑战。随着人工智能不断发展,大模型复杂性不断增长,评测需求多样性更加显著。大模型涉及到文本生成、问答系统

11、、知识图谱、图像创作、语音生成等多个任务领域。如文章写作任务中,模型的生成质量是重要指标之一,需要考虑到文本是否自然、流畅,是否符合语言规范,是否有语法错误等。而图片创作任务中,图片的视觉效果、清晰度、色彩鲜艳度等是评估模型性能的重要指标。面对以上问题,需要制定一套更为全面的评测体系,以全面评价模型能力。其次,大模型泛化性对评测提出更高要求。大模型在很多任务上已经达到或超过了人类的水平,但在某些特定领域中,它们的性能仍然有待提高。对于低资源任务,评测者需要关注模型在使用少量语料时的表现,需要考虑到语言之间的差异性和复杂性,以便更好地评估模型在不同场景下的泛化能力。对于专业领域任务,需要关注模型

12、对领域特定术语、概念和规则的理解和应用,使用更广泛的数据集和跨领域的评测任务,以确保评测结果具有泛化性和可靠性。再者,大模型安全性也需要重点考虑。数字化时代,攻击者可能会利用特定数据来攻击模型,或者破坏模型的性能。对抗性攻击是一种常见的攻击类型,通过向模型输入有意制造的数据或恶意样本来欺骗模型或破坏模型的性能。对抗性样本可以模拟现实世界中的攻击。如图像分类任务,针对正确分类的样本,可以通过添加一些扰动来生成对抗性样本,导致模型对其错误分类。面对以上问题,需要考虑各种攻击模型,并设计相应任务来评估模型安全性。总之,随着大模型的不断发展和应用,评测工作所面临的挑战逐渐增加。需要重点考虑多样性、普适

13、性、客观性和公正性等评测需求,充分评估大模型的性能和潜力,为大模型技术的进一步发展提供支持。5目前,业界头部公司、主流科研机构和重点高校等权威组织对大模型评测技术开展了深入研究,并通过技术报告、论文、行业标准等多种形式发布相关研究进展。本文主要参考OpenAI、微软、斯坦福大学及清华大学等研究成果1-9,对评测框架、评测指标、数据构建方法进行了分析和总结。2.1 主要评测方式按照评测方式划分,业界常用的大模型评测技术分为客观评测及主观评价两种方式。客观评测是大模型评测中常用的方法之一,适用于对模型性能进行定量评估,具有客观性、可重复性和高效性等优点。客观评测内容通常包括模型的准确度、复杂度、训

14、练时间、模型大小等。这些指标的计算可以直接通过计算机程序进行,因此可以实现自动化评测,大大提高评测的效率和准确性。相比之下,主观评价更依赖于人类专家的经验和判断,对模型的表现进行主观评估和比较,以确定模型优缺点和改进方向。主观评价通常包括生成内容流畅性、逻辑性和规范性等,可以提供更加全面和深入的评估结果,弥补客观评测的局限性,但需要大量的时间和人力资源。2.2 典型评测维度根据谷歌、微软、斯坦福大学、牛津大学、OpenAI等10-16机构的研究,可将大模型评测技术按评测维度划分为四个类别:模型性能、模型泛化能力、模型鲁棒性和模型能效等。模型性能评测衡量模型在特定任务上的准确度指标,如准确率、召

15、回率、F1 值等。模型泛化能力评测旨在了解模型对未训练数据的表现,评估模型适应性和实际应用中的性能,判断模型是否满足实际业务需求。模型鲁棒性评测旨在评估模型面对数据扰动、噪声、对抗攻击等各类情况时的稳定性。6模型能效评测关注模型在训练和推理过程中的计算资源和时间成本,例如内存占用、计算能力要求和能耗等。2.3 常见评测指标现有的大模型性能基准评测指标主要包括准确率、F1 值、EM值、BLEU、ROUGE、METEOR、PPL、PassK、mAP、IoU、FID、WER、EER和碳足迹等。指标描述准确率Accuracy,直观反映模型正确预测样本的比例,易于理解和解释。F1 值F1 Score,综

16、合考察精确率(Precision)和召回率(Recall),兼顾模型在正类样本上的预测准确性和覆盖率EM 值全称 Exact Match,模型生成的答案与参考答案是否完全相同BLEU全称 Bilingual Evaluation Understudy,用于衡量语言模型生成文本与参考文本之间的相似度ROUGE全称 Recall-Oriented Understudy for Gisting Evaluation,主要考察生成文本与参考文本之间的匹配程度和覆盖范围METEOR全称 Metric for Evaluation of Translation with Explicit ORdering

17、,融合了多种度量方式,综合考虑生成文本与参考文本的相似性,以及生成文本中单词的顺序,对生成文本的不连贯性进行惩罚PPL全称 Perplexity,直接反映了模型在处理给定数据集时的不确定性,用于衡量模型对于给定文本的预测能力PassK允许在前 K 个生成的代码片段中找到正确答案,更好地评估模型在生成多种有效代码解决方案方面的能力。mAP全称 Mean Average Precision,反映了图像模型在所有召回率水平下的平均准确率IoU全称 Intersection over Union,衡量预测图像中那个的的物体边界框与实际边界框的重合程度FID全称 Frchet Inception Dis

18、tance,用于评估图像模型生成图像质量和真实图像之间的相似性的指标WER全称 Word Error Rate,广泛用于语音识别任务的指标,反映了识别出的词与实际词语之间的差异EER全称 Equal Error Rate,EER 是声纹识别中常用的一个指标,它是假接受率和假拒绝率相等时的值碳足迹计算模型训练、推理阶段消耗电力的二氧化碳排放量此外,在面对特定任务和大模型推理系统时,还可引入一些针对性较强的评估指标,如功能正确性、任务成功率、推理链长度和多轮对话轮次等。这些特定指标结合起来有助于对模型在特定场景下的表现进行更精细化的评估,从而为不同场景下的任务提供更具参考价值的评测结果。7与传统模

19、型相比,通用大模型在多任务、多领域上表现出强大的泛化能力和适应能力,能够为各种应用场景提供智能化的服务和解决方案。为了保证通用大模型评测的科学性、有效性和公信力,本文结合通用大模型的技术特点、应用需求、社会影响等因素,提出客观全面、公平公正和用户视角三项评测原则。客观全面客观全面是评测的基本要求,为评估通用大模型的真实能力,在评测体系的设计、实施和分析中需要采用严格的标准和流程,确保评测数据集的质量、评测任务的合理性、评价指标的有效性、评测工具的稳定性等。公平公正公平公正是评测的根本要求,在评测过程中不受利益或情感的驱动和影响,不偏袒或歧视任意参测产品,给予所有参测模型公平的机会和条件。为了保

20、证公平公正性,在评测体系的组织、管理和监督中需要采用开放、透明和协作的方式,确保评测规则的公开、评测结果的公示、评测反馈的公开等。用户视角用户视角是评测的价值要求,从用户的需求、期望和体验出发,分析通用大模型对用户的价值和意义,并结合任务特性,调整评测过程中对于准确性、可靠性、安全性等维度的权重设置。本文构建通用大模型评测体系主要遵循以上三个原则,力求形成一套科学、权威、开放的评测体系,为通用大模型的技术创新和应用落地提供有力的支持和推动,促进人工智能技术与社会需求之间的良性互动和协同发展。84.1 整体框架中国移动技术能力评测中心构建了“弈衡”通用大模型评测体系,采用“2-4-6”层级架构,

21、包含 2 类评测场景、4 项评测要素以及 6 种评测维度,以全面、深入地评估大模型的性能和应用能力。详细评测框架如下图所示:随着人工智能技术的快速发展和大模型技术演进,大模型的评测需求也在不断变化。为了能够全面、客观、公正地评价通用大模型,“弈衡”通用大模型评测体系在任务设置、数据集构建、评价指标设计、评测平台搭建等方面将不断更新、完善,力求构建一个科学、权威、开放的通用大模型评测标准,有效地促进通用大模型的技术创新和应用落地,推动人工智能技术的发展和进步。94.2 评测场景鉴于大型模型展现出的多任务和多场景应用能力,对模型性能进行综合性评估通常需要探究模型在多场景中不同类型任务上的表现。参考

22、现有评测基准的研究与工作,依据模型执行的任务性质、技术难度与复杂度、应用场景以及知识要求,可将评测任务分为模型基础任务和大模型应用任务两大类。基础任务基础任务通常关注于自然语言处理、计算机视觉以及语音的基础技术,主要解决各类基准任务问题。这些任务应用场景相对广泛,往往是为后续应用任务提供基础支持。这类任务关注于解决相对明确且具有一定技术难度的问题,在很大程度上已经取得了较好的研究成果,一般仅涉及计算机科学、数学、语言学、物理学等领域的基础知识。此类任务包括但不限于以下几类:任务描述文本分类洞悉文本内涵并准确地实现情感分析、主题归类等任务的场景。包括情感分析、主题分类等任务。对于特定主题的分类任

23、务,模型需要了解给出的类型以进行准确分类。情感分类对文本信息进行情感倾向性(正面、负面、中性等)的判断或情感分类(愤怒、恐惧、厌恶、悲伤、中性、喜爱),应用场景包括通过分析用户对商品的感情倾向,从而及时调整产品或服务,或针对公众对某一政策的网络舆论进行情感分析,便于调整和完善政策等。语音识别在给定的语音片段中,识别并转录语音内容为文字。这类任务包括对话转录、音频文件转录、实时语音转录等,并涉及对多种口音、方言及多语种混杂情况进行准确的转录。语音合成根据给定的文字或语音内容,生成人类般的语音。这类任务包括文字到语音的合成(TTS)、语音克隆等,需要评测语音的节奏、音色、声调等特征,判断生成的语音

24、是否自然、流畅。图像分类在给定的图像中,模型需要识别并归类图像中的主要对象。主要任务包括动物分类、植物分类、场景分类等。对于特定的分类任务,模型需要理解每个类别的特征以进行准确的分类。目标检测在给定的图像中准确识别识别和定位多个目标对象,并给出其位置和类别。涵盖了人脸检测、车辆检测、行人检测等任务。图像分割将图像中的每个像素分配到特定的类别。这个任务包括语义分割、实例分割等子任务。人脸识别识别图像中的人脸并确定其身份。通常还包括年龄、性别、表情、头部姿态等识别任务。除此之外,由于通用大模型涵盖了众多领域,能够完成多个研究方向上的不同任务,在评测时还应包括情感分析、词义消歧、文本摘要、问答系统、

25、深度估计、光流预测、超分辨率、说话者识别、音频分类等多项任务,他们都是AI领域研究者们积极探索的关键方向。这10些任务和对应的评估指标都能有效地衡量大模型在处理文本、图像和语音方面的性能,他们共同形成了大模型为各种应用提供服务的能力基础。因此,针对这些场景的评估是对大模型性能评估时一个基本的、不可或缺的环节。应用任务大模型应用任务主要关注于从整体上评估模型在特定领域或场景下的表现,这些任务需要模型在多个基础任务,甚至多个学科的基础上,综合运用其能力。与基础任务相比,此类任务通常更加具体化,在技术上涉及更高层次的认知能力以及更广泛的领域知识,能够反映模型内置知识水平及推理能力。此类任务包括但不限

26、于以下几类:任务描述文章创作根据用户的提示和需求,创造具备结构、逻辑与语义连贯性的文章的场景。包括摘要生成、文章生成、对话生成、关键词生成、语言逻辑、语句改写等任务。智能客服过文字或语音与用户进行自动化的、近乎真人的交互,以解答用户问题、提供信息、处理请求等,提供 24 小时不间断的服务,处理大量并发咨询,并有一定的自学习能力,可以通过不断的人机交互来提升服务质量和效率。常识问答根据给定的问题,利用内部或外部知识生成答案的场景。包括闭卷问答、开卷问答、特定领域问答、知识补全等科学类问题。同时,根据用户提问的类型,可将问题分为选择题、是非题和简答题等。智能推荐根据用户的行为、兴趣、需求等信息,为

27、用户推荐他们可能感兴趣的内容的技术。包括商品推荐、内容推荐、广告推送、游戏推荐等。法律咨询帮助法律专业人员进行法律研究,提供针对特定问题的法律信息和建议,包括法律研究、法规查找、法律文件审查和生成等,或通过在线平台为用户提供法律咨询服务,解答关于法律问题的查询,解释法律术语和程序等。代码生成根据自然语言或代码内容,完成指定的代码任务的场景,如代码生成、含义解释、代码修正、语言转换、复杂度分析等。图像生成根据给定的文字描述或草图,模型需要理解描述的内容,准确生成对应的图像。通常包含真实图片生成、AI 绘画、3D 建模、图像修改、图像重建、风格转换、动画生成等多种不同类型的图像及视频生成场景。音乐

28、生成根据给定的音乐片段或风格,生成新的音乐的场景。除旋律生成外,还包括和声、伴奏、歌词生成,以及音乐风格转换和配乐等任务。在其他众多特定类型的应用任务中,还包括了一系列需要模型对输入的指令或内容进行深入理解、推理并创造性地产出内容的场景。这类场景常常与具体的领域或者特定的行业紧密相关,例如多模态内容的生成以及利用模型操控工具等。114.3 评测要素评测四要素包括评测方式、评测指标、评测数据以及评测工具。4.3.1 评测方式在测试样本构造方面,全面考虑零样本(zero-shot)、单样本(one-shot)、少样本(few-shot)以及提示工程(prompt engineering)等评测方式

29、;对于评测结果,根据是否有标准答案,使用客观评测或主观评价进行评定。评测样本构造方式当前研究表明,随着模型参数规模的增长,尽管大模型在零样本任务中表现出了较高的性能,但在单样本或少样本的情境下,模型的准确性明显优于零样本任务。另一方面,通过对提示工程研究,研究人员发现大型模型在不同提示词下也会呈现出显著的性能差异。因此,在评测方式方面,我们考虑了零样本、单样本、少样本以及不同提示词等提问方式,旨在全面覆盖用户在实际使用过程中可能遇到的各种情境,以对模型性能进行全方位的评估。零样本:在零样本测试中,模型在没有接触到与目标任务相关的样本的情况下,需要直接解决任务。这类测试主要依赖于模型在预训练阶段

30、获取的知识,利用已学到的知识和理解推理能力去推断并解决新任务。单样本:在单样本测试中,模型只接触到一个与目标任务相关的样本。模型需要在这个样本的基础上学习任务的规律,并将这些规律应用到未见过的类似问题上。这类测试对模型的泛化能力提出了更高的要求。少样本:在少样本测试中,模型接触到有限数量的与目标任务相关的样本。通常,这些样本数量很小,比如几个到几十个。模型需要在这些有限的样本上迅速学习任务的规律,并在测试时将这些规律应用到新问题上。这类测试旨在评估模型在数据稀缺的情况下的学习能力。提示工程:这类测试关注如何构建有效的问题或指令,以便更好地评测模型生成能力的潜力。在计算机视觉中,提示工程的概念不

31、是非常明确,但可以理解为选择不同的输入内容,以评价模型的输出表现。在语音模型中,提示工程的应用可能会比较隐晦,一些模型可以接受类似于提示的输入,评测不同提示词下模型生成内容的表现。12评测结果判断方式在评测结果的评定上,对于有标准答案的评测指标,比如准确率、召回率、F1 值、EM、BLEU等,使用直接根据统计评价指标或评价模型计算出具体数值的方法客观评测。对于没有固定标准答案的评测指标,比如文本生成的可接受度、机器翻译的可接受度、内容创作的可接受度、毒害性、交互性等,采用主观评价的方法进行评定。主观评价将建立一个由领域专家组成的评审团,基于评分标准对测试结果进行独立评分。4.3.2 评测指标在

32、评估过程中,可以将评估指标划分为客观类和主观类。客观类指标主要用于评估具有标准答案或相对标准答案的题目类型,同时也涵盖了效率相关的指标。这类评测指标主要依赖于明确清晰的标准,因此其结果具有高度的可量化性和可比较性。对于开放型题目,主要采用主观类指标,这类题目没有固定的或“正确”的答案,因此它们的评估需要更加灵活和个性化的方法。虽然主观类指标的应用可能导致结果的可比性降低,但它能更全面和深入地评估答案的有效性和优劣。客观类在针对大模型性能的评测过程中,输出结果可通过数据比较和算法计算的方式,采用如分类准确率和F1 值等客观指标评估,来比较不同模型在性能上的差异。这样可以尽可能地减少人为因素对测试

33、结果的影响,实现评测结果的公平公正。大模型性能评测的准确性指标按照任务性质,通常可分为分类任务指标和生成任务指标。常用的分类任务指标包括准确率(Accuracy),召回率(Recall),精确度(Precision),F1 分数(F1-score)和混淆矩阵(Confusion Matrix)等,主要应用于命名实体识别、图像识别和语音情感分类等任务。这些任务要求模型对输入数据类别进行判断,例如,文本模型判断一段文字所表达的情绪类型;图像模型判断图片中的实体与关系;语音模型识别语音中的情感或说话人身份等信息。生成任务指标则主要应用于文本生成、图像生成和语音合成等任务。这些任务需要模型根据输入内容

34、生成符合要求的新数据,例如,文本模型生成一段逻辑连贯的内容;图像模型生成包含多种元素的图片;语音模型根据文本生成人类语言的语音。常见的生成任务指标包括评价文本的BLEU、ROUGE和METEOR指标,评价图像的Inception Score和FID指标,以及评价合成音频的语音质量和语音自然度。稳定性和效率也是衡量模型能力的重要指标,如无效回答的次数、推理时延和系统功耗等指标。稳定性指标主要关注模型在输入内容包含噪声、对抗样本等情况下的表现。评估稳13定性时,可统计模型在连续回答过程中给出无效回答的次数,以及任务完成率等指标,这些指标体现了模型在面对输入扰动时的鲁棒性。效率指标则关注模型在训练和

35、推理过程中的时延及能耗。时延指标主要计算模型理解输入内容并生成输出回答过程中所需的时间,该指标可有效地评估模型在实时任务中的适用性。能耗指标则用来衡量模型在使用过程中的功耗需求,这一指标在评估模型对硬件资源的需求和能源消耗量方面具有重要意义。主观类对于没有固定标准答案的题目类型,通常采取主观评分的方法进行评估。主观类指标涉及到答案在创新性、可行性、适用性等多个维度的评价,这要求评估者拥有丰富的专业知识和经验。因此,首先需要构建一个由领域专家组成的评审团。这些评审专家需要具备相关领域的深厚知识背景和丰富的实践经验,以便精准地评估模型的回答质量。在评估过程中,专家组需要经过讨论并达成一致的评分标准

36、,对模型的回答进行评分。这些评分标准包括但不仅限于:回答的准确性、完整性、逻辑性和可理解性等关键方面。为了保证评估结果的一致性和可靠性,需要对各个评分等级设定明确的标准和分数范围。接下来,多位专家将对每个问题的回答进行独立评分。最后,需要对各位专家的评分进行汇总和分析,以统计模型在各项指标上的得分。在这个过程中,可以采用各种统计方法和技术,如内部一致性检验和信度分析,以提高评估结果的稳定性和信度。4.3.3 评测数据评测数据集需要覆盖广泛的自然科学和人文科学领域,从而确保模型在各个场景下都具有较高的泛化能力。自然科学领域包括化学、计算机、生物、物理、天文、地理、医学、统计、数学、会计、经济等,

37、这些领域的问题往往涉及科学原理、数据分析和实验方法等方面;而人文科学领域包括宗教、历史、社会、法律、心理、政治等,这些领域的问题则关注人类文明、价值观念、社会制度和行为规范等方面。数据集构造原则评估数据集在构建过程中需遵循丰富性、公平性和准确性三大原则,以确保评估结果具有广泛的适用性和可信度。丰富性:为了全面评估模型在不同场景下的表现,评估数据集应当涵盖多样化的题型、14语言类型和难易程度。公平性:评估数据集应该具备问题和答案的可重复性,以便不同研究者在相同条件下进行评估。准确性:为了保证评测结果的准确可靠,要求在准备评测数据时,应采取一系列严格的数据处理措施,包括数据清洗和筛选等,对其中的异

38、常值、重复数据和错误进行检测和修正。数据集构造方法为了深入评估大模型的多元能力,我们根据评测框架所覆盖的各种测试场景,发展了各种数据集的构建策略。这包括了对文本、图像和语音等基本能力场景的测试数据集,以及针对学习能力和道德伦理等高级能力的评估。典型构造方法如下:基础任务:在构建评估大模型的基础数据集时,需要考虑文本、图像和语音的各个任务领域。文本类数据主要包括考察常识推理、闭卷问答、数学推理和编码能力等题目,旨在评估模型的知识理解、推理及应用能力,对题目广度、深度和数据质量要求较高。图像类测试数据需涵盖图像分类、物体检测、实例分割、三维重建和图像生成等领域,构造时需通过不同类型的标注测试模型进

39、行识别、定位、理解和生成图像的能力。语音类测试数据则包括语音识别、语音合成、情感识别、音频分类及语音转换等,需收集带有特定标签的语音数据,以训练模型进行语音和文本的转换、情感和音频的识别及语音的转换。应用任务:考察各类大模型在应用任务方面的能力,主要关注的是模型对新数据的快速处理、理解和反馈的表现。文本类数据需要构造面向实时处理、理解和生成文本等方面的数据,如社交媒体的情绪分析和主题检测,或聊天机器人的对话生成。图像类数据需要构造实时视频流中的物体检测、识别、场景理解等数据,如路况预警或人机交互指令。语音类数据需要构造面向语音识别、合成、情感识别等数据,例如电话接听服务中的语音输入理解和反馈。

40、4.3.4 评测工具为实现高效、准确、客观的评测大模型评测,需要研发相关工具完成评测工作,包括数据管理,评测执行以及指标统计等功能,确保评测数据质量和可用性,提升评测执行效率,保障评测结果的准确性。具体相关工具能力如下:15数据管理能力数据管理能力包括基准数据库、数据清洗、数据编辑等功能,以帮助用户更好地构建和选择数据集,确保数据集的质量,从而更好地评测大模型。相关功能具体描述如下:基准数据库:基准数据库中应包含大模型评测各类型数据库,数据具有良好的质量和代表性,基于基准数据库,方便用户能够快捷地构建一整套完整的数据集;数据清洗:工具可提供一系列数据清洗功能,例如去重、去噪、去除异常值等;数据

41、编辑:支持数据集随机抽取及数据编排功能,用户可以根据自己的需要更加灵活地构建自己的评测数据集。评测执行能力为了更加高效地进行大模型评测,评测工具支持通过自动化调用脚本进行大模型评测,方便用户全自动完成评测过程。相关功能如下:评测模型自动对接:工具提供常见模型接口调用脚本,用户可根据样例修改并生成被测模型调用脚本,实现评测模型脚本化对接;评测数据自动调用:工具支调用接数据管理模块中生成的各类评测数据集;评测过程自动化:工具脚本支持评测过程中各类数据自动输入,自动记录输出结果,同时记录测试过程中模型处理时间。结果分析能力除了支持评测过程自动化能力,工具还应提供测试结果分析功能,能够帮助用户快速实现

42、评测结果分析和比对,从而更好地理解模型的性能表现。具体相关功能如下:评测结果自动比对:通过调用数据库,自动比对数据标注并进行测试结果判断;评测维度自动分析:对模型各类指标如准确率、召回率、F1 值等实现自动统计,同时对常见分析维度进行自动分析;评测结论直观展示:根据分析结果生成可视化图表。用户可以从工具上直接直观地查看评测结果和分析结论。中国移动技术能力评测中心设计并实现“弈衡”大模型评测工具平台,具备强大的数据管理功能,能够帮助用户快速构建评测数据集,支持自动化执行评测过程,同时记录评测结16果并生成多维度的评测分析结论,方便用户准确地评估大模型性能。该评测工具平台专为大模型评测而研发,平台

43、的数据管理、评测自动化、结果分析自动化等功能,大幅提高了评测效率和准确性,对于大型模型的评测和优化具有重要的意义。4.4 评测维度鉴于大模型在众多任务领域展现出卓越的通用性表现,现有专为单一任务设计的测试基准和评价指标已不足以全面且客观地评估其性能。为了实现对这些复杂模型的全面评估,确保覆盖各类任务类型和应用场景,该体系对评测指标进行了多维度划分,并力求涵盖用户实际使用场景。功能性:此维度主要关注大模型解决多种任务的能力。所涉及的任务类型包括各领域的基准任务、垂直行业应用任务,以及跨领域多模态的复杂任务。在评估功能性时,任务丰富度和支持完备度是其中最重要的两个方面。任务丰富度反映了模型能够涵盖

44、的任务种类,而支持完备度则指模型在处理各类任务时的完成度和复杂度。准确性:此维度主要关注大模型在执行各类任务过程中的准确率。对于不同类型的任务,衡量准确性的指标可能存在差异。除了有明确客观评价方式的任务外,一些生成类任务的指标,如文本生成、图片生成、语音合成等任务,应在客观指标评价基础上,结合主观评价指标。可靠性:此维度主要关注大模型对输入噪声的抵抗能力,以及对同一问题多次输出结果的稳定性等方面。主要考察模型对输入噪声的容忍度、对抗样本的抵抗能力、在不同数据集和任务中的适用性,以及多次提问时模型回答内容的不确定性等。在此维度的评测中,除了关注基于语法或语义、像素或图像特征、音质或语音产生的扰动

45、,还应考虑数据集分布和数据来源带来的潜在影响。安全性:此维度主要关注大模型在生成文本时的毒害性和公平性,以评估模型是否能够避免产生违法、违反道德、信息泄露或带有偏见的内容。涉及的内容包括但不限于:有毒害性的表达、违反事实公平的描述、模型在不同群体间的表现差异、社会偏见以及刻板印象等。此外,还需关注模型生成内容是否可能泄露用户隐私、商业机密或侵犯版权等问题。交互性:此维度主要关注大模型与用户互动的能力,以评估模型产品的友好性。评估交互性时,需要关注推理时延、对话连贯性、内容丰富度、表达流畅性、语法规范性、外部互动能力以及工具应用能力等方面。在该维度的评估过程中,部分指标很难通过自动评估方法准确衡

46、量模型生成内容是否符合人类价值观和需求,因此人工评估仍被视为一种更直接且有17效的评估手段。应用性:此维度着重于探讨大模型产品或系统在现实应用场景中的部署、运维和业务支撑能力,旨在全面审视基于大模型的产品在各方面的实用性与使用效果。在评估此维度时,需关注包括系统稳定性、可拓展性、推理能效、系统兼容性及个性化开发能力等多个领域。然而,此维度中大部分评价指标很难通过自动化的客观指标来衡量,往往需要借助人工主观评估、访谈调研等方式进行考察。因此,在此维度的评估过程中,如何建立公正、合理的评价指标体系成为了其中最为严峻的挑战。在评测过程中,稳定性、可靠性以及部分交互性指标应与准确性指标同时进行测试,以

47、研究它们与准确性之间的关联程度。这样可以评估模型在生成内容时,能否在多个维度指标上同时具有良好表现,避免在测试中准确性较高,但稳定性和毒害性表现不佳的情况。18随着互联网的高速发展和人工智能技术的快速演进,特别是随着大模型(如OpenAI的GPT系列、百度的ERNIE等)取得显著进展,大模型成为计算机科学与人工智能领域的核心技术之一,引起了国内外研究界和产业界的广泛关注。目前大模型仍然面临许多需要关注的问题。首先,大模型在部分领域的准确性仍有待提高。虽然目前大模型已经在各自的基准测试集上取得了优异的成绩,但实际应用中仍然存在一定的差距。尤其是在金融、医疗、法律等特定领域仍然存在理解错误、结构模

48、糊等问题,这使得它们在这些领域的应用仍然受限。其次,大模型的安全性风险不容忽视。随着其在自动问答、内容生成等多种场景的应用,有可能产生错误或有害的信息。如实际应用中可能存在产生虚假新闻、散布歧视性内容、宣扬违法犯罪、引导不当行为等潜在风险。再者,大模型在特定行业的可解释性方面表现不佳。对于复杂的问题,尤其是涉及领域知识体系和逻辑推理的问题,大模型往往不能给出详细的解释。同时,随着模型结构复杂度的增加和参数爆炸,算法的可解释性、可控性越来越成为一种挑战。此外,大模型可能导致数据不平衡和偏见问题,因为它们大多基于大量互联网文本进行训练,这些文本可能包含不平衡的数据分布或固有的歧视倾向。面对这些问题

49、,大模型评测未来发展也值得探讨。未来评测技术研究重点可能聚焦以下几个方面:一是评测方法多样化。在对模型性能进行评测时,不再只是单一地考虑模型在整体上的表现,而是要更加关注模型在特定领域和任务上的性能。这就需要设计更为详细和多样化的评测标准,旨在发现模型在哪些方面有优势,哪些方面存在不足,并针对性地进行改进。二是行业大模型评测。考虑到大模型在诸如金融、医疗、法律等领域的应用需求,针对不同领域的特点,开展跨领域评测便愈发重要。这需要建立针对特定领域的数据集、评测指标等,在实际应用中发现问题,以更好地推动大模型在各行业的应用。三是关注安全性评估。结合大模型在实际应用中面临的安全性问题,开展安全性评估

50、,以及对抗样本生成等相19关研究,是未来评测领域的一个重要方向。通过对模型的安全性进行评估,可以提前预警和发现可能存在的风险,从而在实际应用中最大程度地保障信息安全。四是可解释性评测研究。针对大模型的可解释性和可控性问题,未来的评测研究可以更加关注模型内部的知识表示和推理过程,结合可视化、模型分析等技术手段,探讨模型的逻辑关系、知识结构等,从而为实用场景提供更加透明、可解释的输出结果。中国移动技术能力评测中心,作为国内领先的中国移动的专业评测机构,多年来积累了丰富的产品技术能力评测经验。经过深入研究和实践,希望通过构建“弈衡”通用大模型“2-4-6”评测体系,为业界在大模型评测方面提供参考依据

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 研究报告 > 其他

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服