ImageVerifierCode 换一换
格式:PDF , 页数:28 ,大小:2.30MB ,
资源ID:6651185      下载积分:20 金币
快捷注册下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

开通VIP
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.zixin.com.cn/docdown/6651185.html】到电脑端继续下载(重复下载【60天内】不扣币)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

开通VIP折扣优惠下载文档

            查看会员权益                  [ 下载后找不到文档?]

填表反馈(24小时):  下载求助     关注领币    退款申请

开具发票请登录PC端进行申请

   平台协调中心        【在线客服】        免费申请共赢上传

权利声明

1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前可先查看【教您几个在下载文档中可以更好的避免被坑】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时联系平台进行协调解决,联系【微信客服】、【QQ客服】,若有其他问题请点击或扫码反馈【服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【版权申诉】”,意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:0574-28810668;投诉电话:18658249818。

注意事项

本文(2024年中国AI基础数据服务研究报告.pdf)为本站上传会员【宇***】主动上传,咨信网仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知咨信网(发送邮件至1219186828@qq.com、拔打电话4009-655-100或【 微信客服】、【 QQ客服】),核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载【60天内】不扣币。 服务填表

2024年中国AI基础数据服务研究报告.pdf

1、2024 iResearch Inc.2024年中国AI基础数据服务研究报告2目 录CONTENTS01AI基础数据服务行业概述02AI基础数据服务市场研究03AI基础数据服务厂商案例04AI基础数据服务行业面对的挑战与机遇3AI基础数据服务行业概述0142024.7 iResearch Inc.2024.7 iResearch Inc.AI产业整体进展在过去几年里,大众已见识到GPT、BERT等大语言模型在自然语言理解和生成方面的卓越能力。相比单一模态的大模型,多模态大模型能够提供更自然的人机交互方式,具备更全面和准确的认知能力,并在不同情境下表现出更高的鲁棒性,从而赋能更丰富和全面的AI应

2、用。因此,多模态技术已成为诸多大模型厂商的研发重点。此外,长文本处理能力的提升,使大模型在理解和生成复杂文档方面表现更佳,能够更好地支持多主题和多步骤的推理任务;通过知识蒸馏、模型剪枝和混合精度训练等技术,大模型得以小型化,减少了计算资源需求,提高了推理效率,使大模型在资源受限设备上高效运行,提升了响应速度和用户体验,保护了用户的数据隐私。聚焦国内AI商业化市场,大模型商业化进程加速,API市场竞争激烈,价格战频现,但同时也反映出供应商间能力同质化的问题,亟需破局;另一方面,央国企凭借较好的数字化基础、丰富的数据资源及业务场景、相对充足的科技投入预算,成为现阶段国内大模型项目建设的主力军,推动

3、了大模型在中国AI产业的商业化落地。来源:艾瑞咨询研究院自主研究及绘制。来源:艾瑞咨询研究院自主研究及绘制。全球AI产品技术进展中国AI商业化落地进展多模态、长文本、大模型小型化成为热点研究方向多模态概述:多模态大模型能够同时处理和理解包括文本、音频、图像和视频在内的多种数据类型,这使得它们能够提供更自然的人机交互方式,具备更全面和准确的认知能力,并且在不同情境下表现出更高的鲁棒性,从而赋能更丰富和全面的AI应用案例:2024年5月,OpenAI推出GPT-4o,可对音频、视频和文本进行实时推理;2024年5月,Google演示了多模态AI助手Astra长文本概述:长文本可支持模型理解和生成更

4、复杂的文档、报告、小说等内容,能够更有效地进行知识管理和信息检索,提升了模型对于上下文理解的连贯性,进而更好地实现多主题、多步骤的复杂推理任务案例:2024年3月,月之暗面宣布旗下大模型产品Kimi开启200万字无损上下文内测,其后阿里、百度等大模型厂商均宣布相关大模型产品的长文本能力升级规划;2024年4月,Google、Meta等机构的研究人员先后提出Infini-attention、Megalodon等无限长文本方法大模型小型化概述:通过知识蒸馏、模型剪枝、混合精度训练等方法,“大模型小型化”相关技术可减少模型参数并降低计算资源需求,提高推理效率,使大模型可在端边等资源受限的设备上高效运

5、行,降低能耗,提升了响应速度和用户体验,还增强了数据隐私保护,未来可能催生更多的创新型智能终端案例:2024年5月,微软表示Windows将附带40多个端侧AI模型,包括可用于搜索、实时翻译、图像生成和处理等任务的小语言模型Phi-Silica;2024年6月,苹果推出Apple Intelligence个人智能系统,内置3B端侧模型,可支持摘要、改写、问答等功能API调用市场卷起价格战价格战的积极意义扩大客户量及使用频次,促使大模型技术在国内更快普及,加速创新型应用的诞生;促进供应商不断优化模型及计算架构,降低模型推理成本;竞争加速产业分层,较少社会整体资源消耗为争夺大模型客户流量及背后云资

6、源市场,24年上半年云厂商、大模型厂商等相继调整API产品定价,低价甚至免费供应价格战的另一面为大模型产品技术壁垒的薄弱尽管大模型相关产品技术仍在迭代,但国内大模型尤其以API方式提供标准化大模型服务的各供应商的产品能力尚未形成较大代际差异;供应商需加速技术及产品差异化建设,获取足够的利润,产业才能健康、可持续的发展央国企引领大模型项目建设2024年上半年中国大模型相关项目中标统计据智能超参数统计,2024年1-6月中国大模型相关项目中标数量达237个,前5个月披露的项目金额合计已过2023年;行业分布上,电信(47个)、能源(42个)位居1-6月的项目数量头两名,其次为教育、金融、政务等行业

7、各行业中的央国企均在积极推动大模型项目建设央国企对大模型的建设投入较多,与其有较好的数字化基础、丰富的数据资源及业务场景、相对充足的科技投入预算相关52024.7 iResearch Inc.2024.7 iResearch Inc.数据、算法、算力是构建AI的三大要素在人工智能领域,数据、算法和算力是构建AI系统的三大核心要素,三者的协同使现代AI技术实现了从理论到应用的飞跃。数据是AI的基础,大量高质量的数据不仅能够提高现有模型的准确率,还能促进模型的优化和创新。以ImageNet数据集为例,该数据集及相关挑战赛推动了计算机视觉算法的快速发展,2017年是挑战赛的最后一年,物体分类冠军的

8、准确率在7年时间里从71.8%上升到97.3%。近年来,Transformer等预训练大模型在语言理解及生成等领域表现出色,大模型背后的Scaling Law(规模定律)进一步揭示了模型性能与数据量、算力之间的关系,强化了数据在提升AI表现中的关键作用。来源:艾瑞咨询研究院自主研究及绘制。来源:艾瑞咨询研究院自主研究及绘制。构建AI系统的三大核心要素:数据、算法、算力算法数据算力算法 是处理信息、提取特征、进行预测的逻辑框架深度学习的兴起,CNN、Transformer等模型的迭代,极大地推动了图像识别、语义理解、文本生成等AI任务的进步算力 支持算法处理庞大和复杂的数据集GPU、TPU等AI

9、芯片的发展,使得研究人员能够探索更深、更宽的网络结构,训练更强大的模型,并加速模型的推理速度。硬件的进步直接影响到AI模型的训练效率及规模化应用的可行性,从而不断拓展AI的边界数据 是模型学习和适应不同任务的基石高质量的数据能够帮助模型更好地理解现实世界,并做出更精准的预测;反之,即使是最先进的算法,也无法从劣质的数据中获得有效的洞察AI高质量数据推动AI系统的发展进步ImageNet数据集的成功,以及大模型的Scaling Law的发现,都证明着高质量数据对于AI发展的巨大推动ImageNet见证CV算法在大规模数据集上的性能提升Scaling Law进一步揭示数据对于提升模型性能的关键作用

10、2009年6月,李飞飞团队完成ImageNet初始版本,共有1500万张图片,涵盖了 2.2 万个不同类别,这些图片筛选自近10亿张候选图片,并由来自167个国家的4.8万多名全球贡献者进行了标注2012年,由Alex Krizhevsky、Ilya Sutskever和Geoffrey Hinton共同开发的AlexNet在挑战赛上以超过第二名10个百分点的成绩在夺冠,深度学习迎来学术探索与工业应用的热潮2017年是挑战赛的最后一年,物体分类冠军的准确率在7年时间里从71.8上升到97.3,超越了人类的物体分类水平OpenAI研究团队于2020年发表的论文Scaling laws for n

11、eural language models中,系统地探讨了语言模型性能与模型大小、数据集大小和计算资源之间的关系。研究发现,模型的性能(如损失函数值)与这些因素之间存在稳定的幂律关系,即模型的性能会随着数据量、模型规模和计算量的增加而提升现阶段,诸多大模型的研发仍在遵循Scaling Law的发展方向 今年2月,由ServiceNow、Hugging Face 和 NVIDIA联合发布的用于代码生成的StarCoder2,其数据集规模相比v1大7倍,实现了更准确的上下文感知预测 今年4月,Meta推出Llama3,其训练数据集超过15T token(是Llama2的7倍),可支持8K的上下文长

12、度(是Llama2的2倍),在MMLU、GPQA、HumanEval等多项基准上成绩优异数据、算法、算力的协同促使现代AI技术实现了从理论到应用的飞跃62024.7 iResearch Inc.2024.7 iResearch Inc.来源:艾瑞咨询研究院自主研究及绘制。来源:LXT-The Path to Al Maturity 2024AI基础数据服务是AI产业发展的关键支撑加速高质量数据的获取与标注,推动AI算法的创新与持续优化根据AI基础数据服务厂商LXT对322家有AI项目经验的美国企业的调研,训练数据的资金投入占这些企业的AI整体建设投入的15%,61%的企业认为未来2到5年对数据

13、的需求量将会增加,62%的企业认为数据质量比数据量更为重要。LXT的调研结果揭示了企业在AI建设过程中对高质量数据的迫切需求。鉴于AI基础数据服务厂商在高效提供高质量数据集方面的专业能力,它们已成为AI研发企业的重要合作伙伴,AI基础数据服务已是推动AI产业发展的关键支撑。AI基础数据服务厂商对AI算法研发企业的帮助企业人工智能建设的预算分配情况推动算法的创新与持续优化 AI基础数据服务厂商提供的标准数据集使企业能够迅速开展模型训练,而定制化数据集则助力企业针对特定应用场景优化算法性能 不仅缩短了AI研发周期,还显著提升了AI应用的性能和效果,激发了企业在AI领域的创新潜力加速数据获取与标注

14、AI算法的训练对数据的需求量巨大,且对数据的质量和精确度有着严格的要求 AI基础数据服务厂商提供的专业产品与服务能够助力AI研发企业迅速获得所需的高质量标注数据确保数据的高标准质量 数据质量对AI算法的性能有直接影响 AI基础数据服务厂商依托专业的标注团队和行业领先的标注工具,确保了数据的高标准质量,为算法的精度和可靠性奠定了坚实的基础,帮助企业打造高性能的AI方案17%15%12%11%11%10%10%9%5%AI战略训练数据硬件设备合规管理软件产品开发人才招聘数据分析其他61%36%3%增长保持现状减少62.0%38%数据质量更重要数据量更重要企业未来25年的训练数据需求情况数据量与数据

15、质量的重要性比较72024.7 iResearch Inc.2024.7 iResearch Inc.来源:艾瑞咨询研究院自主研究及绘制。来源:艾瑞咨询研究院自主研究及绘制。AI基础数据服务厂商及主要产品服务介绍标准数据集、定制数据集、配套产品工具服务等三大产品服务AI基础数据服务厂商是专注于为各行业的AI算法训练与调优提供基础数据产品服务的公司。这些公司通过提供标准数据集、定制数据集和配套产品工具服务,支持互联网、大模型、智能驾驶等各领域的AI技术发展。数据集按内容格式可分为文本、图像、视频、语音等类型,核心生产流程主要包括方案设计、数据采集、数据清洗、数据标注和数据质检等五个关键环节。标准

16、数据集是由数据服务厂商研发并可多次销售的数据集;定制数据集是依据客户需求制作特定数据集,数据的知识产权归客户所有;配套产品工具服务包括标注工具、实训平台及AI模型评测等软硬件工具服务,用于满足高效标注数据、培训数据标注、评估AI能力效果等不同层次的客户需求,辅助和延展数据服务厂商的相关业务。AI数据数据服务厂商的主要产品服务数据集的核心生产流程标准数据集配套产品工具服务包括标注工具、实训平台及AI模型评测等软硬件工具服务,辅助和延展数据服务厂商的相关业务定制数据集由数据服务厂商研发并可多次销售的数据集依据客户需求制作特定数据集,数据的知识产权归客户所有根据设计好的数据体系标准,使用各类硬件设备

17、数据采集系统或网络爬虫等工具,获取满足需求的原始数据源对采集到的原始数据进行处理,去除或补全缺失数据,修改或删除格式错误、内容错误和逻辑错误的数据,去除无用或无效的数据借助语言语音预识别、图像边界检测等自动化或半自动化工具,通过人机协作高效完成数据标注基于自动化质检及多标注员交叉验证,针对标注数据进行一致性检查、完整性检查、准确性检查、重复性检查等,纠错并反馈检测报告,是确保数据质量的重要环节客户需求沟通,设计匹配客户算法模型需求的数据采集、清洗、标注及质检的数据服务流程及方式方法方案设计数据采集数据清洗数据质检数据标注82024.7 iResearch Inc.典型服务场景通用大模型(1/

18、2)数据量更大、维度更加多元,标注方式及质量评判标准也更为复杂多样算法模型从理论到实践的应用过程依赖于大量的训练数据。训练数据越多、越完整、质量越高,模型推理的结果就越可靠。在本报告的讨论中,传统AI泛指Transformer架构出现之前的AI架构,参数量通常相对较小,大模型架构则以Transformer为代表。作为应用大模型架构的代表,ChatGPT在2022年11月上线以来,掀起了AI乃至社会经济各领域对大模型的研讨与应用的热潮。与传统AI相似,大模型依然需要大量优质数据,但其所需数据量更大,数据维度更加多元,标注方式及质量评判标准也更为复杂多样。来源:艾瑞咨询研究院自主研究及绘制。对比传

19、统AI模型,大模型对数据集的需求差异大模型传统AI模型传统AI模型由于参数量和复杂度的限制,能够吸收利用的数据量相对有限,过多的数据不仅无法有效利用,反而可能导致过拟合等问题以计算机视觉的经典模型ResNet为例,其在2015年的ImageNet视觉竞赛中以3.6%的错误率夺得第一名,而其所用的ImageNet数据集有近150万张图像,总大小约150GB数据需求量更大大模型通常需要更大量的数据才能训练出良好的性能,大模型原始训练数据的大小一般为TB至数百TB,但其训练首先需将文本等原始数据token化今年4月开源的Llama3的训练数据集超过15T token,是Llama2的7倍数据维度更加

20、多元大模型的数据来源非常丰富,涵盖了文本、图片、音频和视频等多种形式,含海量知识信息,涉及各类专业领域和多种语言。基于多样化的数据,大模型具备较强的通用能力和迁移能力,能够适应更广泛的任务和场景ChatGPT、Claude、Llama 和 Mistral 等大模型的训练数据包括文学作品、百科全书、新闻、社交媒体、学术文献等多种知识信息,且往往覆盖了图像、视频和音频等多模态数据传统AI模型通常需要针对目标任务场景的领域数据CNN主要处理图像数据,通常基于OCR、人脸识别、智能驾驶等特定任务场景的图像数据进行训练和优化;而RNN和LSTM则一般处理文本和时间序列数据标注方式及评判标准更加复杂标注维

21、度更丰富对噪声数据的利用度更高评判标准更加复杂传统AI模型的标注维度通常比较单一图像分类只需标注图片的类别,文本分类只需标注文本的主题等大模型的标注需要考虑更加多维的信息,如新闻的标注除了包括主题之外,往往需包括时间、地点、人物等其他标签为了训练大模型理解长序列数据的能力,还需要对文本进行更复杂的标注,例如对长篇小说进行按篇章结构或一定字数间隔的标注,标注每个板块的人物、事件、摘要等信息大模型能够在一定程度上从包含噪声和偏差的数据中学习为了更好的模型性能,仍然需要对训练数据进行清洗和筛选,以获得更佳的模型效果传统AI模型对数据质量非常敏感,数据中的噪声和偏差可能会显著降低模型性能传统AI模型的

22、数据标注需要仔细审核,确保高准确度大模型的标注有一定主观性,如长文本摘要、图片内容的理解、不同文风的改写、对同一问题的多个回答的打分等,评判标准更复杂,对标注者的逻辑能力、知识体系的要求更高随着算法策略的调整或研发侧对数据工程理解的加深,数据标注方式及具体导向可能在项目进展中多次调整传统AI模型的数据标注一般有标准答案,如图像类别、像素边界、语音文本等通常有单一答案,评判标准更客观92024.7 iResearch Inc.2024.7 iResearch Inc.来源:根据公开资料、企业调研,结合艾瑞统计模型核算。数据类型说明:公开数据为无需借助爬虫工具,可直接下载利用的数据,如来自高校、社

23、区的免费共享数据;大模型应用及客户合作数据,指用户在大模型C端应用中反馈的数据,以及大模型在B端行业拓展中企业客户提供的数据;外采数据包括原料数据以及数据服务公司提供的标准数据集、定制数据集等。其他说明:调研企业研发的大模型均为侧重语言能力的多模态大模型;主要以数据token化前所需存储空间为口径做占比计算;因调研样本的局限性,本比例可能与行业整体情况存在偏差。典型服务场景通用大模型(2/2)为提升通用能力,大模型训练数据的投入将逐步向图像、视频等多模态数据倾斜,且需要更多的采购数据支持纵观业界开源及闭源大模型的能力特性,结合艾瑞对大模型研发企业的调研,虽然当下主流大模型应用仍相对侧重文本输入

24、文本输出的能力,但对图像、视频、语音等多模态数据的使用已越来越普遍,艾瑞预计大模型训练数据中多模态数据的占比将在未来数年持续提升。根据艾瑞对部分通用大模型及综合型AI厂商的调研,目前大模型的训练数据主要来源于公开数据、网络爬虫数据等可公开获取的数据,其次是采购数据。相比大模型初创企业,综合型AI厂商凭借现有的互联网应用和AI业务积累,具备独特的数据优势。在模型的通用能力建设方面,公开数据和爬虫数据已被广泛利用,未来这两类数据在整体上的提升空间相对有限,Epoch AI等机构的研究人员于2024年6月更新的论文中表示,大语言模型将在大约2026至2032年之间耗尽所有公开的文本数据。艾瑞预计,

25、大模型研发厂商将通过更多的采购数据来提升模型的通用能力;而在垂直场景优化及行业客户的拓展中,公开数据和爬虫数据仍有较大的获取提升空间,大模型研发厂商也将更多地利用客户侧的合作数据,增强模型解决行业特定领域或企业特定问题的能力。2023年大模型的训练数据来源构成26.6%22.6%22.5%17.5%10.8%公开数据网络爬虫数据采购数据大模型应用及客户合作数据企业自有数据2023年大模型的各类型训练数据投入构成来源:根据公开资料、企业调研,结合艾瑞统计模型核算。其他说明:调研企业研发的大模型均为侧重语言能力的多模态大模型;以大模型研发企业在2023年对各类型数据的资金投入做占比计算;因调研样本

26、的局限性,本比例可能与行业整体情况存在偏差。55.0%36.0%9.0%文本数据图片及视频数据语音等其他数据102024.7 iResearch Inc.典型服务场景大模型评测公开评测基准与商业化评测服务共建大模型评测生态随着大模型技术的快速迭代及其在众多领域的广泛应用,相关评测需求同步增长。对于模型研发企业,评测是发现模型在功能、性能、安全性和可靠性等方面优劣势的关键步骤,并可与其他企业的模型横向对比,进而针对性地优化模型,提高其表现和稳定性;对模型应用企业而言,评测是选型和项目验收的重要工具,通过专业评测服务,企业能够评估模型的实际应用适用性,确保所选模型满足需求,并保障定制类模型项目的交

27、付质量。相较传统AI,大模型的应用空间更广,评测本身也更加复杂和多样化,市场对专业评测服务的需求潜力巨大。公开评测基准和商业化评测服务的发展,将为大模型评测提供重要支撑,促进技术与产业的健康发展。来源:艾瑞咨询研究院自主研究及绘制。公开基准为大模型评测提供重要参考商业化评测为客户提供体系化服务通过科学、客观、多场景的评测任务和指标设计,公开基准为学术研究和产业应用提供评估大模型能力的重要参考类别基准名称发布机构/发布年份评测内容通用文本MMLUUC伯克利、哥大等/202015908个问题,覆盖基础数学、美国历史、计算机科学、法律等57个领域GPQA纽约大学、Cohere、Anthropic等/

28、2023448个多项选择题,由生物、物理、化学等领域的专家编写MathUC伯克利等/202112500个高中数学竞赛问题,覆盖代数、几何、概率论等学科HumanEvalOpenAI/2021164个手写的编程问题,每个编程问题都由函数签名、文档字符串、函数体和几个单元测试构成其他典型通用文本类评测基准:MGSM、DROP、BBH等通用中文SuperClueAI评测基准社区Clue/20232194道多轮简答题,覆盖理科与文科两大能力,包括计算、逻辑推理、代码、知识百科等十大任务其他典型通用中文类评测基准:OpenCompass、CMMLU、C-EVAL等翻译WMT23国际机器翻译大会/2023

29、通用翻译、术语、手语、生物医学、文学等不同领域的翻译任务语音FlEURSMeta、Google等/2022包含102种语言的n路并行语音数据集,每种语言约12小时的语音监督数据语音翻译CoVoST2Meta/2020共计2900小时的语音,包含从21种语言翻译成英语,以及从英语翻译成15种语言的语料多模态MMMUIn.ai、滑铁卢大学等/2023从大学考试、教科书中收集的 1.15万个多模态问题,包括图表、图示、地图、乐谱、化学结构等30种高度异构的图像类型MathVista加州大学洛杉矶分校等/2023由6141个任务组成,源自 28 个涉及数学的现有多模态数据集和 3 个新创建的数据集Eg

30、oShemaUC伯克利等/2023由超过250小时的的人类自然活动的视频和超过5000个多项选择题构成,基准要求模型根据三分钟长的视频剪辑从5个选项中选出正确答案其他典型多模态评测基准:M3Exam、AI2D、ChartQA、DocVQA、ActivityNet等数据集体系平台高质量的数据集是进行有效评测的基础,在公开评测基准的基础上,商业化评测服务可结合私有或定制数据集,为客户提供符合实际场景需求的评测数据集和指标商业化评测服务提供自动化、智能化的平台,支持数据管理和更新,为客户构建高效、规范且可演进的评测体系,生成详细报告,助力技术迭代及应用选型,从供需两侧加速大模型产业的发展AI基础数据

31、服务公司及评测平台公司可通过商业化评测,为客户提供体系化解决方案,推动大模型在实际应用中的落地和发展112024.7 iResearch Inc.2024.7 iResearch Inc.来源:综合网络公开资料,艾瑞咨询研究院整理及绘制。来源:综合华泰证券、九章智驾等公开资料,艾瑞咨询研究院整理及绘制典型服务场景智能驾驶AI基础数据服务与AI算法研发相互促进,共同推动着自动驾驶的实现在大模型和端到端技术的加持下,智能驾驶的自动化程度不断提升,相关功能已成为部分消费者购车时的重要考虑因素。除个别厂商专注于纯视觉路线外,当下高级别的智能驾驶系统中,摄像头和激光雷达是两大核心传感器。摄像头主要捕捉二

32、维图像,具有高分辨率和丰富的色彩细节;激光雷达则通过发射和接收激光脉冲生成高精度的三维点云数据,能够精确测量物体的距离、尺寸和相对位置,受光照等环境条件影响较小。摄像头和激光雷达等各类传感器各具优势,互为补充,数据标注需对来自不同传感器的数据标签对齐和交叉验证工作。AI基础数据服务是支撑智能驾驶、大模型等AI算法研发的基石,而AI算法也大幅提升了智驾研发领域数据标注的效率和效果,为数据服务行业的发展注入了新的活力。数据与AI彼此支撑、相互促进,共同推动着自动驾驶的实现。智驾系统核心传感器的数据标注工作对比分析自动化标注在智驾研发场景中的应用案例特斯拉 2021年特斯拉人工标注团队约1000人,

33、其后通过自动化标注系统提高了团队效率,2022年该团队裁员200余人 特斯拉采用“多重轨迹重建”技术自动标注车辆行驶轨迹,在集群中运行12小时即可完成10000次行驶轨迹标注,相当于节省了500万小时的人工标注时间。理想汽车 2023年之前理想汽车每年需通过人工完成约1000万帧的图片标注,每张成本68元,一年耗资近亿元 此后,理想汽车基于大模型进行自动化标注,算法可在三个小时内完成过去人工一年的工作,效率是人工的1000倍Scale AI Scale AI为通用、Nuro、丰田、法雷奥等诸多智驾研发企业提供了自动化标注的工具平台或相关产品服务 借助Scale AI的调试训练数据集的可视化工具

34、平台Nucleus,无人车等机器人研发企业Nuro可有效维护管理超5亿张图像数据集。Nucleus的Object Autotag功能可支持Nuro选择某一类别的未标注图像,并自动找出一组相似图像,大幅提升罕见场景的数据的准备、标注及管理效率小鹏汽车 XNet的训练基于50100万个短视频,其中动态目标的数量可能达到数亿甚至十亿量级,如果以人工标注的方式,需要1000人的团队耗时2年完成标注 小鹏汽车的全自动标注系统仅需16.7天即完成上述工作,且标注质量更高,信息更全面,包括3D位置、尺寸、速度、轨迹等信息架构摄像头激光雷达标注对象 二维图像中的汽车、行人、交通标志、车道线等物体 需考虑光照条

35、件和天气影响 3D点云数据,需标注物体的边界、相对位置等 相对不受光照条件影响标注复杂性 需综合物体的颜色、纹理和形状等进行区分 标注的主观性或不确定性相对更大 需理解三维空间关系 精确的距离测量 标注结果的一致性更高标注量 摄像头的数据及采集到的图像数量相对更多 每张图像的标注工作量相对更小 每帧点云的数据量很大,点云数据处理和标注的工作量相对更大标注成本 图像标注相对简单,且相关自动化工具相对成熟,单张标注成本更低 点云数据复杂,单张标注成本相对更高集成与融合在高级别的自动驾驶系统研发中,大多厂商通常会融合摄像头、激光雷达等多种传感器的数据,为系统提供更全面的信息。这意味着标注策略需考虑数

36、据融合,做好来自不同传感器的数据标签对齐和交叉验证工作12AI基础数据服务市场现状02132024.7 iResearch Inc.中国AI基础数据服务产业图谱AI基础数据服务产业的中游即数据标注等数据服务的供应商,包括专业厂商及云厂商两类,其中后者以支持内部算法研发及云业务客户需求为主。上游提供原料数据、人力资源支持及IT基础设施,其中人力资源服务供应商主要包括垂直做数据标注的厂商和综合IT类厂商两类,目前业界通常采用远程线上服务即云BPO的模式进行人力支持。下游为数据服务的需求方,包括大模型、智能驾驶等各行业各领域投入AI算法研发的厂商。来源:艾瑞咨询研究院自主研究及绘制,图谱中所展示的公

37、司logo顺序及大小并无实际意义。中游云服务厂商数据服务专业厂商上游多源数据人力资源服务IT基础设施下游通用大模型及综合型AI厂商垂直行业/领域的大模型及AI厂商智能驾驶AI+安防AI+工业AI+教育AIoT文本、图片、视频、音频等原料数据版权所有者个人企业政府数据标注垂类BPOIT类BPOIT类BPO影像创作搜索及文本创作代码助手2024年中国AI基础数据服务产业图谱多源数据、人力服务、IT设施 数据服务 AI算法研发厂商142024.7 iResearch Inc.中国AI基础数据服务市场规模2023年中国AI基础数据服务市场规模45亿元,未来5年复合增长率30.4%基于对数据服务专业厂商

38、云厂商、大模型研发厂商、智能驾驶研发厂商等中国AI基础数据服务市场的供需两侧企业调研,结合艾瑞对中国人工智能市场整体及AI基础数据服务市场的发展判断,艾瑞推算2023年中国AI基础数据服务市场规模为45亿元。在需求侧,随着AI算法研发从面向特定任务领域的小模型向具备更强通用泛化能力的大模型过渡,数据服务需求企业将产生大量高质量、多模态的数据需求。同时,随着大模型在通用及垂直场景中的应用拓展和智能驾驶等AI技术的规模化商业落地,良好的商业回报将进一步推动需求侧加大对基础数据的投入。在供给侧,随着数据要素等相关支持政策的持续深化,服务商将加快数据源的获取及数据集的制作。数据工程技术、数据标准规范

39、标注方法等日益成熟,人才生态及服务软件平台的自动化、流程化也在不断完善,供给侧的供应能力和服务质量得以加强。综合供需两侧的情况,艾瑞预计到2028年,中国AI基础数据服务市场规模将达170亿元,未来五年的复合增长率为30.4%。来源:根据公开资料、企业访谈,结合艾瑞统计模型核算。37 45 58 75 99 130 170 16.0%22.0%28.0%30.0%32.0%32.0%30.0%202220232024e2025e2026e2027e2028e市场规模(亿元)增速(%)2022-2028年中国AI基础数据服务市场规模CAGR=30.4%152024.7 iResearch In

40、c.2024.7 iResearch Inc.来源:艾瑞咨询研究院自主研究及绘制。来源:根据公开资料、企业访谈,结合艾瑞统计模型核算。AI基础数据服务商的市场结构分析(1/2)自建团队与品牌数据服务商主导市场,中小服务商的市场份额大幅下滑延续艾瑞在2020年中国AI基础数据服务行业研究中的供给方划分方式,本报告将供给方分为需求方自建团队、品牌数据服务商、中小数据服务三类。其中,有AI基础数据对外服务的云厂商最为特殊,因其所属集团的内部AI算法研发所需的数据服务,可能由云服务业务线、算法研发业务线的内部标注团队,以及外部的品牌和中小数据服务商等四种团队承接。在艾瑞对供给方的市场份额统计中,云服务

41、业务线的对内支持计入需求方自建团队的市场;因云服务厂商具备较大的市场影响力、相对完善的服务软件平台,将云业务线对外部厂商的数据服务计入品牌数据服务商的市场。相比4年的市场份额情况,中小数据服务商的整体市场份额下滑约41%,需求方自建团队上升36%,品牌数据服务商上升5%:传统AI数据标注市场竞争激烈,而大模型、智能驾驶等新兴项目体量较大需要较强的综合服务能力,叠加疫情影响,较多中小数据服务商已退出市场;在大模型、智能驾驶等新兴AI算法及对应标注方式快速迭代时期,为追求更高的开发效率、保障信息安全,较多需求方通过自建团队满足数据服务需求;未来随着品牌数据服务商的数据版权的丰富、专业能力的提升、标

42、注方法的成熟,品牌数据服务商将承接更多的数据服务需求。2023年中国AI基础数据服务供给方的市场份额59.0%35.3%5.7%需求方自建团队品牌数据服务商中小数据服务商一般厂商的数据服务需求AI基础数据服务产业的供需合作链条云服务厂商所属集团的内部AI数据服务需求需求方内部标注团队中小数据服务厂商品牌数据服务专业厂商云服务厂商AI基础数据服务业务线计入需求方自建团队市场计入品牌数据服务商市场计入中小数据服务商市场162024.7 iResearch Inc.AI基础数据服务商的市场结构分析(2/2)2023年CR4为22.0%,行业集中度相比2019年显著提升据艾瑞调研统计,2023年中国A

43、I基础数据服务行业的CR4(前四大企业的市场份额)为22.0%,市场仍较为分散。相比2019年14.3%的CR4,中国AI基础数据服务市场在2023年的集中度显著提升。市场份额位居前四的企业包括以海天瑞声、数据堂为代表的数据服务专业厂商以及以百度智能云为代表的云服务厂商。在传统AI标注市场的激烈竞争中,百度智能云、数据堂等AI基础数据服务企业敏锐的捕捉到了大模型标注的需求变迁,凭借强大的资源整合及项目管理能力、丰富的行业经验和专业理解,快速响应市场需求的变化,及时投入大模型相关产品和服务的研发,从而在AI基础数据服务的整体竞争中赢得了更高的市场份额,也成为了大模型标注领域的头部厂商。展望未来,

44、随着大模型等AI技术的发展,数据服务的需求日益庞大且复杂,这对服务企业的综合能力提出了更高的要求。没有自动化软件平台或平台能力较弱、资源整合能力有限的厂商将面临生存空间不断被挤压的困境;高质量数据版权丰富、运营管理能力强大、行业理解深刻的头部数据服务厂商有望持续提升市场份额。来源:根据公开资料、企业访谈,结合艾瑞统计模型核算;CR4为国内营收位居前四的企业的相关营收在中国市场的份额总和;图中所展示的公司logo顺序及大小并无实际意义。2023年中国AI基础数据服务行业CR4及代表厂商22.0%78.0%CR4其他厂商数据服务专业厂商代表企业云服务厂商代表企业172024.7 iResearch

45、 Inc.厂商竞争要素与未来发展策略自动化平台、深刻的行业理解、对技术与数据的前瞻性布局,将帮助优秀企业赢得市场领先在行业集中度不断提升的过程中,基于自动化平台不断强化项目运营及资源整合能力、深刻理解行业需求,积极应用前沿算法、积累高质量数据集版权的AI基础数据服务厂商,将在激烈竞争的市场中脱颖而出,赢得市场领先地位。来源:艾瑞咨询研究院自主研究及绘制。AI基础数据服务厂商的竞争要素与未来发展策略AI基础数据服务厂商竞争要素与未来发展策略基于自动化数据服务平台的项目运营与资源整合能力 自动化与智能化平台:一个高度自动化、智能化的服务平台能够高效地处理数据预处理、清洗、标注等各个环节 资源整合能

46、力:强大的资源整合能力使企业能够快速召集满足客户需求的数据服务人员,确保按时按质交付项目 精细化管理:通过精细化管理标注工程师和标准质检员等项目人员,企业可以确保团队内的高效协作 人力资源支持:随着平台功能的增强,更多个体可以直接通过平台为数据服务厂商提供人力资源支持,提升行业运转效率,扩大从业人员规模深刻的行业理解与前瞻性布局 简化复杂需求:大模型的标注工作复杂多样,供应商必须具备将复杂需求简化为具体标注任务的能力 前瞻性布局:企业需具备前瞻性布局的能力,积极投入有前景的数据集开发,并应用前沿AI算法对平台进行自动化改造,使企业在技术变革中保持领先原料数据的版权积累 定制数据集业务的局限性:

47、定制数据集因其个性化需求和难以重复售卖的特点,难以支撑数据服务企业的规模化增长 标准数据集的优势:基于高质量原料数据制作的标准数据集则不同,这些数据集可以面向多个客户重复销售,市场需求广泛且客户接受度高,有助于企业实现规模效应,取得更高的利润水平18AI基础数据服务厂商案例03192024.7 iResearch Inc.海天瑞声深耕行业近20年,向全行业提供多语言、跨领域、跨模态的人工智能数据及相关数据服务北京海天瑞声科技股份有限公司(以下简称海天瑞声)自2005年成立以来,公司始终致力于为AI产业链上的各类机构提供算法模型开发训练所需的专业数据集。经过多年发展,公司已成为人工智能基础数据服

48、务领域具有较强国际竞争力的国内头部企业,并实现了标准化产品、定制化服务、相关应用服务全覆盖。公司所提供的训练数据涵盖智能语音(语音识别、语音合成等)、计算机视觉、白然语言等多个核心领域,全面服务于人机交互、智能家居、智能驾驶、智慧金融、智能安防等多种创新应用场景。来源:综合企业财报、官网等公开信息,艾瑞咨询研究院整理及绘制。2.38 2.33 2.06 2.63 1.70 23.3%-1.8%-11.5%27.3%-35.3%20192020202120222023营业收入(亿元)同比增减(%)2019-2023年海天瑞声的营收情况海天瑞声产品服务及技术布局自然语言处理公司通过设计自然语言处理

49、的训练数据集结构、采集、加工、质检;或者对客户提供的自然语言文本执行加工、质检工作,最终形成客户所需的自然语言训练数据集智能语音公司通过设计、采集、加工、质检等智能语音训练数据集生产环节;或者针对客户提供的原料音频文件执行加工、质检工作,最终形成客户所需的智能语音训练数据集计算机视觉公司通过设计计算机视觉的训练数据集结构、采集、加工、质检;或者对客户提供的图像、视频文件执行加工、质检工作,最终形成客户所需的计算机视觉训练数据集训练数据相关的应用服务公司基于自身生产的训练数据提供算法模型相关的训练服务,运用训练数据研发能力助力下游客户完成其算法模型的语言拓展、特定算法模块拓展、垂直应用领域拓展等

50、为客户定制针对特定应用场景的专属算法模型,提高AI技术应用效果海天瑞声客户场景及客户结构客户场景客户场景个人助手语音输入内容生成智能家居机器人语音导航智能客服智能播报语音翻译移动社交虚拟人智能驾驶智慧医疗智慧教育智慧交通智慧城市智慧金融机器翻译智能问答信息提取情感分析OCR识别核心技术布局通过持续的研发投入积累形成了12项核心技术,覆盖基础研究、平台工具、训练数据生产三个层次,应用于训练数据生产的设计、采集、加工、质检全流程12项核心技术中,语音语言学基础研究、多语种多模态训练数据设计技术、数据同步技术、大数据驱动的高效数据处理技术、分布式高性能自动校验技术等5项具备较高技术壁垒客户结构分析

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        抽奖活动

©2010-2026 宁波自信网络信息技术有限公司  版权所有

客服电话:0574-28810668  投诉电话:18658249818

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :微信公众号    抖音    微博    LOFTER 

客服