收藏 分销(赏)

2023中国AIGC数据标注产业全景报告.pdf

上传人:Stan****Shan 文档编号:1247782 上传时间:2024-04-19 格式:PDF 页数:26 大小:8.78MB
下载 相关 举报
2023中国AIGC数据标注产业全景报告.pdf_第1页
第1页 / 共26页
2023中国AIGC数据标注产业全景报告.pdf_第2页
第2页 / 共26页
2023中国AIGC数据标注产业全景报告.pdf_第3页
第3页 / 共26页
2023中国AIGC数据标注产业全景报告.pdf_第4页
第4页 / 共26页
2023中国AIGC数据标注产业全景报告.pdf_第5页
第5页 / 共26页
点击查看更多>>
资源描述

1、中国中国AIGCAIGC数据标注产业数据标注产业全景报告全景报告Panoramic ReportPanoramic Report ofof Generative AI Data LabelingGenerative AI Data Labeling IndustryIndustry inin China China 2023.11杨净量位智库 QbitAI Insights序序 数据标注,正迎来关键时刻。作为AI认识世界的起点,数据标注本质上是将现实世界信息结构化、数字化,充分发挥数据信息的价值。模型时代到来,AIGC众多垂直场景落地,以及通智能、具智能等前沿领域探索,与质量、专业化的场景数据

2、密不可分,数据标注从劳动密集型加速朝着知识密集型转型,业壁垒进步提。作为底层基础服务,数据标注贯穿模型全命周期(训练测试、评估验证和应迭代)。,牵涉关键Know-how,更多模型公司/AI企业选择建标注团队和管线;另,上下游合作关系将更为紧密和耦合,专业数据服务提供商更多机会将在垂直领域,帮助企业完成私有化部署。机遇与挑战并存。合成数据作为新衍赛道,潜在市场空间巨。与此同时,数据标注标准难以统、数据处理流程尚未规范,学历多领域多专业成为标注才的硬指标。模型时代下的数据标注!#!$!%录录AIGC数据标注四变化AIGC数据标注三影响因素数据标注产业竞争格局/市场规模数据标注代表玩家案例集!&模型

3、时代下的数据标注!数据标注是AI认识世界的起点n 本:词性标注、分类标注、情绪标注、命名实体识别、语义标注、意图标注等;n 图像:图像分类、语义分割、实例分割、拉框、OCR转写等;n 频:语识别、声纹识别、语转写等;n 视频:标跟踪、为识别等;n 3D点云数据标注是将原始数据进加处理,如分类、拉框、注释、标记等操作转换成机器可识别信息的过程。国内数据标注商,义称之为基础数据服务提供商,通常需要完成数据集结构/流程设计、数据处理、数据质检等作,为下游客提供通数据集、定制化服务、数据闭环具链等。这也是本次AIGC数据标注全景报告的研究对象。根据原始数据类型原始数据类型以及训练任务训练任务划分:般数

4、据处理流程:原始数据数据清洗模型训练测试/验证数据标注数据质检数据标注中的定律定律通常在一个AI项目中,数据准备工作需要80%时长,模型训练和部署仅占20%。模型时代下的数据标注海天瑞声是国内唯家AI数据上市公司,今年2以来股价受ChatGPT热潮曾度狂飙,截1110股价较年初上涨59.75%。上市公司股价狂飙,创业公司融资加速上市公司股价狂飙,创业公司融资加速模型数据解决案多处开花,以站式、定制化服务为主模型数据解决案多处开花,以站式、定制化服务为主围绕模型开发全命周期(包括预训练、监督微调、RLHF、红队测试、基准测试等),专业数据服务商、模型企业、AI公司等各都拿出相关数据解决案,部分以

5、站式、定制化服务为主。云测数据:向垂直业模型数据解决案 星尘数据:星尘COSMO模型数据字塔解决案 澳鹏Appen:AI聊天反馈和基准测试两解决案 引擎:(涵盖数据服务模块)百度:个模型数据标注基地模型范式涌数据标注,动化标注槛幅降低模型范式涌数据标注,动化标注槛幅降低以SAM模型为代表的图像分割模型开源;GPT-4、GPT-4V为代表的模型也被验证在本、图像领域标注具有可性,并衍出专做数据标注的模型,幅降低动化标注槛。国内不少数据服务商进相关模型研发,部分产品已经发布:海天瑞声:数据产垂直模型(研发阶段)曼孚科技:动驾驶数据标注视觉模型(已完成研发)猫数据:动驾驶模型AutopilotGPT

6、(发布)商汤:明眸SenseAnnotation动化数据标注平台(发布)标科技:烘焙师模型Baker-GPT(发布)创业代表公司融资情况星尘数据22年125000万A轮标科技23年4超亿元B2轮整数智能23年6数千万Pre A轮柏川数据23年7千万元天使轮曼孚科技23年9数千万B轮恺望数据23年4战略融资23年9数千万Pre A轮智能驾驶新感知范式,智能驾驶新感知范式,BEV+TransformerBEV+Transformer是机遇也是挑战是机遇也是挑战作为最具代表性应场景,智能驾驶迎来新感知范式:以BEV+Transformer为代表的四维感知替代掉2D+CNN为代表的维感知案,给数据服务

7、商带来更多机遇与挑战,包括不限于标注场景难度、数据量产能要求等。前国内部分商给出了数据闭环具链和解决案等。(图源:特斯拉)AIGC重塑数据标注量位智库认为,数据标注正迎来重新洗牌的关键时刻,有四关键趋势:1 1、数据标注要求从客观到主观,很难建统标准、数据标注要求从客观到主观,很难建统标准模型的开发范式决定了模型数据标注对然语要求要求很,包括排序、改写、多轮对话、评估等操作,难以依靠客观的评价体系,如准确率、效率等。本科以上多领域多专业开始成为标注才的硬指标,标注也随着模型全命周期更为细分,如AI训练师、模型精调师、指令程师等。模型Know-how涉及到数据处理流程的设计,模型公司/AI企业开

8、始建数据标注团队和数据处理管线,甚对外输出服务,产业链重新洗牌。量位智库预计,国内AI基础数据服务市场规模将达百亿规模,约占全球市场10%份额。其中合成数据作为衍出来的新赛道,存在巨市场空间,增速超40%。2 2、学历多领域才成刚需,缺或达百万、学历多领域才成刚需,缺或达百万3 3、产业链重构,模型公司、产业链重构,模型公司/AI/AI企业涌企业涌4 4、国内百亿级市场规模,合成数据增速最、国内百亿级市场规模,合成数据增速最AIGC数据标注四变化!#需求变化:与业场景强相关,高质量数据需求长期且持续模型时代的到来,正加速推动智能开发从以模型为中朝着以数据为中的向转变。质量数据服务需求贯穿模型全

9、命周期。前模型技术路径已经完整清晰,训练流程主要分为三个阶段:预训练模型监督微调SFT强化学习RLHF次预训练*实际训练过程中,部分垂直领域大模型需用小规模语料进行二次预训练操作数据处理流程设计涉及模型Know-how,直接决定模型性能好坏。尤其后两个阶段需要专业成数据或对数据进改写或排序,最终形成符合类标准(如专业逻辑、核价值观等)质量数据。后随着模型持续地实时更新迭代、朝着多垂直领域落地,尤其通智能、具智能等相关探索,如何快速扩展到更多真实边缘场景,质量场景数据也将成为刚需。除此之外,实时保障输出内容的安全合规,也远以往更受重视。从训练、迭代到应落地,数据服务贯穿模型全命周期。泛认知,模型

10、是以数据为中的产物。数据数量和质量很程度决定着模型能的上限。n 以模型为中:迭代模型,数据相对固定。n 以数据为中:关注数据本,模型成为了数据的容器。企业端客需要期且持续的数据服务,产业链上下游供应关系远以往更为紧密和耦合。(图源:OpenAI官)(图源:Data-centric AI:Perspectives and Challenges)处理流程侧变化:标准从客观到主观,学历多领域成才硬指标传统数据标注模型数据标注领域划分按不同领域或任务划分按不同阶段划分具体实操拉框、描点、转写等操作排序、改写、成等操作标注要求偏客观偏主观评价指标准确率+效率难以对标准解决案具/平台标注+类质检专业培训、

11、定期开会对等举措才要求专科为主本科以上,多领域专业才标注按职能划分标注员、质检员、管理员按阶段划分AI训练师、模型精调师、指令程师、红队测试军团等。覆盖区域主要集中在三四线城市重新打散例如,百度在海专为模型建设的数据标注基地,本科例100%,培训专业才已达1000。未来五年,数据标注相关专业才缺将达百万量级。数据标注从劳动密集朝着知识密集型转变。业务变化:合成数据成新衍赛道,潜在市场空间巨合成数据的优势&特点1、降本增效降低数据获取成本,成数据带质量标注,缓解“数据荒”问题。2、数据可定制应可扩展性强,灵活度,可覆盖更多边缘、尾场景。3、隐私安全天然规避掉数据隐私安全合规的问题。数据增强动驾驶

12、机器融物医药业模型验证可解释AI具智能AR/VR应场景企业案例群核科技Coohom Cloud(群核云)作为前为数不多提供室内场景数据服务的代表商,能针对不同应场景合成2D、3D数据集,客覆盖全球,服务多家海内外科技巨头公司,并于英特尔在产研等开源性项上进深度合作。所谓合成数据,即是AI成数据真实产,能够替代真实数据来训练、测试和验证模型。前主要在动驾驶、机器、物医药等领域应。英伟达Meta亚逊等全球科技巨头均有相关布局(投资、收购等)。OpenAI CEO Sam Altman曾放:未来所有数据都将变成合成数据。量位智库预计,合成数据将成为未来增速最快赛道,年增率可达45%。(图源:官)供应

13、链变化:重新洗牌,模型公司/AI企业涌硬件硬件/云服务商、资源商云服务商、资源商基础数据服务提供商基础数据服务提供商数据需求数据需求(AI企业、传统企业、政企机构、科研机构等)百度智能云引擎阿云华为云腾讯云综合招聘平台专业数据服务提供商模型公司/AI企业中团队群核科技海天瑞声云测数据星尘数据曼孚科技标科技猫数据倍赛科技整数智能晴数智慧数据堂博登智能37度数据景联科技科乐园百度智能云引擎商汤科技京东阿云毫末智模型公司/AI企业建数据处理管线,对外输出模型数据解决案,传统产业链重新洗牌。部分商还具备云服务能,同数据服务打包输出,更易建起客之间的碑和信任,具备竞争优势。京东云澳鹏中国恺望数据卓印智能

14、未有科技云数据朗势科技柏川数据冰数据AIGC数据标注三影响因素!$三影响因素:以技术+场景聚合的轮效应数据标注作为AI底层服务,最本质是为客降本增效。持续迭代技术能的企业将有机会脱颖出,包括不限于以下点:n 数据闭环具链的智能化平n 对模型/算法Know-how的理解n 数据程化能、数据基础设施建设n 业Know-how*质量场景数据*能够根据客需求,快速找到并利与场景最为贴合的资源。n 数据标注仍具备轮效应;n 新创业公司局槛进步提;n 专业数据服务商更多机会将在垂类场景,帮助企业完成私有化部署;n 对外输出数据服务的模型公司/AI企业也存在竞争优势。业务量增业务量增获客容易获客容易获得碑渠

15、道+AIGC数据处理能越强获客越容易获客越容易标注经验标注经验越丰富越丰富可扩展性灵活性更强获得碑技术+场景看技术能看技术能看场景资源看场景资源三看轮效应三看轮效应场景专业才(领域专家、深度等)传统数据标注轮AIGC赋能数据标注轮产业竞争格局/市场规模!%市场竞争格局数据标注业传统依靠渠道、等形成的低成本竞争优势将被重塑,数据需求将更看重数据质量、场景多样性和可扩展性。基于以上原因,量位智库将从数据基础设施、场景资源两个来分析前的业内玩家分布及现状。数据基础设施质量场景资源大模型相关数据解决方案大模型数据资源/标注团队我国数据标注业企业竞争格局我国数据标注业企业竞争格局代表公司:海天瑞声数据堂

16、澳鹏中国晴数智慧未有科技37度数据景联科技包括中众包团队,模型/应层公司建数据管线等第象限:有技术有场景的明星公司第象限:有技术有场景的明星公司该象限存在两种情况:第种是模型层公司本有模型技术范式以及场景落地经验积累,可快速输出数据解决案,与云服务打包输出建信任;第种则是主要以技术驱动的明星企业,部分拥有数据闭环具链,再结合年来业经验,在模型浪潮下易受到企业睐。第四象限:场景壁垒更为深厚的业玩家第四象限:场景壁垒更为深厚的业玩家该象限着更为深厚的业数据壁垒,可为下游提供质量数据集或拥有模型数据标注团队,以海天瑞声为例,不仅是LIama2的唯中国伙伴,还发布超规模中多轮对话数据集DOTS-NLP

17、-216,合作企业超810家,覆盖全球近200个主要语种及,有近20年业深耕。第象限:有强技术撑的创业新势第象限:有强技术撑的创业新势该象限主要聚焦在近两年创的创业公司,主要以动驾驶场景作为切点,再覆盖到AIGC及其他领域。他们饱受资本市场认可,以恺望数据为例,年半时间就是完成了三轮融资。1324代表公司整数智能恺望数据柏川数据博登智能卓印智能代表公司:百度群核科技星尘数据云测数据猫数据曼孚科技倍赛科技重新洗牌(2023-2025年)标注(2017年前)平台/具标注(2017-2022年)知识密集(2025年后)以训练任务、算法模型为导向;简单图像标注为主。以动驾驶为代表的场景爆发;标注法满数

18、据需求,动化标注兴起;量AI数据初创公司开始涌现。数据质量驱动;产业链重新洗牌,更多企业参与数据标注,供应合作关系紧密;创业槛提。机协同关系进步耦合,更多承担关键决策;市场竞争格局趋于稳定。国内基础数据服务百亿市场规模n【标注】关键节点:2007年,李团队启动ImageNet,借助亚逊众包平台完成图像分类和标注来训练机器学习算法。数据标注从此拉开序幕。n【平台/具标注】关键节点:2017年,以数据驱动的深度学习成为业共识,动驾驶爆发,国内外初创公司涌现,数据标注迎来庞的市场需求。n【重新洗牌】关键节点:2023年,以ChatGPT为代表的模型涌现,更质量、专业化的数据标注成为刚需。n【知识密集

19、】关键节点:垂直模型落地加速,数据处理范式、标准基本确定。未来机器将满部分标注需求,将承担关键决策任务。需求推算:作为AI底层基础服务,始终依托于智能的发展,约占智能市场份额10%左右。前模型垂直领域落地仍处于探索阶段。典型样本:海天瑞声市占率达12.9%,上半年营收去年同期增翻番。国内国内AIAI基础数据服务市场规模基础数据服务市场规模单位:亿元0501001502002503003502023E2028E2030E数据标注代表玩家案例集!&百度智能云百度智能云数据众包,依托百度10余年AI数据经验、产品技术能和国内产值规模领先的单体数据标注基地,具备数据“采、标、存、管、训”体化的服务能,

20、根据特定领域、特定场景的客需求与委托,可提供数据采集、标注、加等处理服务,为客交付标准化、结构化的服务成果。当前,百度智能云升级模型数据服务能,在海市建设全国个专业模型数据标注基地,专业模型数据标注师达数百,员本科率达100%。模型能评估体系评估流程与具Copilot辅助评估员定向募集与准盲评、拟合多轮审验洞察与优化可视报表与案例分析优化提案与服务持应能问答创作对话代码基础语处理通能指令约束满上下记忆跨语处理学习能SFTIn-Context-Learning专业公正效模型评估服务:全评价应表现,洞察短板,牵引优化类反馈标注服务交付:代表类偏好的打分排序数据模型数据标注产线模型数据产Copilo

21、t赋能数据接资源调度数据分发数据标注数据交付质量审核规则增强学习动分类智能标注动质检+模型标注服务:员、具、质控、研发多管下,保证质效指令数据标注服务交付:输提和输出的质量监督数据运营能专业化数据咨询+安全标注案标注资源各领域众包专家+专职基地群核科技Coohom Cloud(群核云)是群核科技(酷家乐)推出的,向室内智能体认知和图形智能的AI训练合成数据平台。基于真实三维场景数据资源以及AIGC技术的驱动,提供丰富的2D/3D数据集,针对智能机器、智能、元宇宙、智能房产、动驾驶等领域,为AI模型以及仿真器研究提供丰富的训练资源,让智能体更智能。应产品室外机导航机器机器厨房机械臂清洁机器态兼容

22、仿软件:Isaac Sim、UE、Gazebo、Unity 等数据格式:USD/UE/SDF/OBJ/HM3D/PCD/COCO/VOC/NYU40标签/定义超性价成本降低10倍场景确定后,数据集规模越,单图成本越低效率提升10倍GPU集群并发渲染,可合成20w组数据/体验提升10倍可视化交互具,实现所即所得质量提升10倍像素级精准标注合作成功案例与伙伴论n InteriorNet BMVC 2018n Structured3D ECCV 2020n MINERVAS CGF 2022校&企业nnn 英特尔 科沃斯 追觅 美的 等业智能机器智能元宇宙智能房产动驾驶技术应数字孪视觉感知三维重建内

23、容成决策与控制SLAM解决案提供以虚拟仿真合成数据集为中的站式服务成本数字化优劣对真实数据仿真数据为主成本采集耗时久/标注错误多成本昂/侵犯隐私:次性数据集+项制算为主成本低算为主成本低复杂场景标注成本低/持难度采集完美实验/格式统/多样性丰富有:复性数据集有:复性数据集+基于任务基于任务的灵活修改的灵活修改数据集作为AI训练的核要素,其规模和质量与算法效果,效率密切相关3DMAXMAYASketchUpREVITUNREALUnityBlenderOmniverse海量素材库3333亿亿渲染图 均成4040万万套设计案2 2.7 7亿亿个3D家居商空商品模型,字典级标签体系3D数据格式转换数

24、据增强引擎场景创作与增强虚拟仿真世界KoolAI渲染引擎AI引擎交互引擎规则引擎(质检)分布式云计算服务器集群CAD空间设计家装设计具商空设计具全景设计具智能设计格快搭具CAE仿真模拟照明仿真声学仿真WiFi仿真流体学仿真机器物理仿真基础设施星尘星尘COSMOCOSMO模型数据字塔解决案模型数据字塔解决案核产品:核产品:RosettaRosetta平台平台3.03.0星尘数据模型业应业模型平台具服务基础数据服务模型评测服务医疗问诊写作助智能客服法律助融助辅助编程辅助设计医疗模型传媒模型法律模型融模型教育模型数据标注平台数据管理系统知识库问答管理系统模型管理系统数据采集数据存储数据清洗数据清洗数

25、据增强数据审核数据安全数据分析数据管理动化评测评测评测报告评测榜单3 3层:企业私有化部署数据层:企业私有化部署数据2 2层:专有能数据层:专有能数据1 1层:通能数据层:通能数据0 0层:公共数据层:公共数据四层数据结构,加速语模型构建可持万以上同时在线标注,数据年处理量过亿,可提供先进的AI算法辅助标注具和项管理具,可持图像、点云、本、语、多模态等各类型100+种主流采集和标注场景,前平台动化平达到60%以上,数据质量达到99.9%。星尘数据成于2017年5,2023年1宣布完成5000万A轮融资。通过动化标注技术、数据策略专家服务和数据闭环系统,服务动驾驶(50+头部客)、模型、智能家居

26、、智慧城市、智能机器、智慧医疗、智慧教育、智能零售、智能遥感、智慧融等众多数据场景。持续预训练持续预训练下游任务微调下游任务微调灰度发布联调灰度发布联调垂直业知识机协作优化基准评测定向垂直场景的数据服务能场景化数据采集能持续订阅服务能基于数据要求清洗分类能基于下游任务微调的机耦合标注能多轮对话图排序4D叠帧OCR预识别视频转写Prompt编写章判断基于定向垂直领域员测试特定领域专家池场景化服务能系统集成持特定数据回流处理适于新代AI程化数据处理平台向垂直业模型向垂直业模型AIAI数据解决案数据解决案云测数据云测数据是Testin云测旗下AI训练数据服务品牌,以质量、场景化的AI训练数据服务为基

27、础,持续为智能驾驶、智慧城市、智能家居、智慧融等众多领域提供通数据集、数据标注平台&数据管理具、数据采集/数据标注等服务。适于新代AI程化数据处理作台数据回流数据推送数据池数据推送功能模块数据标签数据可视化版本管理数据统计数据清洗数据标注数据质检数据推送任务创建*通过标准API接口与其他业务集成处理数据应待处理数据猫数据猫数据成于2014年,专业提供动驾驶、计算机视觉、智能语、然语理解数据采集标注服务,具备数据标注、数据采集、内容审核等能。针对AIGC类业务,猫数据2016年推出标注平台1.0版本,前已执1000+项,标注2000+。点云例:AutopilotGPT是基于Transformer

28、的百亿参数模型,可识别图、点云类型。持多传感器数据类型,可进标检测、标追踪、标分割、驶区域识别。只需上传图(通格式均可)、点云pcd格式,就可动识别结果。AIGC数据标注流程质量保障:引模型,交叉验证对评测结果。评测数据标注员A输出结果标注员B输出结果模型输出结果结果是否致输出结果是否真实数据仿真数据动标注模型DAM模块标注结果数据集识别能对数据集A数据集B数据集CDAMDAMDAMwithoutDAMwithoutDAMwithoutDAM动驾驶模型动驾驶模型AutopilotGPTAutopilotGPTAutopilotGPT意图恺望数据恺望数据成于2022年2,团队成员来字节跳动、阿巴

29、巴、Uber、Momenta、奔驰等头部企业。公司致于打造AI数据动化平台,并为企、动驾驶公司以及智能等跨产业企业提供站式AI数据解决案,前客数已超百余家。提供合规数据、质量数据、效率的稳定规模数据。n“3D辅助标注”具平台:可在2D中标记后反投影到3D中找到标注物。n“4D-BEV数据拼接与标注”具链:可持数据流并作业、可同时持200万同时标注,前已在企应。n“5KW点云”具平台:可在8G内存电脑上运的5千万点云数据。n“6数据态闭环解决案”:供应商态、业态、知识库态、具态、前沿技术态、专家科研态。通过校合作储备及培训有批校学标注员,通过共建产融实训基地的形式为业迅速提供量稳定且优质的数据标

30、注服务,同时运AI具辅助管理、基地化管理、专业化级才培养等式,获得最优和最优效的平衡,降本增效表现领先业。前恺望数据学院已培训50所学校,培养超过1500名学为恺望提供数据标注服务,计划今年年底将超过2000规模。n2022年9,千万级天使轮战略融资,投资包括韬资本、三集团和溪天使汇,于加速建设数据快充站以及团队完善,持续为汽产业的智能化,提供数字化、站式的数据解决案。n2023年4,新轮战略融资,投资为Plug and Play、韬资本,探索出海路径,并继续投到产品迭代升级当中。n2023年9,数千万元Pre-A轮融资,由亚盛投资领投,清智资本跟投。本轮融资资将于动化产线和具链的持续研发和迭代。核能创新技术与平台模式动化AI数据产线效率运营融资历程恺望数据学院“3456”数据服务具包我国值得关注的数据标注业代表机构TOP20基于数据基础设施建设、模型/AI技术理解以及业深耕和其他因素,量位智库评选我国值得关注的20家数据标注机构。百度智能云海天瑞声云测数据星尘数据猫数据群核科技恺望数据曼孚科技晴数智慧倍赛科技引擎整数智能商汤科技博登智能标科技37度数据数据堂未有科技景联科技澳鹏中国*排名不分先后

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 研究报告 > 其他

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服