收藏 分销(赏)

2021人工智能竞赛白皮书:1000场竞赛的深度分析.docx

上传人:二*** 文档编号:4566421 上传时间:2024-09-30 格式:DOCX 页数:100 大小:10MB
下载 相关 举报
2021人工智能竞赛白皮书:1000场竞赛的深度分析.docx_第1页
第1页 / 共100页
亲,该文档总共100页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、2021人工智能竞赛白皮书1000场竞赛的深度分析图1-3 2006-2020年CASP比赛中最正确蛋白折叠预测系统的评分表现ALPHAFOLD图片来源:DeepMind Blog第二章人工智能竞赛是敏捷的数据探索与 应用创新方式一、数字化转型本钱高昂,暗藏诸多风险二、整合关键创新要素,快速实验创新应用三、低耗高效可持续,生态化创新动能不断人工智能竞赛是敏捷的数据探索与应用创新方式 11作为赛事主办方,通过人工智能竞赛可以提升数据资产的利用价值、挖掘高质量数据人才、征选优质的人工智能应用方案、以及构建自 身的开放创新的数字化生态,在这些方面人工智能竞赛都有着得天独厚的优势,可以把它看作为是一种

2、敏捷的价值探索与应用创新的手 段。-、数字化转型本钱高昂,暗藏诸多风险数字化创新需要不同的技能、工作实践、组织模式甚至是文化。要让一个为结构化的、有序的、面向流程而设计的组织,变成为生态系统、 适应、学习和实验设计的组织,是非常困难的。Gartner研究副总裁Marcus Blosch推进数据科学工程每一环节都面临着诸多难题数据科学工程的推动需要经历一系列艰难全面部署I应用验证口 |环节,但凡有一环节出现迟滞或脱节,都有 可能导致重大损失,或在瞬息万变的数字化 时代丧失创新开展的先机。提出创意算法开发形成方案全面部署本钱高模型时效性强,优势很 快丧失回报周期长效果与预期有出入测评方式不科学-应

3、用效果反响周期长数据储藏缺乏、质量差-技术实现难度大创意盲区创新动力缺乏-创意是实情割裂创意天马行空无法收敛落地难度大落地本钱高引领企业进行技术落地场景的创新探索数据来源:和鲸科技(heywhale )经调研统计得出。引用请注明出处。兼具性价比、敏捷性、持续性的人工智能竞赛带来数字化价值指数级增长的飞轮效应/性战出逐聂任一万即可收耗寿业的敛箍科学、 股铐定持/制新曲E舞与琐,制下,率远高于长崎餐方渐褊E与蹩合与圈酒为可涛嫁的粉术副新应用探索提崇了接球设淞平台竞赛低耗高效可持续,创新探索敏捷化数字化创新方法投入比照酎同需要1G人的管理、宛漫和0C闭队需要JU人的团队送行漫讨研究与投后管港需要1-

4、3人的对接团队评估在一个月左右侬习周期不少干半年技术外包周期不小于1年左右服务器、电脑、计算贲检后管理资源支出办公场地等如走啄霸窥基他鳞糠毅a质隧企业内部资源周提的;!本钱风险将窗妾收网煽外包后成果的延展性对可实现性因果h能会获得评情较好益肩决,案可能会成功捕获优翁的创新方向g粉会获得良好的外起成果询一嶷薇黑颈鳗;嘉舜阙嬲酿新他营舞懒森嫣疑,宏鳏威瑟.品牌号省弼黜卜环境里,赛事主办方往往只需要承当一个业务负责人的角色,与 竞赛运营平台沟通其创新诉求,配合轻量级的付出即能够获得赛 事运营团队和数据科学研发人员的专业服务与支持。工程总少不了反复的试验和排错,传统方式下的每一次试验往往 因投入巨大可

5、能导致决策者投鼠忌器。但籍由人工智能竞赛以更 经济的投入换取更快速的反响,便为多轮连续验证创造了空间, 实现了敏捷的创新。收麴薮字化企北自疆研宾团院a与科技豫司矍立逑略招降关系成立凰除梭播基带数字化创新耗时数据兄赛“最具性赞比的数字化倒新方式需创新成功反响率(),低数字化创新本钱数据来源:和鲸科技(heywhale )制作。引用请注明出处。表21人工智能竞赛对企业的价值总结数据来源:和鲸科技(heywhale )经调研统计得出。引用请注明出处。各类赛事主办方的数字化创新需求与难点通过人工智能竞赛得到了满足诉求诉求BS挖桐潜在技术创新方位和数浜应用域W.明露檄据科学核心能尢政资管理藏裾化、智能促

6、利用数据建设智穗地带构建尸放共赢的数据生态钵系需叁进行数据科学学科建设.平养优秀的弱据科学人才科研成果创新落地保证科研方向的领先性程升数据科学向新应用的核心腕方完善.教学羊美体系实3r教学练内实期提升斛研水平进行科研投式成桌的创新落地H难人才缺乏、研荒落地成水喜、创新动力不殍.成果反情尾挑酸期长、数据纬燧广探索方才发散还田收敛H难人才缺乏、研荒落地成水喜、创新动力不殍.成果反情尾挑酸期长、数据纬燧广探索方才发散还田收敛数祸储藏缺乏、茴差,缺乏功值完整的二具平台和贴近实战的场景来讲行实践、教学及研发方向容易与市场割裂最正确策略最正确策略聚集多方创意、人才、技术,在一个小的函景中防思果学生能在口实

7、的商业数据和应坤加与企业的齐通创仁共辰人工智能竞赛w=ELLGEN(nTO第三章人工智能竞赛帮助促进高校的学科 交叉与产研融合一、促进高校加强学科建设与学科交叉二、推动科研机构加速产研融合与技术开展促进高校加强学科建设与人才培养数据来源:和鲸科技(heywhale )经调研统计得出。引用请注明出处。一、人工智能竞赛是人工智能技术创新 应用开展的重要推动方式, 受到各国政府高度重视二、人工智能竞赛是各地人工智能产业创新开展的重要实现方式三、人工智能竞赛为各行业数字化转型创新持续输出动能第二章人工智能竞赛是敏捷的数据探索与应用创新 方式-、数字化转型本钱高昂,暗藏诸多风险二、整合关键创新要素,快速

8、实验创新应用三、低耗高效可持续,生态化创新动能不断第三章人工智能竞赛帮助促进高校的学科交叉与产 研融合-、促进高校加强学科建设与学科交叉二、推动科研机构加速产研融合与技术开展第四章选手眼中的人工智能竞赛一、为什么参加人工智能竞赛二、希望通过参赛收获三、认为竞赛对自己的意义1 .自我效能感.内部满足感2 .外部报酬第五章组织人工智能竞赛的挑战-、对竞赛复杂性的调研结果.主办方对竞赛有高预期1 .参赛者对竞赛有严要求二、人工智能竞赛的运营复杂度详解1 .数据科学工程管理,支撑赛事成果有效性.保障赛事相关方体验需要面面俱到第六章如何组织一场人工智能竞赛一、人工智能竞赛的关键要素二、人工智能竞赛的必备

9、条件表3-1人工智能竞赛对高校的价值总结数据来源:和鲸科技(heywhale )经调研统计得出。引用请注明出处。推动科研机构加速产研融合与技术开展一基础研究:为技术创造创造理论前提的应用研究:在理论基础上针对特定目标进行研究一开发研究:将基础研究和应用研究成果投入生产实践 表32人工智能竞赛对科研机构的价值总结数据来源:和鲸科技(heywhale )经调研统计得出。引用请注明出处。数据来源:和鲸科技(heywhale )经调研统计得出。引用请注明出处。AAJTllnALzgELLGmNnEZr Illi f”弟四早选手眼中的人工智能竞赛一、为什么参加人工智能竞赛二、希望通过参赛收获三、认为竞赛

10、对自己的意义”片不更妥上醴小矍褒 T 土樱堇绘 昨话堇聚数据来源:和鲸科技(heywhale )经调研统计得出。引用请注明出处。2406百潮航索人脉拓屣交流学习=尸明一天菅心理满足燧实力证明 实验、复现学术成果工作6习专/内至机会技gaibw、练比接触数抵黑积莫在行业中应建经验赛事奖佥=产明关w心理满足飕实力避明 实验、复现学术成果 工作习推荐,内寿会 技大国.习、练习 接触数据累积技术在行业U应用的经验 赛事奖佥人脉拓屣交访学习 H产明荣黄心理深足球、实力让印 实裳、fe现学术成果 -工作京习推荐/为转会 技术学习、练习 接卷据 -累卷术在行业n应用的嬲 赛事奖金数据来源:和鲸科技(heyw

11、hale )经调研统计得出。引用请注明出处。1.自我效能感2.内部满足感3.外部报酬*AJTFn*L NMfflLLGENnM第五章组织人工智能竞赛的挑战一、对竞赛复杂性的调研结果二、人工智能竞赛的运营复杂度详解2018 Kinetics视频行为分类比赛数据失误导致重大竞赛事故扫描上方二维码 了解更多赛事详情2018年,Kinetics视频行为分类比赛遭遇了赛事组织的屡次事故。起因在于赛事运营方发布的训练集数据中错误地混 入了测试集数据。一周后,赛事运营方重新发布的数据集再度出现重大疏忽一所有数据标签被泄漏,意味着能够验证 模型效果的答案遭到提前揭示,选手无须花费精力训练可靠的模型。参赛选手向

12、赛事运营方发送邮件反响数据集的问题, 也未得到及时的回应和解决。赛事的公平性和参赛团队的积极性遭到了破坏,同时引起了舆论争议,赛事被迫延期。1 .主办方对竞赛有高预期人工智能竞赛还是需要依赖专业的办赛平台,因为人工智能竞赛筹办区别于普通的活动组织,企业缺乏专业的的赛事运营人 员和赛题设计人员。上海电信互联网部产品技术研发中心副经理葛正荣术业有专攻,优秀的企业更懂得互补+合作:共赢的价值。同盾除了不断锻造自身技术实力外,也积极推行在产学研领域的 企业价值,创办专业的赛事、选拔潜在的专业科技人才,这需要专业的赛事平台参与其中,从学术性与商业性相融合的赛题 设计、到赛制中的数据质量与敏感把控,以及兼

13、顾数据平安与赛题可解性,都需要更加专业的、垂直的竞赛平台来合作共建。 同时,专业的竞赛平台拥有过硬的技术实力,可以勘验参赛选手的成果。在整个赛事的宣传节奏把控上,也能够创造出丰富 的内容及足够触到达目标群体的有效渠道。同盾大学运营人员娜娜2 .参赛者对竞赛有严要求掇鸡工巧隼至今窸与嗓察道欺疆泰软翱s摩竞赛新人 谯手Z羽竞嘉常客 ”一G黄金玩冢WJ Top淄光之茴K白锹玩宸/J TOfp-或i物/间青铜玩家 乜,TOIP的共之商克寮新久竟衰嚣密M契老手那么题、数据、测评的文字描述充分、到位、止确6.0赛题课匙科学正确、合理可解7.0数笔与赛题异标匹配6.0自湖测评方法科学合理9.0竞赛平台/主办

14、方运营专:匕响应与解答及时11.08.0具有公平的费制6.010.0自动测评反响报缱信息清嘲明了7.07.0自动测评即闪出分、运行较快8.0配督蜉用的在燃.天发_L具、够耳的石资源算力与在线储存9.08.012.0有,领减权域专家的.主观:平亩与点评10.014.015.0赛题难度属技术前沿或行业立月前沿11.09.0数党质量艮好12.010.07.0仅需提交模型文生而非答案文件13.015.013.0激励(刍括奖金、工作机会等客钱激励)丰属14.012.0数条其实15.013.014.0主办忘知名度大16.016.011.0数据来源:和鲸科技(heywhale )经调研统计得出。引用请注明出

15、处。394041434545474951515354555657586367737880808081818283848585878889911 .贴合实际场景的需求分析和赛题设计.审慎的数据筹备与质量管控2 .科学有效的竞赛成果评价机制.平衡本钱和效率的计算资源管理与配给三、人工智能竞赛的八大保障.数据脱敏、防泄漏等平安保障1 .公平公正严防作弊的竞赛环境.参赛选手享有流畅的闭环体验2 .云端竞赛环境突破本地配置局限.数据科学平台与赛事管理系统的应用3 .即时高效的赛程运营与服务响应.多种针对性的辅助活动保障4 .数据科学人才社区提供人才保障第七章覆盖多领域的人工智能赛事案例赛事导航-、政府赛

16、事二、科研赛事三、产业赛事四、高校赛事第八章人工智能竞赛生态幅员与竞赛平台和鲸社区阿里云天池华为云大赛平台DataFountainDataCastleKaggle (国外)第九章人工智能竞赛的五大趋势与展望一、奖金投入意愿攀升,参与规模稳增二、数据红利可期,数据投入姿态积极三、教育投入与日俱增,数据人才能力跃升四、应用场景不断扩散标杆行业优势初显五、商业数字化趋势渐强,有赖技术创新落地六、人工智能竞赛驱动的创新生态展望附录主办忘知名度大主办忘知名度大看铜乐嬴白银嬴冢赞会菊霸16.0费题、数理测评的文交描述充分、到勺、止确 自动测评即四出分、运行较怏 具有公平的赛制1.05.03.0 402.0

17、9.03.07.0赛题课题科学正确.、合理可解4.010.01.0自动测评方法科学合理5.02.010.0自劭测评反读报禁信息港阳明了6.04.09.0皴据与赛题三标匹配7.01.05.0竞赛平台/主办方运营专业、响应与解答及时8.08.011.0仅需提交模型文化而非答案文生9.015.015.0有,领耍权威专家的寺观怦亩与点评10.013.016.0配甯灯用的在线Ah发工具、够;1的云资源算力与在线储存11.03.013.0赛题解展属技术前沿或行业应月前沿12.06.06.0数变质量良好13.011.07.0激励(刍括奖金、工作机会等磨款激励)丰属14.012.02.0数至其实15.014.

18、014.016.012.0数据来源:和鲸科技(heywhale )经调研统计得出。引用请注明出处。数据来源:和鲸科技(heywhale )经调研统计得出。引用请注明出处。1.数据科学工程管理,支撑赛事成果有效性组织人工智能竞赛的挑战 31图55开放性方案题与算法题的参与规模与提交数量比照800如一二-1 一一 次0数据来源:和鲸科技(heywhale )经调研统计得出。引用请注明出处。算法模型类赛题相比开放性方案赛,有更加稳定的表现,其 设计过程也存在着诸多考验:在需求分析结果和赛事数据条 件的基础上,在本钱限制、计算资源、数据平安的约束条件下, 最终的赛题需要平衡可解性、前沿性和创新性等多方

19、面的要b.数据管理赛题设计需要兼顾是否可解、是否具备业务应用价值或前沿技术 探索价值等多方面的因素,而这皆以“数据”为基础。数据层面 有三个重点:数据质量、数据集切分、数据平安,任何一点的疏 漏都会导致潜力巨大的赛题难以兑现价值。(1)数据质量数据质量问题可能发生在数据收集、治理、加工和采样的各个阶段, 数据质量低下表现在字段缺失、信息过时或信息不准确等方面。 在人工智能竞赛的时间要求下,数据质量低下容易导致选手分散 过多精力进行数据的二次处理,限制了算法所能到达效果的天花 板。质量低下的数据难以反映实际生产生活中的真实情况,最终影响 模型成果在业务场景的表现。另外一种常见的数据质量问题是信

20、息交互泄漏(Data Leakage),如数据的某些属性、特征、字段 已潜在暴露了需要通过算法模型进行预测的信息结果。求。算法赛题需要以清晰明确的表达方式,帮助参赛选手充分理解 其考察重点和开发目标,同时配套科学的测评方法对赛事效果 进行合理评价。一个易懂的例子是,一道赛题要求参赛者识别图片中的动物是否 为鸟类,而在进行数据采样时,所有鸟类的图片ID均以1开头, 而所有非鸟类的图片ID均以2开头,参赛选手通过图片ID字段 即能判断结果,通过取巧的模型也有不俗的分数表现,但没有业 务价值。利用信息交互泄漏漏洞而取得虚高分数的行为,也会破 坏竞赛的专业性、公平性,激发负面的评价。(2 )数据集切分

21、数据集切分是模型构建的重要前置工作。在人工智能竞赛中,数 据需要被切分为训练集和测试集两局部。其中训练集供参赛者用 以搭建、训练模型,测试集那么用以检验其模型的性能水平。举例 来说,在数据量总体有限的情况下,假设测试集的数据量过少,那么 无法客观反响数据全貌。如果在切分数据集时未能控制好数据分布,也会影响模型实际表 现的上限,容易出现模型在某个数据集上过拟合的情况进而影皴据管II需要it顾 令蜃面蓊通点搬据赢晶锻据平安驯氨黑测该集播抵检洌模型训靠缓型性能水平薮据脱敏技术性陡泄露数据能支撑赛题解答,保障算法效果 冼手无须泡卷大量时值做二次清游防止信息交互泄漏0窘核点且公也具有一定的镶蔽性控制切分

22、比例和字段 分布说敏不影响模型训练效果和在实际 :场景中的应用价值 .脱敏操作的可行性数据来源:和鲸科技(heywhale )经调研统计得出。引用请注明出处。2 .保障赛事相关方体验需要面面俱到数据来源:和鲸科技(heywhale )经调研统计得出。引用请注明出处。组织人工智能竞赛的挑战 34C.工具支撑人工智能竞赛的组织具有较高的技术难度,从最初要求顺畅地跑 通竞赛全流程,到能够进行云端协同开发,再到保障日益敏感的 数据平安,越来越多的问题有赖于产品工具的功能保障。(1)竞赛工具1.0时代人工智能竞赛系统人工智能竞赛系统是人工智能竞赛最基础的工具系统,为了实现 对人工智能竞赛全生命周期的管理

23、。作为连接参赛选手、赛事运 营管理者和赛事主办方的线上桥梁,其功能覆盖竞赛页面信息配 置、竞赛任务发布、评审系统设置和参赛成果统计等方面,目标 是提高赛事运营管理者工作效率,便于赛事主办方了解赛事进程。人工智能竞赛的公平性在很大程度上有赖于评审环节是否妥当, 而评审又涉及复杂的算法和规那么:既要保障不同复杂程度的客观 评审规那么的自动化执行,又要对主观评审的分工权重与规那么做出 合理呈现,也能对屡次提交和赛程各阶段的结果实现高效处理和 统计,及时反响报错信息或得分情况,可以说评审系统是整个竞 赛系统开发的难点和重点。图58竞赛工具1.0的功能要求数据来源:和鲸科技(heywhale )经调研统

24、计得出。引用请注明出处。组织人工智能竞赛的挑战 35(2)竞赛工具2.0时代人工智能竞赛系统+数据科学协同 平台+云计算在企业上云和协同开发的趋势下,竞赛工具2.0时代迎来了数据 科学协同平台的整合。通过实现在云端协作进行数据分析和算法 建模等工作,让人工智能竞赛真正贴近业界实际的数据科学研发 场景。目前全球范围内接受度较高的工具包括国外的Jupyter Notebook、Kaggle KernelsGoogle Colab,以及国内的 KLab。 在人工智能竞赛环境中需要至少满足三个方面的要求:提升效率, 令参赛选手更加专注于开发本身;加强协同,为参赛团队打造交 互式体验;弹性调度云计算资源

25、降低算力应用门槛与本钱的同时, 也让比赛更公平更有效。图59竞赛工具2.0的功能要求云资重(A巡邑.间津 云、.鹤土云)数据来源:和鲸科技(heywhale )经调研统计得出。引用请注明出处。组织人工智能竞赛的挑战 36(3)竞赛工具3.0时代一一人工智能竞赛系统+数据科学协同 平台+云计算+数据平安在大数据产生巨大社会价值的同时,一次次的数据平安事故也引 发了全社会的担忧。人工智能竞赛作为数据公开应用的大规模尝 试,数据平安的保障更是重中之重。除了采用数据脱敏等传统手 段外,通过竞赛工具的技术功能来保障数据平安也日益受到重视。图5/0竞赛工具3.0的功能要求数据平安屋方案数据来源:和鲸科技(

26、heywhale )经调研统计得出。引用请注明出处。人工智能竞赛各环节的工作内容,展示了数据科学研发的工程项 目所需具备的基础能力。通过数据、云计算、人工智能技术、数 据科学人才的连接人工智能竞赛在帮助赛事主办方探索创新方 向、树立技术驱动的品牌形象同时,也在为其在内部积累数据、治理数据、应用数据提供了全流程的借鉴。在这个过程中,赛事主办方可以充分利用外部优质资源加速实现技术落地的创新探索,同时积累扎实的数据科学核心能力。1-弟八早如何组织一场人工智能竞赛一、人工智能竞赛的关键要素 二、人工智能竞赛的必备条件 三、人工智能竞赛的八大保障社区支持记建久才粘性y史置忠皴翳渗艮Z繇-活践的社又互动促

27、进技术先进;甘.悻的网罗的真寰秦例沉淀评审机制评审机制赛事专区清晰准确地描述赛事重要信息求与业务特征 与刖沿性平衡赛制规划一阶爱却分.因黑温:定,曾勰疥,谨 科学合舞盘霸主颜.窈便捷高效的赛事进程 管理与进展监测黄海靠解算资流数据科学协同工具、在线协作开发,灵活跨云调度,支持千人并 发运为开箱即用的统一环境,无需繁琐的硬件部署 和运城参赛团队队友之间能够实现代码文件的提供、I 评论和协作编辑,更高效地管理工作成果 )即时高效的赛程运营管理与服务响应整合内部资源统筹赛事全程推进双边信息同步与需求响应数据来源:和鲸科技(heywhale )经调研统计得出。引用请注明出处。. .刖三数字科技正逐渐渗

28、透到经济、商业、社会生活方式等方方面面,人们对于数据智能时代的来临充满了期 待。然而,从现阶段的开展来看,我们距离真正的大数据时代仍有距离,各行各业的数字化转型进程未 能如期落地。数据的力量究竟该如何激发?带着这样的疑惑,我们把视角对准了人工智能竞赛这一载体, 以期为行业提供启发。通过全面的调研、分析,我们得到了寻找创新路径和探索最正确实践的总结,形成 这份人工智能竞赛白皮书提供给大家。全球人工智能竞赛已经历了 20余年的探索,其开展起点可追溯至1997年由国际顶级学术会议KDD (Conference on Knowledge Discovery and Data Mining ,知识发现和

29、数据挖掘会议)推出的 KDD Cupo此后,一系列国际顶尖学术会议也陆续牵头组织人工智能竞赛。国际顶会人工智能竞赛往往会积极兼顾市场应用的需求,通过与企业、政府机构合作,聚集当下技术与 数据应用中的难点寻求解决思路,不断缩短科研成果与落地应用之间的距离。创立于2010年的Kaggle 作为目前全球最大的数据科学技术提供社区,更是为人工智能竞赛的平台化发 展奠定了模式化基础, 其合作伙伴除了 Google、Facebook、Airbnb、Yelp等互联网时代诞生的巨头,亦不乏Walmart、 Airbus、Genentech等声名日久的传统行业领头羊。放眼中国市场,人工智能竞赛自2014年萌芽以

30、来,数量每年以翻倍之势增加,主导者不乏权威的科研 机构与高校,亦有来自各行各业的领军企业。身担城市管理与民生重任的政务机构也在“群众创业、万 众创新”的政策驱动下,开始意识到数据的力量,牵头组织了多场大型人工智能竞赛。人工智能竞赛绝不仅仅只是“主办方发布赛题、传播品牌美誉,参赛者参与开发、收获丰厚奖金”的公 关活动。对双方而言,人工智能竞赛已经成为了数字化转型的“云端实验室”,很多领先机构已经把人 工智能竞赛当作是他们最正确的“数字化练兵场”、数字化人才挖掘器”和“数字化生态构建器“。主 办方紧跟数据智能的开展趋势,通过挖掘数据价值的场景和树立“数据+算力+人才+算法”的价值闭 环,积累数据科

31、学研发的核心能力;参赛选手能够积累如何在真实业务场景中应用先进技术的实际经验, 在与众多高手的交流切磋中不断成长。基于这一现状意义,在中国人工智能产业开展联盟(AIIA )的指导下,和鲸科技携旗下中国领先的第三 方人工智能竞赛平台”和鲸社区(Heywhale. com )”,联合中国信息通信研究院数据研究中心、北京邮 电大学人工智能学院、人工智能开源社区“DataWhale.club”,共同发布2021人工智能竞赛白皮书, 分析全球市场人工智能竞赛开展趋势,提出对人工智能竞赛推动前沿技术落地的创新价值思考,并在业 界开源优质人工智能竞赛运营方法论与最正确实践。L贴合实际场景的需求分析和赛题设计

32、肉都缴鎏外部翻梃肉部皴程数据纬度网缸粉丝数据&粉丝结构用红历史推文内容&评论/转发情况焚化数据史广告筹划&点信需消费者特征洞察网红特征洞察网红影响力洞察广告筹划有效性促销活动有效性縻身鸵区TT县逐醒旷般i苴生獭蟋跳更 予尹书广信随同党至三儒福多维度建萌肖费者,进行精准的营销投放,通过有效转化,实现产品销量提升筹划广告标题”黑布时间与频率筹划大与面向人群堤升消圈者转化、留抵数据来源:和鲸科技(heywhale )经调研统计得出。引用请注明出处。案例特写:中国银联高校极客挑战赛赛题拟定充分贴合实际业务价值周赛事主办方:中国银联于2019年6-9月举办了高校极客挑战赛,希望为2020年的校园招聘提前

33、网罗优秀的数据科学人才,同时与 高校进行技术碰撞。因此,赛题的拟定需要与银联的业务特征高度契合。最终,竞赛运营平台设计的赛题要求参赛选手 基于脱敏和采样后的约40,000条用户消费行为数据,预测在未来的一段时间内,用户对于某产品是否会有购买和收藏 的行为。相较于大量结构化数据支撑的赛题,这场竞赛着重考察了选手在业务冷启动时对于小数据量的适应和调整能力, 而这也符合银联大量新生业务在数据量积累缺乏的条件下仍赖于通过数据建模提供决策支撑的真实情况。2.审慎的数据筹备与质量管控案例特写:同盾科技声纹识别建模大赛数据处理充分考量竞赛成果未来应用条件置赛事主办方:司盾科技同盾科技希望籍由人工智能竞赛引领

34、语音智能识别领域的工业级算法创新,要求参赛选手开发算法模型来判断任意两段 语音出自同一说话人的概率,从而加速声纹识别在金融风控方向的技术落地。考虑到声纹识别模型未来在目标场景中的 应用存在各类约束条件,如模型要能在各性别、口音中都能发挥平衡效果,模型对长句和短句均具有较快的识别效果等, 因此在为赛题筹备数据时就应予以提前考虑,并对数据做出相应的加工处理。声纹识别模型未来应用时的约束条件场景噪音说话人的方言、性别影响场景噪音说话人的方言、性别影响在局部音频上人工叠加背景场景噪声在测试集中等分了方言、性别的语音数据对模型在说话人长短不一、内容不一的语音对上都能有较 好表现1.做文本无关(text-

35、independent)的说话人比对2,将有限的音频在兼顾等分的条件下进行合理的人工拼 剪,形成数千对长短不一的数据,并与短句音频进行比 对额外补充公开数据来扩充数据量级扫描上方二维码 了解更多赛事详情通常深度学习模型在越大规模的数据集上的效果会明显 优于经典模型,因此需通过更大规模的数据来再训练, 以增强模型在优质数据的充分支撑下,260支参赛团队最终呈交出了出人意料的优质成果。其中,冠军团队实现了一种端到端的声 纹特征学习模型,EER得分高达0.0011111分(越接近零分意味着模型精确度越高),已经到达甚至超越了声纹识别的 工业级水平,引发了广泛的行业关注。如何组织一场人工智能竞赛 41

36、-首先,采用一系列分析手段来量化判断在不同的切分方式下,-最后,依据该相似度指标切分数据集,邀请专业人士进行测试,训练集和测试集之间的相似度变化;确保切分结果能够保证比赛质量的同时考察模型的泛化性能。在此基础上,结合实际赛题的业务价值、难度定位、效果预估 等多方面因素找到最合适的相似度指标;图63数据集切分示意麴据切分切分内容膜型开发用娜懒!原那么控制好切分比例浜过分相似过拟合,模型无法被验证$3相似度极低模型结论截然不同按指标名分后济滋蜗集,遨靖 专业人I 粉f泞娜噂切分空-1断不同二$ 流程条E海/联世汨橐.哨参与人员数目居科学家专业测试人员数据来源:和鲸科技(heywhale.sm )经

37、调研统计得出。引用请注明出处。3.科学有效的竞赛成果评价机制设计科学的评价机制,能够有效评估参赛选手的真实水平和竞赛 成果的价值,帮助赛事主办方对于人工智能竞赛的意义有更加直 观的感受,也能为数据科学研发的迭代指明方向。从参赛选手的 视角出发,在其付出和能力得到客观评价的同时,更重要的是能 够在清晰合理的评价反响引导下更加高效地优化模型性能。(1)评审机制评审机制包括评审类型、评审次数和评审反响。其中,评审类型包括客观测评和主观评审两大类:-客观测评是通过测评脚本进行的自动化评审,评价的是竞赛成果模型在一些既定维度上的客观表现效果;主观评审那么会兼顾考查竞赛成果模型的实现本钱、在时间和空 间上

38、的运行复杂程度、算法思路的创新性等,甚至包括参赛选 手最终在决赛路演中是否清晰地传达了自己的解题思路等。为了保障评审机制的平衡性,需要对评审次数和评审反响内容进 行精细化设计。具体来说,过多的评审次数可能引发刷分现象, 过少的评审次数据又限制了参赛选手通过获得反响来进行成果优 化的机会,因此在两相之间需要有所平衡。评审反响是指参赛选手提交成果,接受评审后所能获得的反响信 息。比方在客观测评后能够看到评审算法所反响的分数,或假设提 交失败,收到报错原因的具体反响等。其中,报错反响的设计尤 为需要周全与具体,其设计要能尽可能同时给到选手全部的提交 报错原因,能提供建设性提示。例如:通过摄像头实时画

39、面识别工人进入施工现场是否佩戴平安帽的算法更着重考察的应是查全率(Recall ),即确保尽可能所有 未佩戴平安帽的目标都能够被检测到并发出告警,宁肯因为错误识别佩戴了平安帽的目标而发出冗余告警,也要杜绝因为遗 漏而导致的平安隐患。无人超市的顾客在前往自助柜台结账时,机器会翻开摄像头检测顾客是否为数据库内记录的有过逃单行为的顾客,如发现疑 似历史逃单客户那么会给工作人员发起提示。在这个过程中,算法需更加着重考察查准率(Precision ),即尽量不错怪顾客, 否那么会给顾客带来不必要的麻烦甚至伤及其名誉。4.平衡本钱和效率的计算资源管理与配给数据来源:和鲸科技(heywhale )经调研统计

40、得出。引用请注明出处。应愿索靠使解附梭)时】6005004003002001002019-10-082019-10-102019-10-122019-10-142019-10-162019-10-182019-10-20数据来源:和鲸科技(heywhale )经调研统计得出。引用请注明出处。AWS.paddlepro-aws-m4.2xlargAWS-LONGWS-p2.xlarg一0 2019-10-06AWS: 124.5 AWS.paddle:17.5 pro-aws-m4.2xlarge:0 jd-p.n1v100.2xlarge:0 AWS-LONG:0AWS-p2.xlarge:0

41、 R-3.6.0:0.数据脱敏、防泄漏等平安保障数据平安屋原理示意传文件传数据X下载数据对外发送邮件数据来源:和鲸科技(heywhale.8m )经调研统计得出。引用请注明出处。案例特写:快手用户兴趣建模大赛数据脱敏保障数据平安的同时缓解数据存储压力扫描上方二维码 了解更多赛事详情画 赛事主办方:内容生产和分发是短视频开展的两大关键要素。在快手,每天都有数以亿计的视频被播放、被上传、被转发,服务器需 要在转瞬间处理海量信息与内容,过多的违规内容会挤压内容生产者的流量,而匹配不精准的内容推荐也是对资源的巨 大浪费。在有限的时间内,仅仅依靠人力显然无法高效完成对视频内容的识别、理解,以及对海量用户的精准推荐。可 以说,人工智能

展开阅读全文
部分上传会员的收益排行 01、路***(¥15400+),02、曲****(¥15300+),
03、wei****016(¥13200+),04、大***流(¥12600+),
05、Fis****915(¥4200+),06、h****i(¥4100+),
07、Q**(¥3400+),08、自******点(¥2400+),
09、h*****x(¥1400+),10、c****e(¥1100+),
11、be*****ha(¥800+),12、13********8(¥800+)。
相似文档                                   自信AI助手自信AI助手
搜索标签

当前位置:首页 > 通信科技 > 人工智能

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2025 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服