1、单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,2020/2/10,#,相关介绍,ALIDATA DISCOVERY,阿里巴巴大数据竞赛,刘晓,中国科学院计算技术研究所,2014.3.21,竞赛机制,数据介绍,评比机制,竞赛机制,阿里巴巴大数据竞赛是阿里巴巴集团主办,在阿里巴巴大数据科研平台,“,天池”,上开展的,基于天猫海量真实用户的访问数据的推荐算法大赛。,竞赛机制,天池,-,大数据研究平台,“平台、金融、数据”,“数据分享平台”,针对当前学术界面临的两个问题,一是缺少有价值的真实的商业数据;二是缺少具有强大功能的计算平台支持复杂的数据处理。,阿里巴巴集
2、团于,2014,年正式推出“天池”平台,“天池”平台基于阿里集团的海量数据离线处理服务,ODPS,,向学术界提供科研数据和开放数据处理服务。,竞赛机制,ODPS,ODPS,(Open Data Processing Service),阿里云开放数据处理服务,是阿里巴巴公司借助阿里云提供的大规模分布式数据处理服务。,ODPS,以,REST API,的形式,支持用户提交类,SQL,的查询语言,对海量数据进行处理。,竞赛机制,赛制安排,赛制安排,竞赛机制,奖项设置:,Season 1,不设奖项,但是会从参赛队伍中选择较优者进入,Season 2,阶段比赛,Season 2,阶段奖项:,一等奖:,1,
3、支队伍,奖金贰拾万 二等奖:,1,支队伍,奖金伍万 三等奖:,1,支队伍,奖金贰万(上述奖项以决赛答辩成绩的最终名次决定),月星星奖:每期月度榜单排名,Top10,的参赛队成员都将获得搭载云,OS,的手机一部(具体手机型号在公布榜单时公布),优胜奖:决赛全国赛排名,Top50,的参赛队成员直接进入阿里巴巴校园招聘绿色通道,(,即招聘流程省略简历筛选及笔试筛选阶段,直接进入面试阶段,),在校期间均有效,;,并将获得阿里纪念,T,恤和大赛获奖证书,总决赛,Top10,的主要参赛队成员可直接入围“阿里星”计划,参赛队的指导老师(如有)将享受天池数据的最高使用权限,1,年,Season 3,线上阶段奖
4、项:,Season 2,阶段的优胜者,将会受邀访问天猫,在天猫实际开发,2014,年双,11,线上算法,并有机会赢取,100,万大奖(组委会将在,Season 2,结束后公布细则),数据介绍,赛题介绍,本赛题适用于,season1,和,season 2,的比赛,,season 3,为线上赛(,season 2,赛后公布题目)。,在天猫,每天都会有数千万的用户通过品牌发现自己喜欢的商品,品牌是联接消费者与商品最重要的纽带。,本届赛题的任务就是根据用户,4,个月在天猫的行为日志,建立用户的品牌偏好,并预测他们在将来一个月内对品牌下商品的购买行为。,数据介绍,数据介绍,天猫提供了,884,位用户对于
5、9531,种商品的操作类型,共提供了,182881,条记录。,用户对任意商品的行为都会映射为一行数据。其中所有商品,ID,都已汇总为商品对应的品牌,ID,。用户和品牌都分别做了一定程度的数据抽样,且数字,ID,都做了加密。所有行为的时间都精确到天级别,(,隐藏年份,),。,数据介绍,数据介绍,天猫提供了,884,位用户对于,9531,种商品的操作类型,共提供了,182881,条记录。,用户对任意商品的行为都会映射为一行数据。其中所有商品,ID,都已汇总为商品对应的品牌,ID,。用户和品牌都分别做了一定程度的数据抽样,且数字,ID,都做了加密。所有行为的时间都精确到天级别,(,隐藏年份,),。
6、数据介绍,数据介绍,天猫提供了,884,位用户对于,9531,种商品的操作类型,共提供了,182881,条记录。,t_alibaba_data.csv,数据介绍,Season 1,赛季数据,1),数据说明:用户,4,种行为类型,(Type),对应代码分别为:点击:,0,;购买:,1,;收藏:,2,;购物车:,3 2),提交评分方式:参赛者将预测的用户存入文本文件中,格式如下:,user_id t brand_id,brand_id,brand_id n,上传的结果文件名字不限,(20,字以内,),,文件必须为,txt,格式。,如图:,将预测结果文件上传至大赛官网结果提交入口即可。(提交结果入
7、口在参赛者的个人中心),数据介绍,Season 2,赛季数据,1),数据获取方式:参赛者只能登陆阿里巴巴天池集群获取数据,且数据不能下载,所有数据分析,计算,提交评分都将在天池集群上完成。,2),数据说明:提供的数据量,涉及千万级天猫用户,万级天猫品牌,时间跨度,4,个月的行为记录。,评比机制,评比机制,准确率与召回率,准确率:,注:,N,为参赛队预测的用户数,pBrandsi,为对用户,i,预测他,(,她,),会购买的品牌列表个数,hitBrandsi,对用户,i,预测的品牌列表与用户,i,真实购买的品牌交集的个数,评比机制,评比机制,准确率与召回率,最后我们用,F1-Score,来拟合准确率与召回率,并且大赛最终的比赛成绩排名以,F1,得分为准。,排行榜,现阶段排名,