1、关于会议2014.1.8-北京-国家会议中心-大数据分会B关于会议关于会议关于会议新浪信息系统部高级数据挖掘经理 李云辉新浪大数据处理微软托管技术高级架构师王健籍CloudOS之力,鼓IDC云帆酷讯公司商业分析总负责人(BI leader)秦宇演讲主题:大数据那些事阿里共享业务事业部数据挖掘专 李传福大规模用户行为数据分析乐蜂网大数据平台部 高级经理 罗萌乐蜂网大数据技术与应用百度加速乐资深安全顾问 秦波web安全大数据IBM 新兴市场部大数据中心总监 王晓梅大数据时代下的新机会,新价值关于会议关于会议关于主题2013出门不提大数据感觉都不是IDC圈的人!“大家还没搞清PC时代的时候,移动互联
2、网来了,还没搞清移动互联网的时候,大数据时代来了。”马云BD大数据是啥?BDBD,为何你如此的屌!定义大数据?大交易数据大交互数据大数据集成大数据处理OLTPOLAP;数据仓库社交媒体数据其他如(设备)HADOOP数据特征数据量速度多样性价值TB-PB以上 GB -TB持续,年增长60%数据量稳定,增长不快多维数据 结构化数据为主数据挖掘,预测 统计和报表传统数据大数据“大数据”指数据集的大小超过了现有典型的数据库软件和工具的处理能力。于此同时,及时捕捉、存储、聚合、管理这些大数据以及对数据的深度分析的新技术和新能力。正在快速增长,就像摩尔定律一样。mckinney global instit
3、ute用大智慧去匹配大数据,探索新的价值。马超TB-PB以上 GB -TB持续,年增长60%数据量稳定,增长不快多维数据 结构化数据为主数据挖掘,预测 统计和报表左右未来的四大趋势社交网络将不仅包含个人员,也将包括设备,以及产品的公司期待2013年使用内部企业社交网络应用移动应用程序下载首次超过PC销售额的新开发应用将集成分析功能左右未来的四大趋势数据价值1.华尔街根据民众情绪抛售股票;2.对冲基金依据购物网站的顾客评论,分 析企业产品销售状况;3.银行根据求职网站的岗位数量,推断就业率;4.投资机构搜集并分析上市企业声明,从中寻找破产的蛛丝马迹;5.美国疾病控制和预防中心依据网民搜索,6.分
4、析全球范围内流感等病疫的传播状况;7.6.美国总统奥巴马的竞选团队依据选民的微博,8.实时分析选民对总统竞选人的喜好。对比传统1.结构化、关系性2.小样本3.因果4.非实时1.数据全集2.大样本(全集)3.关联4.实时要求传统数据大数据先行者们用大数据的人们啊,你们在干啥?淘宝双11 350亿哪里来?阿里巴巴应用业务系统离线建模任务提交调度管理数据源云梯业务系统在线数据天网调度数据挖掘服务器IDEGETWAY相似商品 类目关联相似店铺 用户分群相似品牌 购物周期品牌偏好 价格偏好类目偏好 店铺偏好。搜索引擎推荐引擎投放系统。个性化LIST活动投放首页搜索物流宝推荐。数据模型会员商家商品品牌物流
5、会员分层体系会员诚信度评估用户评价标签年龄性别预测母婴宝宝年龄预测用户个性化偏好商家综合排序商家成长指数商家诚信预警模型商家排序商品基本标签商品质量评分关键属性挖掘商品生命周期品牌分层模型品牌相识模型品牌排序模型品牌特性模型物流数据集市物流时效预测补货模型分仓模型LBS模型数据集市基础算法挖掘工具产品分析基础支撑物流雷达350亿!不容易!新浪大数据之路?全景图用户量大增长快产品多样更新快海量数据处理能力hadoophbaseScribefirehose需求量大变化快需求多样计算复杂数据规范化易用化、扩展能力数据仓库业务数据集市SLA服务标准数据获取周期长分析需求撞墙数据开放、安全管理能力数据指
6、数自助统计查询数据校准管理业务多需稳定计算实时性计算资源掌控能力资源管理调度系统实时计算数据稳定性高数据口径一致数据质量管理能力数据质量监控异常返回分析元数据管理系统需求能力数据平台建设路线服务体系数据仓库hadoophbaseScribefirehose调度系统监控系统实时计算元数据管理系统分布式数据挖掘平台hadoop优化、hadoop2.0、数据分离高性能计算资源及数据管理各种主题仓库数据仓库各种主题仓库第一阶段第一阶段第一阶段面向普通用户和企业用户的实时查询、统计分析系统各种服务体系应用案例分词词库情感词库分词算法博文分析基础分组兴趣元距离用户关系基础用户样本库用户基础视图用户属性基础
7、用户成熟度用户影响力用户行为基础重点用户流量监测外部竞争基础口碑模型用户兴趣图谱话题识别内容模型圈子属性标签用户圈子发现社区地位判别关系模型用户状态识别商业账号识别商业模型用户流失预测推荐模型用户运营模型多栖倾向发现竞争力模型竞争基础舆情监测微报告风声墙微指数风云榜电影口碑六度人脉IBM我们准备好了,你们来买吧!IBM金融犯罪管理解决方案方 案案例分析师利用现有案例分析历史数据,找出规律。业务规则分析师分解规则调查员使用IBM的ODMODM接受业务事件并执行事件规则判断,过来可以欺诈交易给规则引擎处理对于ODM规则引擎评分超过一定分值的可疑欺诈交易推送至案件管理平台,由发欺诈调查员核实处理ODM规则引擎对可疑欺诈交易进行评分,主要是根据事件模式、客户行为模式对交易进行评分自然语言描述风险匹配规则规则表、规则树、自然语言、规则流描述各种风险规则用户可以通过用户可以通过WEBWEB使用!使用!完谢谢聆听 欢迎指正