1、基于海量用户行为数据分析的互联网增值新业务What,Why and HowWhat?要作什么事对每个宽带用户的每次浏览网页行为进行记录,在海量的数据记录上分析用户的浏览习惯、兴趣爱好、关注焦点等,对用户进行全方位的“画像”。按用户属性和行为特征对全部宽带用户进行聚类和精细化的客户群划分。依托运营商平台,利用网络广告、直投、个性化内容推送等手段对宽带用户进行“一对一”的精准营销。What图解用户上网的历史行为用户属性和行为特征男性年龄25-35岁来自北京.海淀.上地IT从业人士热衷科技产品NokiaN95用户中高端消费等级喜欢户外运动和旅游追求奢侈品.What图解续客户群A客户群B客户群C客户群
2、D客户群E客户群F用户标识和特征用户标识和特征用户精细划分用户精细划分精准营销精准营销Why?-为网通带来新价值精准广告收入合作模式:与网络广告商、传统广告商、SP、广告联盟分成 精准的用户属性将大幅度提高广告的价值,让每一次Page View都变成金子自营模式:个性化内容推送例子:“一对一”的个性化号百和12580 想用户所想,急用户所急直销(DM)分成收入:与最终厂商合作提升ARPU值,快速拓展新用户采用精准的营销策略精准的营销策略带动用户升速分析升速用户的行为习惯:什么样的用户需要升速?什么样的SP会吸引升速用户?通过DM捆绑销售和优惠的接入价格优惠的接入价格快速拓展新用户 在新竞争格局
3、中领先一步,形成良性的循环:更低的接入价格带来更多的用户,获得更多的增值业务收入How?HyperCloud解决方案技术架构核心处理算法演示ROI分析低成本和可靠的低成本和可靠的海量存储子系统海量存储子系统平滑可扩展的平滑可扩展的分布式运算子分布式运算子系统系统高吞吐率的高吞吐率的运营服务子运营服务子系统系统低成本和可靠的海量存储子系统多级别存储,成本降到300$/TB无需RAID支持,保证99.9%可用性多元数据服务器,管理亿级数量文件可在线扩展至PB级规模条带化存储,多数据通路聚合支持对象存储(OSD)接口I/O缓存平滑可扩展的分布式运算子系统3M架构:借鉴Google的分布式计算架构,针
4、对海量数据挖掘的需求对单点性能和多点负载均衡作最大限度的优化Key-Value Query with Memory Cache突破Key-ValueQuery的瓶颈,单点上亿条规模Key-Value对的查询时间小于200ms(传统DB的1/20),Dell1950DualQuad-Core,3.0GhzRange Query with Memory Database列存储(Column-based)结构,突破RangeQuery的瓶颈,单点上亿条记录的RangeQuery(selectxfromtwhereayandy隐性特征是大样本基础上的机器学习MachineLearning,ML),例子
5、“劲舞团”=游戏-舞蹈类|青少年85%“兰寇”=化妆品-兰寇|女70%高端=65%“铁血”=爱国|男90%“美女”=闲逛|男90%“爱卡论坛”/“宝马”=汽车-宝马|高端消费人群70%中端消费人群60%低端30%“奶粉”=婴幼儿用品-奶粉|女70%,有小孩90%“内衣”,“爱慕”=内衣-文胸-爱慕|女85%核心处理算法(3)处理流程HTTP请求数据Radius计费镜像数据垃圾流量过滤器(ML)垃圾流量排名Radius归并过滤器广告流量过滤器(ML)广告流量排名用户会话/点击路径识别过滤器高权重行为模式分析器泛行为模式分析器访问统计过滤器第三方PV,UV,ADV,PUV权威排名爬取分词关键词排序
6、(ML)样本库精准匹配模式库行业Top 20样本库样本库用户显性特征(关键词)用户隐性特征(用户分群)隐性特征推理器(ML)Top 10000词推理样本分类库(行业/职业、商品)统计过滤器 热点、舆情、行业咨询对接运营服务对接运营服务系统(广告或系统(广告或内容推送)内容推送)演示Getafeelingofit演示用的数据样本来源某运营商(江苏南京)20000用户一周数据计费系统Radius数据:1000万条,10GB包含:ADSL帐号、上线时间、离线时间、帐号、上线时间、离线时间、IP地址地址用户所有上网行为数据(未清洗前):14亿条HTTPRequests,1TB包含:Client IP地
7、址地址,HTTP Host,URL,Cookie,Referer,Agent数据分析平台使用2台双路4核Dell1950需要16小时使用10台双路4核Dell1950只需要1小时1、用户群精准定位演示按关键词关键词关键词“二手二手房房”对对“二手房二手房”关注的用户关注的用户群群宽带用户宽带用户z68862449的敏的敏感关键词表感关键词表用户详细用户详细宽带帐号宽带帐号性别推断性别推断DSLAM位置位置2、用户群精准定位演示按行业行业行业“汽车汽车”“汽车汽车”相关相关的的SP频道频道Top排名排名对其中某个对其中某个频道关注的频道关注的用户群用户群3、用户深度分析演示宽带用户帐号宽带用户帐
8、号性别分析性别分析消费层次分析消费层次分析最经常访问的最经常访问的内容频道内容频道最经常上的最经常上的网站网站最关注的关键最关注的关键词词ROI分析成本每百万用户硬件成本(不含推送系统):服务器:规格:DellPowerEdge1950(1U),双路4核,4G,SAS300G*2,数量:50,造价:15000*50=75(万元)存储设备,用于存档备份规格:DellMD1000+DIY磁盘,40T,数量:2-3台,成本:10万元每百万用户软件成本:0商业模式直接投放广告合作运营商业模式直接广告投放网站广告合作广告客户的长尾效应,目前搜索引擎的收入高于门户网站,门户网站的广告位有限,大量PV被浪费,基于用户行为的精准投放极大的提高门户的广告价值。中小网站或BBS拥有可观的流量和用户眼球。但由于其内容相关性和品牌价值不高,导致广告价值低下。(新浪汽车的用户可能同时也是天涯论坛的用户),通过提供用户行为特征实现实时精准投放可使其“一亩地产百亩粮”,是真正优质的催化剂线下DM直投请领导和专家指正!谢谢!