资源描述
添加标题,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,#,01,360,大数据,平台,介绍,唐会军,360,大数据规模,&,能力,大数据服务器,规模,超过,30000,台,总存储数据量接近,1EB,,每天新增超过,1PB,每天各种数据计算,任务,10,万,个,,每天,处理,数据量,10PB,具备一分钟内,调动,几十万,颗,CPU,核参与计算,能力,具备一秒钟处理,1TB,数据能力,360,大,数据技术,路线,利用最廉价的,PC,服务器,+,开源,/,自主开发软件构建而成,数据的可靠性,扩展性全部自主可控,成本不到,IOE,方案的,1/100,360,大数据业务,(,搜索 广告 杀毒 语音,图像识别,),360,大数据架构图,产品,计算,存储,机器学习平台,实时计算,平台,M/R,计算,平台,文件存储平台,表格存储平台,对象存储平台,搜索,安全,广告,语音,图像,底层,云主机,内核,硬件,流式计算平台,块存储平台,HBase,平台(,HDFS,M/R,),运行全球最大的,HBase,集群之一(,3K,节点),存储记录总条数达到,100,万亿条,增加索引引擎,满足关系型数据库查询需求,增加搜索引擎,对存入平台的所有数据支持字符检索,Cassandra,平台,Cassandra,集群总规模全球第一(超过,10K,节点),增加数据备份,数据冗余,EC,方案,索引等一系列功能,修复,BUG,无数,稳定性经受住线上,7*24,小时,一年,365,天无服务中断考验,机器学习平台,Euler,应用,计算,存储,MPI,通信框架,分布式向量,作业管理,&,任务调度,分类,分布式矩阵,计算框架,聚类,回归,Euler,平台算法库,聚类,k-means,凝聚层次聚类,minhash,Disjoint-Set,Query Clustering,分类,随机森林,GBDT,LLGC,朴素贝叶斯,主题模型,plsa,Lda,协同过滤,User-based,Item-based,回归,逻辑回归,机器翻译,SMT,EMBT,其它,PageRank,:网页排序,ALS,:矩阵分解,Hadoop,平台(,HDFS,M/R,),360,内部分支版本(从,2010,年开始,),单集群规模,5K,个节点,年底到,10K,节点,增加了权限管理,性能优化一系列改进,大数据分析平台,云图,语音识别,7,人小团队一年时间在搜索语音识别领域超过讯飞,利用公司海量数据优势和海量数据挖掘经验,谢 谢!,
展开阅读全文