收藏 分销(赏)

大数据概论.ppt

上传人:天**** 文档编号:12048583 上传时间:2025-09-03 格式:PPT 页数:71 大小:15.51MB 下载积分:16 金币
下载 相关 举报
大数据概论.ppt_第1页
第1页 / 共71页
大数据概论.ppt_第2页
第2页 / 共71页


点击查看更多>>
资源描述
,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,大数据概论,(,The Big Data,),Main Contents,什么是大数据,大数据的前世、今生,大数据产生的背景,大数据的国内外现状,大数据技术概述,大数据的价值所在,大数据(,Big Data,),是一个泛概念,其实,,“,大数据,”,归根结底还是数据,其是一种泛化的数据描述形式,有别于以往对于数据信息的表达,大数据更多地倾向于表达网络用户信息、新闻信息、银行数据信息、社交媒体上的数据信息、购物网站上的用户数据信息等。,大数据的,“,大,”,体现在数据信息是海量信息,且在动态变化和不断增长。,What is Big Data,?,20,世纪,90,年代,数据仓库之父的,Bill Inmon,就经常提及,Big Data,2011,年,5,月,,在,“,云计算相遇大数据,”,为主题的,EMC World 2011,会议中,,,EMC,抛出了,Big Data,概念,大数据的,“,大,”,体现在如下几个方面:,体量(,Volume,):互联网的飞速发展,导致,非结构化数据,高速增长和超大规模,占到数据总量的,80%-90%,之多,比结构化数据增长快,10,倍到,50,倍,是传统数据仓库的,10,倍到,50,倍。,多样性(,Variety,):大数据是,异构,的、且,多样性,的。诸多不同的表现形式:文本、图形图像、视频、机器数据等;无模式或者模式不明显;不连贯的语法或语义。,价值密度(,Value,):大量的不相关信息;对未来趋势和模式的可预测分析;深度的复杂分析;,速度(,Velocity,):实时分析而非批量式分析;立竿见影而非事后见效。,大数据之“大”,大数据所涉及的数据量,有些是之前并不存在,有些是之前已经存在,只是没有被收集和分析。,大数据的数据信息主要是互联网上的数据信息,其具有巨,“,大,”,的商业价值,通过数据分析等手段,这些之前不被重视的数据信息能够揭示其它手段所看不到的,隐含知识和新趋势,,例如,网购中可预测需求、供给和顾客习惯等,做到精准采购、精准投放。,大数据之“数据”,大数据的“精准营销”,消费行业,金融服务,食品安全,医疗卫生,军事,交通环保,电子商务,气象,TB,级以上的数据处理;,B,KB,MB,GB,TB,PB,EB,ZB,JB,比,“,大,”,更棘手的数据的复杂性。,虽然如此之大,有时候甚至大数据中的小数据如一条微博就具有颠覆性的价值。,合适的方法寻找有价值的信息!,大数据不仅仅“大”,Google,每天要处理超过,24PB,的数据;,Facebook,每天更新的照片超过,1000,万张;,YouTube,每月接待多达,8,亿的访客,平均每一秒钟就会有一段长度在一小时以上的视频上传;,Twitter,上的信息量几乎每年翻一倍,截至,2012,年,每天都会发布超过,4,亿条微博;,大数据的前世,科学数据分析,数据挖掘,数据仓库,传统电子商务数据分析等。,大数据的今生,微博数据信息分析,网络购物数据信息分析,手机用户使用信息分析(移动设备数据),传感器数据分析,大数据的前世、今生,互联网企业:,SNS,、微博、视频网站、电子商务网站,物联网、移动设备、终端中的商品、个人位置、传感器采集的数据,联通、移动、电信等通信和互联网运营商,天文望远镜拍摄的图像、视频数据、气象学里面的卫星云图数据,数据的爆发式增长和社会化趋势,新摩尔定律;,大数据已经成为一种自然资源,是一座丰富的矿藏;,机器数据日益重要;,大数据不被利用就是成本,矿藏就会被埋没,失去其潜在的价值;,大数据产生的背景,大数据产生的背景,现有的商业软件难以处理大数据的规模和复杂性。,获取,(capture),存贮,(storage),搜索,(search),分享,(sharing),分析,(analysis),可视化,(visualization),大数据产生的背景,商业上的需求是主要驱动力!,商业需求驱动,变身国家战略(美国国家战略),促进进一步发展。,互联网的社会化是大数据产生的直接推动力!,利益驱动才是促进终极发展的核心原因!,大数据产生的背景,大数据的国内外现状,互联网越来越智慧,1,并购进行技术整合,2,自身提高研发实力,相较于,“,大数据,”,一词在,2011,年才开始蹿红不同,在计算机研究领域和产业界,,“,大数据,”,早已众人皆知,各大,IT,巨头纷纷布局大数据业务,通过收购大数据相关厂商来实现技术整合,以图抢占全新的制高点,各大,IT,企业纷纷推出自身的大数据分析产品,包括,Google,、,IBM,、,EMC,、,Oracle,、微软、惠普、,SAP,、,Teradata,,这些企业几乎囊括了目前全球最顶尖的搜索服务、数据库、服务器、存储设备、企业解决方案的主要提供商,足以显示大数据在产业界的汹汹来势,Google,:从搜索到广告公司,聪明的,GOOGLE,其实是互联网公司,+,广告公司,+,美国政府的情报员,Google,:,1998,起家:网络零售;,发展:通过云平台提供低成本的数据存储服务;,现在,&,未来:大数据分析;,亚马逊:从云平台到大数据,印象:商用机、笔记本电脑、服务器;,发展:剥离盈利微弱的笔记本电脑业务给联想,重点收购了多家数据库公司、数据分析公司、大数据公司,着力打造数据分析业务,顺道卖服务器;,现在,&,未来:数据分析服务。,IBM,:数据分析之道,美国国务院采用大数据技术开发新的美国护照系统。,IBM,宣布投资,1,亿美元用于大数据研究;,美国,IT,公司开始意识到大数据技术能够为公司创造价值;,大数据公司引入汽车行业高管人员扩展营销业务;,起家:,QQ,即时通讯软件,波折中发展,通过集成游戏度过了极为艰难的三年,此后,伴随着中国互联网的告诉发展,进入了黄金十年。,发展:黄金十年发展期,集即时通讯、门户、娱乐、广告、网游于一体,拥有所谓的五亿以上的用户群体。,现在,&,未来:基于移动互联网的微信告诉发展。用户为王,+,数据为王,两者皆占,独霸中国市场,目前来暂无可匹敌。需要解决如此大规模的用户数据如何变成¥。,国内:腾讯,起家:搜索引擎,经历过,“,战国时期,”,的乱战,以,“,更懂中国、更懂中国用户,”,迅速发展。,发展:即使在,Google,没有撤离之前,也占据,70%,以上的中国搜索引擎市场;百度知道,让,Baidu,更加被,“,知道,”,,成为在线教科书和解决方案。百度文库让其笼络了大量的文本资源。,现在,&,未来:错过了移动互联网的入口。用户依旧很多,通过大数据分析做精准广告投放,依旧在走,Google,的路。,国内:,Baidu,起家:电子商务平台(中间商);,发展:淘宝为代表的网上零售业务迅猛发展,带动物流、现金流飞速发展。,现在,&,未来:整合现金流,余额宝。大数据分析了解用户行为和习惯,进行精准广告投放和营销。,国内:阿里巴巴,&,淘宝系,个人电脑及存储设备增长较多;,云平台的安全保障问题;,云平台的隐私保护问题;,云平台的服务提供问题;,用户习惯免费、带来的自然是免费服务提供商同时获得了用户的各种信息。这类企业拥有庞大的用户群,如腾讯和阿里巴巴为大数据分析储备的足够的数据基础。,文化差异致云端使用步履蹒跚,大数据与云计算,大数据与云计算,大数据与云计算,随时随地,用户只需要一台具备基本计算能力的计算设备以及一个有效的互联网连接,就可以随时随地使用该服务,低成本,用户具备使用该服务的需求,但是并不具备独立提供该服务的经济或者技术条件,按需供应,云计算平台提供计算能力(包括处理器、内存、存储、网络接口),但是并不关心用户的应用类型,按量计费,把计算能力像,水和电,一样提供给用户,白云下面数据跑,蓝蓝的天上白云飘,如果数据是财富,那么大数据就是宝藏,而云计算就是挖掘和利用宝藏的利器!没有强大的计算能力,数据宝藏终究是镜中花;没有大数据的积淀,云计算也只能是杀鸡用的宰牛刀!,大数据的价值所在,有人认为大数据是大麻烦,有人认为大数据是大挑战,有人认为大数据是大机遇。还有大知识、大科技、大利润、大发展,麻烦,个人隐私,信息安全,各种各样的海量数据,从来不删除数据,对并发读取、写入的要求极高,每次可能访问上,PB,的数据,真麻烦!,挑战,传统数据库、小型机、阵列不是为了大数据的业务需求设计的,非常吃力,成本高,根本无法支撑。是一个挑战!,机遇,在大数据的时代,数据就是直接的财富、就是核心的竞争力,很多行业,都要相继跨入一个数据兴则企业兴、数据强则企业强的竞争时代!,大数据的价值所在,2010,年,12,月,总统行政办公室下属的科技技术顾问委员会,信息技术顾问委员会向奥巴马和国会提交了,规划数据未来,的专门报告,该报告把数据收集和使用的工作,提到了战略的高度。,“,如何收集、保存、维护、管理、分析、共享正在呈,指数级增长,的数据是我们必须面对的一个重要挑战。如何保证这些数据现在、将来的,完整性和可用性,,我们面临着很多的问题和挑战。如何,使用,这些数据,则是另外一个挑战。,应对好这些挑战,将引导我们在科研、医疗、商业和国家安全方面开创新的成功,。,”,2012,年,3,月,29,日,奥巴马政府又进一步推进了其,“,大数据战略,”,。奥巴马的高级顾问、总统科学技术顾问委员会的主席霍尔德伦代表国防部、能源部等,6,个联邦政府部门宣布,将投入,2,亿多美元立即启动,“,大数据发展研究计划,”,Big Data Research and Development Initiative,,以推动,大数据的提取、存储、分析、共享和可视化,。,美国政府推出了,“,大数据,”,战略,媲美与当年克林顿政府时代的信息高速公路计划。奥巴马希望借助大数据来将美国经济带出泥潭。从基础建设、到,IT,硬件、软件、网络,最后到数据。,案例,1,:塔吉特,比父亲更早知道女儿怀孕,曾经有一位男性顾客到一家塔吉特超市店中投诉,商店竟然给他还在读书的女儿寄婴儿用品的优惠券。这家全美第二大零售商,会搞出如此大的乌龙?但经过这位父亲与女儿进一步沟通,才发现自己女儿真的已经怀孕了。,数据信息记录;(,基础信息,),构建数据模型;(,经验总结、预测模型,),建立与用户的沟通渠道;(,智慧营销,),大数据的价值所在,大数据分析价值:根据,Andrew Pole,的大数据模型,Target,连锁制订了全新的广告营销方案,结果,Target,的孕期用品销售呈现了爆炸性的增长。,Andrew Pole,的大数据分析技术,从孕妇这个细分顾客群开始向其他各种细分客户群推广,,从,Andrew Pole,加入,Target,的,2002,年到,2010,年间,,Target,的销售额从,440,亿美元增长到了,670,亿美元。,案例,2,:通过大数据分析降低罪案率;,纽约的犯罪凶杀从,1994,年,1561,起下降到,1177,起;,车辆盗窃从,95420,下降到,72679,起;,到,2009,年,凶杀案下降到,466,起;,大数据的价值所在,案例,3,:阿里巴巴成功预测金融危机;,马,云对未来的预测,是建立在对用户行文分析的基础上。通常而言,买家在采购商品前,会比较多家供应商的产品,反映到阿里巴巴网站统计数据中,就是查询点击的数量和购买点击的数量会保持一个相对的数值,综合各个维度的数据可建立用户行为模型。因为数据样本巨大,保证用户行为模型的准确性。因此在这个案例中,询盘数据的下降,自然导致买盘的下降。,大数据的价值所在,腾讯在天津投资建立亚洲最大的数据中心;,新浪推出企业微博产品,提供精准的数据分析服务。,在大数据推动的商业革命暗涌中,要么学会使用大数据的杠杆创造商业价值,要么被大数据驱动的新生代商业格局淘汰。,标准的虚拟化及分布式存储,内存计算技术,SAP,中国区企业信息,管理咨询资深顾问,杜韬,Hadoop,数据应用策略、数据流技术,机器学习算法,百度首席科学家 威廉,.,张,Hadoop,数据采集、数据存储、数据处理,Yahoo,!北京全球软件,研发中心架构师 韩轶平,持续创新传统的企业级数据仓库产品线,收购,Aster Data,Hadoop,、,MapReduce,Teradata,首席客户官 周俊凌,马云的判断来自于数据分析,双“十一”背后的技术讨论,在全球经济的很多领域,大数据在以很多的方式创造价值。事实上,研究表明:随着消费者、公司、各个经济领域不断挖掘大数据的潜力,我们正处在一个巨大的浪潮的尖峰,这个浪潮,就是大数据驱动的创新、生产效率提高、经济增长以及新的竞争形式和新的价值的产生。,大数据:下一个创新、竞争和生产率的前沿,麦肯锡全球研究所,2011,年,5,月,在对全球,100,个国家及地区从事,30,个行业的,3000,名高管进行的调查中,有,60%,的受访者表示无法有效利用所有数据。而近期,IBM,对,64,个国家及地区从事,19,个行业的,1700,名首席营销官开展的最新调查更是进一步体现了出这个问题的严峻性:调查结果显示,,71%,的首席营销官表示他们的企业没有做好充分准备来应对大数据的挑战。,IBM-,麻省理工斯隆管理学院评论,2011,年,大数据不是一个单独的市场,它无处不在,以一切可以想象出的方式影响着商业。大数据的涌入将迫使产品、业务和解决方案发生变化。这种变化非常快,企业可能不得不淘汰要求的现有解决方案。,2012,年大数据将直接或间接拉动全球,960,亿美元,IT,支出,预计这一数据,2013,年将达到,1200,亿美元,,2016,年达到,2320,亿美元。新支出将流向社交媒体、社交网络分析和内容分析。支持大数据需要使用大量服务,高达软件采购支出的,20,倍。拥有相应技能的人才非常稀缺,但需求旺盛。,Gartner 2012,年,10,月,2011,年,3,月,11,日日本大地震发生后仅,9,分钟,美国国家海洋和大气管理局,(NOAA),就发布了详细的海啸预警。,NOAA,通过对海洋传感器获得的实时数据进行计算机模拟,制作的海啸影响模型出现在各大网站。,1962,年,经过,“,圣灰星期三,”,风暴后,美国陆军工程部和美国国家海洋与大气管理局共同建设了一个传感器监测系统,对兴风作浪的海洋进行监测。,2005,年,浮标上安装了更高端的传感器,用来监测海浪方向。,2009,年,系统再次升级,开始着手建立一个覆盖全美海岸线的精确海浪监测网络。这些传感器以分秒为单位,将数据源源不断实时传回。,还记得,后天,里面那个场景?,驾驭大数据能够改变什么?,传感器、智慧地球,驾驭大数据能够改变什么?,情感分析、舆情分析,通过对,BBS,、博客、微博中内容的分析,政府、企业和个人可以了解当前舆论情况,公众对待某一事物的看法。目前围绕这个产业,催生了一大拨的创新公司。,通过分析,15,万条关于刘翔的微博,分词并析取出其中使用的字词。在分析中,可以发现,为刘翔呐喊助威的声音占了统治地位,然而也有微博用户激烈地批评刘翔。这是我们第一次能对如此数量的中国用户进行数据可视化和情感分析,在所有关于刘翔的微博中出现的最显著的名词和形容词。结点越大表明越多人使用过这个词。两个结点离得越近表明它们一起出现在同一用户微博中的频率越高。在构造出的这个图中,可以非常明显地发现刘翔支持者所用的词语(右下)以及批评者所有的词语(左上)的巨大区别。,驾驭大数据能够改变什么?,语言、文字分析,奥巴马和罗姆尼辩论情况分析。,驾驭大数据能够改变什么?,社会化网络分析,分析在社交网络上谈论的情况以及分享的购物情况,来发现失业率变化情况和经济发展状况。,驾驭大数据能够改变什么?,社交网络分析、微博营销,电信,行业、传媒业借助,社交网络分析,对客户的通话,数据、微博连接进行,分析,能够识别出这部分,“,影响者,”,。社交分析并不是分析单一用户的通话,记录和微博信息,,而是分析各用户所处的社交网络,。,圈子识别,关键成员识别,传播影响分析,重入网用户识别,双机双卡用户识别,六度空间理论,关系强度分析,驾驭大数据能够改变什么?,客户特征与交叉销售以及更多,今年年初,美国一名男子闯入了他家附近的,Target,店铺(,Target,是一家美国零售连锁超市)。,“,你们怎么能这样!,”,男人向店铺经理大吼到,,“,你们竟然给我,17,岁的女儿发婴儿尿片和童车的优惠券,她才,17,岁啊!,”,店铺经理不知道发生了什么,立刻向来者道歉,表明那肯定是个误会。然而,经理没有意识到,公司正在运行一套大数据系统。一个月后,这个愤怒的父亲打来电话道歉,因为,Target,发来的婴儿用品促销广告并不是误发,他的女儿的确怀孕了。,纽约时报,报道,更多,:反恐(万维信息触角计划与建言计划),库存管理(沃尔玛的,Retail Link,)、卖数据!,大,数据驱动市场营销、驱动成本控制、驱动产品和服务创新、驱动管理和决策的创新、驱动商业模式的创新。,驾驭大数据能够改变什么?,算法交易、欺诈检测,欺诈检测,:监控信用卡使用,当检测的信用卡在很短的时间内并且相距甚远的位置已连续被使用,检测到欺诈行为,拒绝卡的使用,算法交易,:及时发现存在的交易机会,每次一小笔,毫秒级交易,每天进行数量众多的交易。已经成为趋势,金融交易是最能体现大数据的,Velocity,特性的,机会稍纵即逝,甚至券商对连接到交易主机的网线长度都有至关重要的诉求。算法交易成为趋势,但也导致了一次小型的股灾。,奥巴马连任的机密,“,大数据,”,制胜的四大法宝,数字竞选团队,我们会在此次竞选活动中对每个事件进行数据分析。,”,团队聘请了一大批分析员,人数规模甚至达到了,2008,年竞选时数据分析部门的五倍,(,据了解大概,100,多人,),整合信息资源,奥巴马竞选团队的一位官员表示:,“,我们知道,民主党的问题就在于拥有了大多的数据库,且没有哪两个数据库是相同的,”,。因此,在总统竞选前的,18,个月,竞选团队就创建了一个庞大系统,这一系统可以将民调者、注资者、工作人员、消费者、社交媒体以及,“,摇摆州,”,主要的民主党投票人的信息进行整合。,竞选结果预测,奥巴马的数据分析团队此前曾在关键州收集数据,并建立了,4,条投票数据流,用于拼凑出当地选民的详细数据模型。奥巴马的数据分析团队可以更清楚的了解每类人群和地区选民在任何时刻的投票倾向。,开辟第二战场,奥巴马竞选团队首次利用,Facebook,这些社交网络进行大规模的游说,就像此前挨家挨户敲门拉票的方式一样。数据还帮助奥巴马竞选团队更好的作出了广告购买的决策。在选择广告投放渠道时,他们没有依靠外部顾问,而是基于内部数据得出结论。,未来可期许的价值:,天文数据信息处理(每天,PB,级以上天文数据信息处理);,网络舆情分析与监测(新闻、论坛、空间、微博等);,用户行为分析(银行、网银、信用卡、网络购物、微博营销等);,传感器监测分析(环境监测、农业监测等);,移动设备数据分析(位置服务等);,大数据的价值所在,大数据所涵盖的技术汇总,大数据之数据存储,大数据之数据管理,大数据之数据建模,大数据之软件,大数据之可视化,大数据技术概述,关系数据库技术,传统的数据库管理系统(,SQL SERVER,Oracle,Mysql,等);,大数据相关的数据库技术及软件(,Amazon SimpleDB,Google App Engine,Hbase,Oracle NoSQL,Google,Bigtable,),;,大数据分析技术及分析模型(算法研究及分析建模);,大数据分析软件(,Hadoop MapReduce,),大数据所涵盖的技术汇总,基于,SQL,语言,:,面对,OLAP,的传统行和列,不基于,SQL,或,map-reduce,的,:,由谷歌率先发起,数据流,:,基于运行商数据直接生成任意图形,新平台技术,数据入口,/,汇聚,数据平台,分析,不同范围的服务,前提:,传统交付模式,-,单片或基于设备的解决方案,云,:,能够充分利用物理设施的弹性,以实现处理快速增长数据的能力,“数据库将演变成一个虚拟的,基于云计算,超级可扩展的分布式平台。”,-Forrester analyst Jim Kobielus,新的传输方案,Google,云计算应用,MapReduce,并行数据处理,BigTable,结构化数据表,GFS,分布式文件系统,Chubby,分布式锁,Google,的分布式文件系统,GFS,,其对应的开源,Hadoop,分布式文件系统,HDFS,。,Hadoop,分布式文件系统,(HDFS),被设计成适合运行在通用硬件,(commodity hardware),上的分布式文件系统。它和现有的分布式文件系统有很多共同点。但同时,它和其他的分布式文件系统的区别也是很明显的。,HDFS,是一个高度容错性的系统,适合部署在廉价的机器上。,HDFS,能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。,HDFS,放宽了一部分,POSIX,约束,来实现流式读取文件系统数据的目的。,HDFS,在最开始是作为,Apache Nutch,搜索引擎项目的基础架构而开发的。,HDFS,是,Apache Hadoop Core,项目的一部分。,大数据之数据存储,Hadoop,,包括,HDFS,和其上的,MR,,被认为是解决大数据中必不可少的一项技术和产品。它能轻易实现各种批量数据处理,而且因为其设计的简化,能轻易分布到海量的,X86,服务器上,,2000,、,3000,节点的,Hadoop,场景是较为常见的。,优点,处理各种结构的数据,灵活的处理方式,通过,Java,编写,MR,框架,易于扩展、伸缩,达到,3000,节点以上(因其非对等节点模型设计),缺点(对原生解决方案而言),对灵活的查询的支持和响应速度,流水线操作优化,Map,和,Reduce,大量数据交换问题,案例,:淘宝、支付宝、腾讯,产品:,BC-ETL/OC-ETL/SmartMiner,储备:两期云计算,ETL,在经分中应用研究,目前在开展四省试点,高并发读写,大数据存储的核心需求,高效率存储 和访问,高可扩展性和高可用性,低成本建设,运维,保证一致性的开销过大,难以实现高并发,存储性能受限于控制器,性能难以保证,关系型表单存储难以适应不同数据类型,上亿行数据的超级达标效率极低,传统基于盘阵的存储设备,造价昂贵,且市场垄断严重,建设成本居高不下,扩容成本尤其高,许可和维护花费高昂,无法简单的通过添加服务节点来扩展数据容量和负载能力,难以进行横向扩展,数据库升级需要停机维护和数据迁移,导致服务中断,不保证遵循,ACID,原则,提高并发读写性能,Schema-Free,存储适应不同数据类型,舍弃,SQL,标准功能,尽量简化数据操作,提升效率,MapReduce,实现高效访问,基于,X86,设备,价格低廉,开源系统,节省许可费用,支持水平扩展,可简单的通过添加服务节点来扩展数据容量和负载能力,数据库升级不影响服务持续,Google,的分布式结构化数据表,Bigtable,,对应开源的分布式结构化数据表,Hbase,。,HBase,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用,HBase,技术可在廉价,PC Server,上搭建起大规模结构化存储集群。该技术来源于,Chang et al,所撰写的,Google,论文,“,Bigtable,:一个结构化数据的分布式存储系统,”,。就像,Bigtable,利用了,Google,文件系统(,File System,)所提供的分布式数据存储一样,,HBase,在,Hadoop,之上提供了类似于,Bigtable,的能力。,HBase,是,Apache,的,Hadoop,项目的子项目。,HBase,不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库。另一个不同的是,HBase,基于列的而不是基于行的模式。,大数据之数据管理,大数据分析的核心是数据建模或者说是分析算法。,传统的数据挖掘算法需要转变为针对大数据的挖掘算法。,大数据之数据建模,大数据之数据建模,和数据中心(,Data Center,)一样,软件是大数据的驱动力,软件改变世界。,大数据之软件,TRS SMAS,功能框架图,舆情管理,服务共享,信息挖掘,信息来源,新闻,论坛,博客,搜索引擎,微博,wiki,自动排重、自动分类、自动摘要、自动分析,舆情分类,热点跟踪,热点统计,微博分析,人物分析,微博运营,趋势分析,整合统计,关联图谱,动态走势,兴趣图谱,未知探索,热点变化,意见领袖,传播图谱,关系分类,个性展示,敏感预警,自由分布,数图导出,图表切换,多维检索,探针追踪,元搜索,外网,微博,论坛,SNS,网媒,官网,提高,销量,用户,满意度,用户设计,趋势分析,竞争分析,质量缺陷,设计缺陷,使用缺陷,KOL,维护,声誉管理,危机预警,事件评估,行为分析,产品,公关,营销,SMAS,用户感知,研发,情绪感知,及时服务,口碑监测,媒介监测,S-,CRM,广义,服务,大数据之可视化,What should we do,?,知识要求:,数据挖掘(算法),+,数据仓库(工具),Linux,操作系统,+Hadoop,开源体系,大数据采集,+,大数据存储,+,大数据管理,大数据分析算法,+,大数据分析结果可视化,落脚点:,新闻挖掘与分析;,微博、社交平台数据挖掘(网络舆情、用户习惯);,电信数据分析;,图像分析与处理;,Thank You!,See you next time!,
展开阅读全文

开通  VIP会员、SVIP会员  优惠大
下载10份以上建议开通VIP会员
下载20份以上建议开通SVIP会员


开通VIP      成为共赢上传

当前位置:首页 > 包罗万象 > 大杂烩

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        抽奖活动

©2010-2026 宁波自信网络信息技术有限公司  版权所有

客服电话:0574-28810668  投诉电话:18658249818

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :微信公众号    抖音    微博    LOFTER 

客服