1、云端大数据产业发展可行性报告一、 大数据概念 大数据是一个体量特别大,数据类别特别大的数据集,并且这样的数据集无法用传统数据库工具对其内容进行抓取、管理和处理。 大数据首先是指数据体量(volumes)?大,指代大型数据集,一般在10TB?规模左右,但在实际应用中,很多企业用户把多个数据集放在一起,已经形成了PB级的数据量;其次是指数据类别(variety)大,数据来自多种数据源,数据种类和格式日渐丰富,已冲破了以前所限定的结构化数据范畴,囊括了半结构化和非结构化数据。接着是数据处理速度(Velocity)快,在数据量非常庞大的情况下,也能够做到数据的实时处理。最后一个特点是指数据真实性(Ve
2、racity)高,随着社交数据、企业内容、交易与应用数据等新数据源的兴趣,传统数据源的局限被打破,企业愈发需要有效的信息之力以确保其真实性及安全性。二、 大数据特点大数据特点 要理解大数据这一概念,首先要从大入手,大是指数据规模,大数据一般指在10TB(1TB=1024GB)规模以上的数据量。大数据同过去的海量数据有所区别,其基本特征可以用4个V来总结(Vol-ume、Variety、Value和Veloc-ity),即体量大、多样性、价值密度低、速度快。 1、数据体量巨大。从TB级别,跃升到PB级别。 2、数据类型繁多,如前文提到的网络日志、视频、图片、地理位置信息,等等。 3、价值密度低。
3、以视频为例,连续不间断监控过程中,可能有用的数据仅仅有一两秒。 4、处理速度快。1秒定律。最后这一点也是和传统的数据挖掘技术有着本质的不同。物联网、云计算、移动互联网、车联网、手机、平板电脑、PC以及遍布地球各个角落的各种各样的传感器,无一不是数据来源或者承载的方式。三、 大数据分析 从所周知,大数据已经不简简单单是数据大的事实了,而最重要的现实是对大数据进行分析,只有通过分析才能获取很多智能的,深入的,有价值的信息。那么越来越多的应用涉及到大数据,而这些大数据的属性,包括数量,速度,多样性等等都是呈现了大数据不断增长的复杂性,所以大数据的分析方法在大数据领域就显得尤为重要,可以说是决定最终信
4、息是否有价值的决定性因素。四、 大数据作用五、 政策倾向和市场需求大数据产业在中国已经被提高到国家战略层面,在国务院印发的促进大数据发展行动纲要中就明确指出要以企业为主体,营造宽松公平环境,加大大数据关键技术研发、产业发展和人才培养力度,着力推进数据汇集和发掘,深化大数据在各行业创新应用,促进大数据产业健康发展。发展大数据在工业、新兴产业、农业农村 等行业领域应用,推动大数据发展与科研创新有机结合,推进基础研究和核心技术攻关,形成大数据产品体系,完善大数据产业链。贵州省在着力打造大数据产业发展应用新高地,推动大数据产业成为贵州经济社会发展的新引擎,建成全国领先的大数据资源中心和大数据应用服务示
5、范基地。按照“基础构建、集群聚集、创新突破”的思路,科学规划大数据产业布局,建基地、引人才、聚企业、抓应用、保安全、促创新,建设信息资源聚集地。2014年2月,贵州印发关于加快大数据产业发展应用若干政策的意见。明确从2014年起连续3年,省和贵阳市、贵安新区每年各安排不少于1亿元资金,用于支持大数据产业发展及应用。到2017年,贵州将形成12个大数据产业示范园区,引进和培育30户大数据龙头企业,聚集500户创新型大数据相关企业,通过大数据带动相关产业规模达3000亿元,引进大数据领军人才100名,引进和培养高端人才5000名。 2014年,贵州以大数据为引领的电子信息产业实现规模总量1460亿
6、元,同比增长62%;电子信息产业投资230亿元,增长225%;大数据信息企业共1721家,较2013年底增加了410家,增长31%。贵州提出把大数据产业作为重要战略来抓,制订发展规划,出台支持政策,成立产业发展领导小组,统一建设系统平台。阿里巴巴、IBM、英特尔、惠普、戴尔、百度、浪潮、神州数码、中国普天、中兴通讯等信息产业龙头企业,现今纷纷与贵州开展合作。围绕大数据全生命周期,贵州重点打造“基础设施层、系统平台层、云应用平台层、增值服务层、配套产品层”五个产业链层级,建设大数据“内容中心服务中心金融中心”三个中心。发展蓝图一经确定,贵州立即付诸实践:建成省级政府和企业数据统筹交换共享的基础性
7、、系统性云服务平台云上贵州;启动wifi免费无线城市建设,今年5月1日,16个热点公共区域的免费wifi投入试运行;贵阳大数据交易所投入运营。今年初,工信部批复同意创建“贵阳贵安大数据产业发展聚集区”。按照规划,2015年,贵州大数据信息产业实现规模总量将达到2000亿元,同比增长37%。同时,力争10个国家级、行业级、龙头企业数据资源存储贵州。六、 大数据产业人才需求 一方面,根据IDC的调查报告,全球从2012年至2015年的3年之间里,云计算的相关工作需求将出现26%的年增长率,超过1/4的增长率再次证明了企业对云计算人才的巨大需求。IDC的预测还表明,2012年有约170万的云计算相关
8、岗位出现真空,而这方面的求职者也都缺乏云计算方面的实践经验,并且不具备完善的培训机制;值得警醒的是,到2015年,这个数字将有170万上升到700万,云计算产业面临着更大的人才缺口。若以地区来看,亚太地区的云计算人才缺失要更加严重一些,根据IDC预测,亚太区的云计算相关人才需求年增长率将达到32%,超过欧洲、中东等地区8个百分点,到2015年的人才需求是230万。这其中,中国地区也占了很大比例,尤其中国还是一个拥有巨大发展潜力的市场。 另一方面,根据麦肯锡报告,仅仅在美国市场,2018年大数据人才和高级分析专家的人才缺口将高达19万。此外美国企业还需要150万位能够提出正确问题、运用大数据分析
9、结果的大数据相关管理人才。 然而,目前在云计算和大数据行业打拼的从业者中,大部分都是半路出家,极少有人受过系统化的培养和教育。在信息周刊的调查显示BI、数据分析和信息管理人才认为技术培训、认证课程和统计/分析培训是最重要的三种培训课程选择。有趣的是,数据分析人才对财务、营销等商务技能课程的兴趣远高于其他IT专业人士。 我国大数据所需人才储量小,符合条件的人才严重不足,供需矛盾明显。我国能否在云计算和大数据时代这一轮新的竞争中取得先机,人才是关键。在一个产业来说,高端科研和开发人才其实需求量并不大,市场需要的更多是基础开发、项目实施和维护人员,这就给我省大数据人才培养和大数据产业弯道取直提供了一
10、个非常好的机会。七、 公司大数据产业发展落脚点 公司对目前国内外大数据产业发展形势结合自身优点,着力从四个方面落脚引领大数据产业发展。 1、云端大数据产业应用研究院,建立一套运行机制。大数据建设是一项有序的、动态的、可持续发展的系统工程,必须建立良好的运行机制,以促进建设过程中各个环节的正规有序,实现统合,搞好顶层设计。2、云端大数据产业标准研究院,规范一套建设标准。没有标准就没有系统。应建立面向不同主题、覆盖各个领域、不断动态更新的大数据建设标准,为实现各级各类信息系统的网络互连、信息互通、资源共享奠定基础。3、云端大数据项目建设部,搭建一个共享平台。数据只有不断流动和充分共享,才有生命力。
11、应在各专用数据库建设的基础上,通过数据集成,实现各级各类指挥信息系统的数据交换和数据共享。4、云端大数据产业人才培养基地,培养一支专业队伍。大数据建设的每个环节都需要依靠专业人员完成,因此,必须培养和造就一支懂指挥、懂技术、懂管理的大数据建设专业队伍。八、 云端大数据优势1、携手全国首个大数据学院贵州大学学院和贵州大学六度众创空间共同成立大数据产业人才培养基地。2、结合贵州省大数据产业应用研究院联合组建大数据产业应用研究院和大数据产业标准研究院。3、联合欧美同学会和国内知名企业利用贵州大数据发展大势,落地或引进大数据项目。九、 大数据应用案例1、Hadoop大数据分析2、行业案例3、贵阳大数据
12、应用案例(1)“用数据说话”提升政府治理能力在贵阳市公安交通管理局,民警向记者展示在日常酒驾查处过程中,利用信息化系统平台对执法过程进行全程记录:只见测试人员对测试仪进行吹气,显示的测试数据立即传入贵州省酒驾管理信息系统。由于数据实时传输且无法更改,民警在权力运行过程中成为“透明人”。据贵阳市监察局局长王军介绍,借助于大数据,贵阳市率先在交管、住建部门建“数据铁笼”。“运用大数据编制制约权力的笼子,能上网的行政权力全部上网。保证权力运行全程电子化、处处留痕迹,让权力在阳光下清晰、透明、规范运行。”王军说。贵阳“数据铁笼”只是贵州运用大数据提升政府治理能力的一个缩影。2014年底,贵州建成省级政
13、府数据集聚共享的统一云计算平台“云上贵州”。“云上贵州”之上开发了一系列基于政府数据的应用系统,不同程度满足政府、企业和个人应用,一些对政府数据有需求的企业也将系统平台建在“云上贵州”平台上。目前,“云上贵州”日均访问量近2亿次,最高峰值达10亿次以上。马宁宇说,大数据提升了政府的决策能力、管理能力和服务能力。比如,今年初蓉遵高速习水段发生塌方,有关部门对路过该路段车辆快速实现精细化排查,在最短时间内准确锁定被掩埋车辆为1台,为抢险救援提供了科学精准的决策依据。(2)“大数据”走进寻常百姓家贵阳市民陈军从超市购买了一包茶叶,然后,他打开手机软件“食安测”扫描商品条形码,只见食品信息、食品检测结
14、果等立即出现在屏幕中。贵州科学院院长谭红介绍,“食安测”是贵州食品安全云的一款产品。食品安全云是将原来分散在政府部门、检测机构、企业、公众等各个环节的数据汇聚起来,搭建起监管平台、大众门户、食品安全测试信息管理平台等互相联通、支持的平台系统。据统计,食品安全云已汇聚食品安全监管、检测、标准、知识信息等数据1000余万条,涉及食品1.14万余个,检测报告1.86万余份,国家标准420余份,1000余家龙头企业参与应用示范,35家规模超市成为数据采集试点单位。目前,已在广东、北京等9省市推广应用。“食品安全云使更多人步入了数据生活时代,消费者可以利用数据去衡量产品品质,从而购买到最适合自己的产品,
15、提升舌尖上的安全。”谭红说。除了食品安全云,贵州还建设了智慧旅游云、交通云等,为民众和企业提供更加个性化和精准化的服务。贵阳大数据战略重点实验室主任连玉明说,大数据在生活中随处可见,应用潜力巨大。“数据时代是一个融合的时代,运用好大数据,将发展指数、生活指数等覆盖到生活的各个方面,将对城市管理、公共服务等提供巨大帮助。”连玉明说。附件一、大数据技术大数据技术是指从各种各样类型的巨量数据中,快速获得有价值信息的技术。解决大数据问题的核心是大数据技术。目前所说的大数据不仅指数据本身的规模,也包括采集数据的工具、平台和数据分析系统。大数据研发目的是发展大数据技术并将其应用到相关领域,通过解决巨量数据
16、处理问题促进其突破性发展。因此,大数据时代带来的挑战不仅体现在如何处理巨量数据从中获取有价值的信息,也体现在如何加强大数据技术研发,抢占时代发展的前沿。1、 数据采集:ETL工具负责将分布的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础。 2、数据存取:关系数据库、NOSQL、SQL等。3、基础架构:云存储、分布式文件存储等。4、数据处理:自然语言处理(NLP,NaturalLanguageProcessing)是研究人与计算机交互的语言问题的一门学科。处理自然语言的关键是要让计算机理解自然
17、语言,所以自然语言处理又叫做自然语言理解(NLU,NaturalLanguage Understanding),也称为计算语言学(Computational Linguistics。一方面它是语言信息处理的一个分支,另一方面它是人工智能(AI, Artificial Intelligence)的核心课题之一。 5、统计分析:假设检验、显著性检验、差异分析、相关分析、T检验、方差分析、卡方分析、偏相关分析、距离分析、回归分析、简单回归分析、多元回归分析、逐步回归、回归预测与残差分析、岭回归、logistic回归分析、曲线估计、因子分析、聚类分析、主成分分析、因子分析、快速聚类法与聚类法、判别分析、对应分析、多元对应分析(最优尺度分析)、bootstrap技术等等。6、数据挖掘:分类 (Classification)、估计(Estimation)、预测(Prediction)、相关性分组或关联规则(Affinity grouping or association rules)、聚类(Clustering)、描述和可视化、Description and Visualization)、复杂数据类型挖掘(Text, Web ,图形图像,视频,音频等) 7、模型预测:预测模型、机器学习、建模仿真。 8、结果呈现:云计算、标签云、关系图等。二、大数据处理:三、一般大数据培训内容: