资源描述
对大数据的认识
对于大数据的认识与理解
这学期选修了网络工程这门课程,当时就是抱着扫盲的态度选的这门课程,给 自己定的目标不高,只需要对一些基础的概念与网络结构有些认识就可以,以免以 后在人前谈论的时候不至于成为IT文盲,被一些专业性的技术人员所吓倒。事实 证明,态度决定一切,由于自己刚开始设定的目标就比拟低,所以注定能够上升到 的水平也就不高。
经过这几周的学习,对计算机网络的基础知识与大致结构有了一个粗浅的认 识。由于学生本身这方面的基础不扎实,知识结构在这方面比拟薄弱,所以不能在 技术方面进行深入的研究,只能对一些理论性的知识做一些了解与认识,建立起大 概的知识框架。在学习过程中,魏忠老师所提及的知识中有一点印象最为深刻,关 于大数据Big Data方面的提及引起了我很大的兴趣,越就是自己私下里做了一些 阅读与查询(主要就是维克托・迈尔一舍恩伯格的《大数据时代》与网络上查瞧的一 些资料)。最后提交的这篇课程总结就着重报告一下自己在阅读了她人关于大数 据的一些理论后自身的认识。
在这之前,我发现身边很多人都提起过大数据,其中包括老师与同学。可就是 对于这些热门的新技术、新趋势人们往往趋之假设鹫却又很难说的透彻,如果您问 她大数据与您有什么关系?估计很少同学能说出一二三来。究其原因,一就是因 为大家对新技术有着相同的原始渴求,至少知其然在聊天时不会显得很“无知〃,因 为现在人们普遍都有以一种信息焦虑感,别人知道的东西我不知道,就会感到焦虑, 无论这些信息对您有没有用;二就是在工作与生活环境中真正能参与实践大数据 的案例实在太少了,所以大家没有必要花时间去知其所以然。当然我也一样,虽然 我希望能有些不一样,但就是自己实在欠缺IT这方面的知识,所以也只能查阅一些 资料,翻阅了最新的专业书籍,在自己局限的认识下把这些些零散的资料碎片或不 同理解论述综合起来做一个类似于文献综述的报告,其实我很真诚的希望进入事 物探寻本质。下面就从理论、技术、实践这三个层面写一下大数据的认识
大数据的一些相关理论:
最早提出大数据时代到来的就是麦肯锡:"数据,已经渗透到当今每一个行业 与业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘与运用,预示着 新一波生产率增长与消费者盈余浪潮的到来。〃
业界(IBM最早定义)将大数据的特征归纳为4个"V〃(量Volume,多样Variety, 价值Value,速Velocity),或者说特点有四个层面:第一,数据体量巨大。大数据的起
对大数据的认识
始计量单位至少就是P(1000个T), E(100万个T)或Z(10亿个T);第二,数据类型繁 多。比方,网络日志、视频、图片、地理位置信息等等。第三,价值密度低,商业价 值高。第四,处理速度快。最后这一点也就是与传统的数据挖掘技术有着本质的 不同。
很早就流传着一句话:三分技术,七分数据,得数据者得天下。先不管这句话就 是谁说得,但就是这句话的正确性已经不用去论证了。维克托•迈尔-舍恩伯格在 《大数据时代》一书中举了很多例证渚K就是为了说明一个道理:在大数据时代已 经到来的时候要用大数据思维去开掘大数据的潜在价值。书中,作者提及最多的 就是Google如何利用人们的搜索记录挖掘数据二次利用价值,比方预测某地流感 爆发的趋势;Amazon如何利用用户的购买与浏览历史数据进行有针对性的书籍 购买推荐,以此有效提升销售量;Fare cast如何利用过去十年所有的航线机票价格 打折数据,来预测用户购买机票的时机就是否合适。这里维克托・迈尔-舍恩伯格所 认为的大数据思维就是:1需要全部数据样本而不就是抽样;2关注效率而不就是 精确度;3关注相关性而不就是因果关系。
大数据就是什么?投资者眼里就是金光闪闪的两个字:资产。比方,Facebook 上市时,评估机构评定的有效资产中大局部都就是其社交网站上的数据。如果把 大数据比作一种产业,那么这种产业实现盈利的关键,在于提高对数据的“加工能 力”,通过"加工"实现数据的“增值〃。
大数据的一些相关技术:
1)云技术:
大数据常与云计算联系到一起,因为实时的大型数据集分析需要分布式处理 框架来向数十、数百或甚至数万的电脑分配工作。可以说,云计算充当了工业革 命时期的发动机的角色,而大数据那么就是电。
云计算思想的起源就是麦卡锡在上世纪60年代提出的:把计算能力作为一种 像水与电一样的公用事业提供给用户。如今,在Google、Amazons Facebook等一 批互联网企业引领下,一种行之有效的模式出现了 :云计算提供基础架构平台,大 数据应用运行在这个平台上。
业内就是这么形容两者的关系:没有大数据的信息积淀,那么云计算的计算能力 再强大,也难以找到用武之地;没有云计算的处理能力,那么大数据的信息积淀再丰 富,也终究只就是镜花水月。
那么大数据到底需要哪些云计算技术呢?
这里暂且列举一些,比方虚拟化技术,分布式处理技术,海量数据的存储与管 理技术,NOSQL、实时流数据处理、智能分析技术(类似模式识别以及自然语言理
对大数据的认识
解)等。
2)分布式技术:
分布式处理系统可以将不同地点的或具有不同功能的或拥有不同数据的多 台计算机用通信网络连接起来,在控制系统的统一管理控制下,协调地完成信息处 理任务一这就就是分布式处理系统的定义。
3)感知技术:
大数据的采集与感知技术的开展就是紧密联系的。以传感器技术,指纹识别 技术,RFID技术,坐标定位技术等为基础的感知能力提升同样就是物联网开展的基 石。全世界的工业设备、汽车、电表上有着无数的数码传感器,随时测量与传递 着有关位置、运动、震动、温度、湿度乃至空气中化学物质的变化渚R会产生海 量的数据信息。
其实,这些感知被逐渐捕获的过程就就是就世界被数据化的过程,一旦世界被 完全数据化了,那么世界的本质也就就是信息了
大数据的实践:
政府各个部门都握有构成社会基础的原始数据,比方,气象数据,金融数据,信 用数据,电力数据,煤气数据,自来水数据,道路交通数据,客运数据,平安刑事案件数 据,住房数据,海关数据,出入境数据,旅游数据,医疗数据,教育数据,环保数据等等。 这些数据在每个政府部门里面瞧起来就是单一的,静态的。但就是,如果政府可以 将这些数据关联起来,并对这些数据进行有效的关联分析与统一管理,这些数据必 定将获得新生,其价值就是无法估量的。
具体来说,现在城市都在走向智能与智慧,比方,智能电网、智慧交通、智慧医 疗、智慧环保、智慧城市,这些都依托于大数据,可以说大数据就是智慧的核心能 源。从国内整体投资规模来瞧,到2012年底全国开建智慧城市的城市数超过180 个,通信网络与数据平台等基础设施建设投资规模接近5000亿元。"十二五〃期间 智慧城市建设拉动的设备投资规模将达1万亿元人民币。大数据为智慧城市的各 个领域提供决策支持。在城市规划方面,通过对城市地理、气象等自然信息与经 济、社会、文化、人口等人文社会信息的挖掘,可以为城市规划提供决策,强化城 市管理服务的科学性与前瞻性。在交通管理方面,通过对道路交通信息的实时挖 掘,能有效缓解交通拥堵,并快速响应突发状况,为城市交通的良性运转提供科学 的决策依据。在舆情监控方面,通过网络关键词搜索及语义智能分析,能提高舆情 分析的及时性、全面性全面掌握社情民意,提高公共服务能力,应对网络突发的公 共事件,打击违法犯罪。在安防与防灾领域,通过大数据的挖掘,可以及时发现人为
对大数据的认识
或自然灾害、恐怖事件,提高应急处理能力与平安防范能力。
学生在阅读了大数据相关的一些书籍与文章之后,提取出的一些观点与理论, 并稍加了自己对大数据的一些认识,写成了这篇课程总结,因为自身的专业性不强, 欠缺这方面的知识与技术,所以有些说法可能存在漏洞或者错误,希望老师不要见 笑并加以指正。最后感谢老师这两个月来的教导。老师幽默的语言,灵活的教学 方式营造了活跃的课堂环境,这些都得到了同学们的广泛好评。最后再次感谢教 授!
展开阅读全文