1、大数据心得体会 xx大数据读书心得体会 大数据是去年的一本畅销书,在xx年的广州南国书香节上曾有过一瞥,后来又几次听闻,一直想好好看看。现在是一个技术奔腾、信息爆炸的社会,大数据这个新鲜热辣的概念一经推出,就受到了人们极大的热捧。这也难怪,每天都身处网络的信息海洋中,常常会有被数据、信息“淹没”窒息感和无力感,不识庐山真面目,只缘身在此山中,我们向鱼儿一样亟待跳出海面,看看当下网络之海中正涌动着的大数据暗流,看看这个大家都在谈论的大数据到底是个什么东西。 书的扉页上写着作者涂子沛对大数据的定义:大数据(bigdata)指一般的软件工具难以捕捉、管理和分析的大容量非结构数据,一般以“太字节”为单
2、位。构成大数据的信息主要包括:宽带普及带来的巨量日志和通讯记录,社交网络每天不断更新的个人信息,视频通讯、医疗影像、地理信息、监控录像等视频记录,传感器、导航设备等非传统it设备产生的数据信息,以及持续增加的各种智能终端产生的图片及信息,这些信息呈爆炸性增长,不断涌入网络海洋。大数据之大并不仅仅在于容量之大,更大的意义在于:通过对海量数据的交换、整合和分析,发现新的知识,创造新的价值,带来大知识、大科技、大利润和大发展。当然这个定义并不是唯一的,intel试图用视频解说的方式告诉我们什么是大数据:大数据入门:大数据如何产生巨大影响力。 这本书将美国的奥巴马大选作为引子,从他的建立透明和开放的政
3、府的雄心壮志讲起,阳光是最好的防腐剂,信息公开和公民社会紧密相连,从政府信息公开化的必要性,到如何筛选、甄别、分析、管理、利用海量的政府部门的数据,因为政府部门涉及人类生活的方方面面,也就逐渐引出信息社会大数据的概念,给我们带来如何应对大数据时代的到来的挑战和机遇的思考。因为这本书信奉一句至理名言:除了上帝,任何人都必须用数据说话。 麦肯锡xx年6月的全球市场报告bigdata。thenextgenerationfrontierforinnovation,competitionandproductivity是深入了解大数据发端和全貌必看的报告,下载地址。 就我个人的理解而言,大数据的概念是社会
4、信息化深入发展的一个阶段,映射到教育信息化的领域中来,又有哪些关联和启示呢。专业领域中常常提到的数据挖掘、个人知识管理都和此有关,学校教育过程是一个有特殊的场景、特定的事物和特殊的角色(学生、教师、教育管理者),随着学校的信息化进程加快,与教育教学和学习相关的环境数据、业务数据和角色数据也将大量增加,这就是是教育领域中的大数据,如何有效获取、筛选、管理和利用也成为挑战和变革的机遇。 有人说生活像一团乱麻,剪不断理还乱;我说生活像一团乱码,尽管云山雾罩惝恍迷离,最后却总会拨云见日雨过天晴。维克托迈尔舍恩伯格就把这团乱码叫做大数据,在他的这本书里,试图给出的就是拨开云雾见青天的玄机。 这玄机说来也
5、简单,就是放弃千百年来人们孜孜追求的因果关系转而投奔相关关系。说来简单,其实却颠覆了多少代人对真理探求的梦想。我觉得作者是个典型的实用主义者,在美帝国主义万恶的压迫和洗脑下,始终追逐性价比和利益最大化,居然放弃了追求共产主义真理最基本的要求。不像我们在天朝光芒的笼罩下,从小就开始学习和追求纯粹的共产主义唯心科学历史文化知识啦。这或许就是我们永远无法获得诺贝尔奖、永远无法站在科技最前沿的根本原因吧。其实小学时候,我就想过这个问题,相信所有的人都问过类似的问题,例如现在仍然很多人在问,妈的从来没人知道我每天摆摊赚多少钱,你们他妈的那人均收入四五千是怎么算出来的。中国是抽样的代表,因为中国人最喜欢用
6、代表来表现整体,最典型的例子莫过于公布的幸福指数满意指数各种指数永远都高于你的预期,你完全不清楚他是怎么来的,一直到最后汇总成三个代表,真心不清楚它到底能代表了啥。说这么多显得自己是个愤青,其实只是想表达“样本=总体”这个概念在科技飞速发展的今天,在世界的不同角落,还是会体现出不同的价值,受到不同程度的对待及关注。在大数据观念的冲击下,我们是不是真的需要将平时关注的重点从事物内在的发展规律转移到事物客观的发生情况上。 大数据的出现,必然对诸多领域产生极大的冲击,某些行业在未来十年必将会得到突飞猛进的发展,而其他一些行业则可能会消失。这是废话,典型的三十年河东三十年河西的道理,就像三十年前的数理
7、化王子们,现在可能蜷缩在某工厂的小角落里颤颤巍巍的修理机器;就像三十年前职业高中的学生才学财会学银行,如今这帮孙子一个个都开大奔养小三攒的楼房够给自己做墓群的了;当然也不乏像生物这种专业,三十年前人们不知道是干啥的,三十年后人们都知道没事别去干,唯一可惜的是我在这三十年之间的历史长河中却恰恰选了这么一个专业,这也是为什么我现在在这写读后感而没有跟姑娘去玩耍的原因。其实乍一看这个题目,我首先想到的是精益生产的过程控制,比如六西格玛,这其实就是通过对所有数据的分析来预测产品品质的变化,就已经是大数据的具体应用了。 而任何事物都会有偏差,会有错误,也就是说,这全部的数据中,肯定是要出现很多与总体反应
8、出的规律相违背的个体,但是无论如何这也是该事件中一般规律的客观体现的一种形式,要远远好过从选定的样本中剔除异常值然后得到的结论。换句话说,也大大减少了排除异己对表达事物客观规律的影响。就好比是统计局统计中国人民的平均收入一样,这些数怎么这么低啊,这不是给我们国家在国际社会上的形象抹黑么,删掉删掉;这些数怎么这么高啊,这还不引起社会不满国家动荡啊,删掉删掉。所以说,大数据至少对反应客观事实和对客观事实做预测这两个方面是有非常积极地意义的。而这个新兴行业所体现的商机,既在如何利用数据上,又在如何取得数据上。 先说数据的利用,这里面表达的就是作者在通书中强调的对“相关关系”的挖掘利用。相关关系与因果
9、关系便不再赘述,而能够对相关关系进行挖掘利用的企业其实缺不多,因为可以相信未来的大数据库就像现在的自然资源一样,必将因为对利益的追逐成为稀缺资源,而最终落在个别人或企业或部门的手中。想想无论当你想要做什么事情的时候,都有人已经提前知道并且为你做好了计划,还真是一件甜蜜而又令人不寒而栗的事情。 而对于数据的获取,我觉得必然是未来中小型企业甚至个人发挥极致的创造力的领域。如何在尽可能降低成本的情况下采集到越多越准确的数据是必然的发展趋势,鉴于这三个维度事实上都无法做到极致,那么对于数据获取方式的争夺肯定将成就更多的英雄人物。 现在回头从说说作者书中的观点中想到的,p87中关于巴斯德的疫苗的事件,描
10、述了一个被疯狗咬伤的小孩,在接种了巴斯德的狂犬疫苗后成功幸存,巴斯德成了英雄的故事。这是个非常有意思的案例,因为小孩被狗咬伤而患病的概率仅为七分之一,也就是说,本事件有85%的概率是小孩根本就不会患病。那么小孩的生命到底是不是巴斯德救的,而这疫苗到底是有效没效,通过这个事件似乎根本就没有办法得到验证。这就好比某人推出个四万亿计划,但实际上国际经济形势就是好转,哪怕你只推出个二百五计划,gdp都会蹭蹭的往上涨,而且又不会带来四万亿导致的严重通胀、产能过剩、房价泡沫等问题。那你说这四万亿到底是救了国还是误了国。回到我自己的工作领域上来,安全工作,我们一直遵循的方向都是寻找因果关系,典型的从工作前的风险评估,到调查事故的taproot或者五个为什么,无一不是逻辑推理得到结果的产物。而事实上,如果能做到信息的丰富采集和汇总的话,找出事物之间的相关性,对提高工作环境的安全系数是极为有利的。这个点留着,看看可不可以在未来继续做进一步研究。第6页 共6页
©2010-2024 宁波自信网络信息技术有限公司 版权所有
客服电话:4008-655-100 投诉/维权电话:4009-655-100