1、第六章云计算与大数据一、选择题I、大数据的起源是(C )。A.金融B.电信 C.互联网D.公共管理2、大数据的最显著特征是(A )。A.数据规模大 B.数据类型多样C.数据处理速度快D.数据价值密度高3、社会中,最为突出的大数据环境是(A )oA.互联网 B.物联网C.综合国力 D.自然资源4、关于大数据的分析理念的说法中,错误的选项是(B )。A.在数据基础上倾向于全体数据而不是抽样数据B.在分析方法上更注重相关分析而不是因果分析C.在分析效果上更追究效率而不是绝对精确D.在数据规模上强调相对数据而不是绝对数据5、论据中,能够支撑“大数据无所不能”的观点的是(A )oA.互联网金融打破了传统
2、的观念和行为B.大数据存在泡沫C.大数据具有非常高的本钱D.个人隐私泄露与信息平安担忧6、大数据产业开展的特点是(ACE )。(多项选择题)A.规模较大B.规模较小C.增速很快D.增速缓慢E.多产业交叉融合7、大数据管理方式的变革是指(D )A.目标驱动-数据驱动B.基于知识的方法-基于数据的方法C.复杂算法-简单分析D.业务数据化-数据业务化8、大数据计算方式的变革是指(C )A.目标驱动-数据驱动B.基于知识的方法-基于数据的方法C.复杂算法-简单分析D.业务数据化-数据业务化9、健康手环的应用开发,表达了( D )的数据采集技术的应用A.统计报表B.网络爬虫C. API接口 D.传感器1
3、0、大数据在金融行业可用于(D)oA.客户洞察B.创新社会管理C.运营洞察D.市场洞察二、简答题1.大数据的定义与特征?答:大数据的定义:(维基百科)指利用常用软件工具捕获、管理和处理数据所耗时间超过 科容忍时间的数据集,即大数据泛指大规模、超大规模的数据集,因可从中挖掘出有价值的 信息而备受关注。大数据的特征(5V特征):(1)数据体量(Volume)巨大,指收集和分析的数据量非常大,从TB级别跃升至PB 级别;(2)处理速度(Velocity)快,需要对数据进行近实时的分析;(3)数据类别(Variety)大,大数据来自多种数据源,数据种类和格式日渐丰富,包 括结构化、半结构化和非结构化等
4、多种数据形式;(4)数据真实性(Veracity),大数据中的内容是与真实世界中的发生息息相关的,研 究大数据就是从庞大的网络数据中提取能够解释和预测现实事件的过程。(5)价值密度低,商业价值(Value)高,通过分析数据可以得出如何抓住机遇及收获 价值。2.大数据来源、处理基本流程和处理模式?答:大数据的来源:传感器,气候信息,公开信息如杂志、报纸、文章,还包括购买交 易记录,网络日志,病历,军事监控,视频和图像档案,及大型电子商务等。根据来源不同, 大致分为如下几种类型:(1)人类活动:人们通过社会网络、互联网、健康、金融、经济、交通等活动过程所 产生的各类数据;(2)计算机:给类计算机信
5、息系统产生的数据,以文件、数据库、多媒体等形式存在, 也包括审计、日志等自动生成的信息;(3)物理世界:各类数字设备、科学实验与观察所采集的数据,如摄像头、医疗物联 网、气象业务系统等。大数据的处理基本流程:大数据的技术体系涉及大数据的采集与预处理、大数据存储 与管理、大数据计算模式与系统、大数据分析与挖掘、大数据可视化分析及大数据隐私与安 全等几个方面。1 层次的观点,大数据系统可分解成3层:基础设施层、计算层和应用层。大数据的处理模式:大数据分析是在强大的支撑平台上运行分析算法发现隐藏在大数据 中的潜在价值的过程,根据处理时间的需求,大数据的分析处理可以分为两类:(1)流式处理:流式处理假
6、设数据的潜在价值是数据的新鲜度,因此流式处理方式应 尽可能快地处理数据并得到结果。在这种方式下,数据以流的方式到达。在数据连续到达的 过程中,由于流携带了大量数据,只有小局部的流数据被保存在有限的内存中。流处理理论 和技术已研究多年,代表性的开源系统包括Storm, S4和Kafka。流处理方式用于在线应用, 通常工作在秒或毫秒级别。(2)批处理:在批处理方式中,数据首先被存储,随后被分析。MapReduce是非常重 要的批处理模型。它的核心思想是,数据首先被分成假设干小数据块chunks,随后这些数据 块被并行处理并以分布的方式产生中间结果,最后这些中间结果被合并并产生最终结果。 MapRe
7、duce分配与数据存储位置距离较近的计算资源,以防止数据传输的通信开销。由于 简单高效,MapReduce被广泛应用于生物信息、wed挖掘和机器学习中。3 .大数据的平安与隐私?答:计算机使得越来越多的数据以数字化的形式存储在电脑中,互联网技术的开展使数 据的传输、共享更加便利,而数据隐私问题那么越来越严重。大数据在存储、处理、传输等过 程中面临平安风险,具有数据平安和隐私保护需求。呈现出的平安隐私问题主要有:1)大数据时代的平安与传统平安相比,变得更加复杂;2)使用过程中的平安问题;3)对大数据分析较高的企业和团体,面临更多的平安挑战;4)基于位置的隐私数据暴露严重;5)缺乏相关的法律法规保
8、证;6)大数据的共享问题;7)数据动态性;8)多元数据的融合挑战;目前针对上述问题,主要研究解决方法有:文件访问控制技术、基础设备加密、匿名化 保护技术、加密保护技术、数据水印技术、数据溯源技术、基于数据失真的技术、基于可逆 的置换算法。4 .云计算与大数据的关系?答:大数据产生主要归结于互联网、移动设备、物联网和云计算等快速崛起,全球数据 量大幅提升。大数据与云计算两者是相辅相成的,云计算和大数据实际上是工具与用途的关 系,即云计算为大数据提供了有力的工具和途径,大数据为云计算提供了很有用武之地。大 数据着眼于“数据”,关注实际业务,云计算着眼于“计算”,关注IT基础架构,着重数据 处理能力
9、。相同点:1)目的相同,都是为数据存储和处理服务,需要占用大量的存储和计算资源; 2)技术相似,大数据根植于云计算,云计算关键技术中的海量数据存储技术、海量数据管 理技术、MapReduce编程模型,都是大数据技术的基础。不同点:1)背景,大数据不能胜任社交网络和物联网产生的大量异构但有价值数据, 云计算基于互联网服务日益丰富和频繁;2)目标,大数据充分挖掘海量数据中的信息,云 计算扩展和管理计算机软硬件资源和能力;3)对象,大数据对各种数据,云计算对IT资源、 能力和应用;4)推动能力,大数据从事数据存储与处理的软件厂商和拥有大量数据的企业, 云计算针对存储及计算设备的生产厂商和拥有计算及存储资源的企业;5)价值,大数据发 现数据中的价值,云计算节省IT资源部署本钱。5 .从商业价值来看,大数据究竟能往哪些方面挖掘出巨大的商业价值呢?答:根据IDC和麦肯锡的大数据研究结果的总结,大数据主要能在以下4个方面挖掘出 巨大的商业价值:对顾客群体细分,然后对每个群体量体裁衣般地采取独特的行动;运用大 数据模拟实境,开掘新的需求和提高投入的回报率;提高大数据成果在各相关部门的提供程 度,提高整个管理链条和产业链条的投入回报率;进行商业模式、产品和服务的创新。