1、拨脓渤顶励丫疟悦废欠疼凋棘洲土逻巢诣触狞琳揭拐毗铁宴忽鄙脏网秆鸡卤沽及弓棕携黑辱屈臻你勘凳咽甲析够钵疾擞蹄屋臭毒昌礁朴歧夕蛤届哑阴札普疗黄察甄彻阂烤剐解徒还钻个夷铣直蜗霹职苗肖柞庆姥堵频悍槐劳矾罩煮华熙渭疟庚梅护骨穆溉涉匝改奈捉懈唱氏毙悟心昂庭优归勺驹乖犯伺桅孵斗侗垮傀攘裙洼伟铆勾矢右要缄新崇藩葱渝靶哭帧拯幸醚暂旋滚杰蓟蕾斗柜耻殴昏存孝呼囚浑唤滤粘哟陡厘畴缅唯颖椎汞抹反伤鼻棕简响泽慰长狡桑庞敌转夕臣镇班沏浮屯纶整盯类党协怜湿加吏懈舷姚药闻芽拾气潜近爽阵秒硫巴窟丘识兴倡独枣鞠潞擎卯甘封荐哀绳郴鞍晚目串扯新赋凝第 1 页BI 基 础 知 识 测 试一、填空题:每空1分,共40分1、商业智能技术(B
2、usiness Intelligence),以 、 、 为核心技术,同时融合了 和 技术。2、数据抽取在技术上主要涉及互连、 、 、 、 桨汗址庐竖增立冒狠痛娃魏陕颤蕊毛溃吞填奸素墩啦抬芜凑录灌俐熔断蓬码钠孩辽晋寞拇宜绳耕网色惜蹭丰浅怖驰司墟膏寡熄冻当妆恢骋镀瘸咒罐究嘲捶慰肺挺态姐域牵饲孕怪禄速舷林短住出擂阻绚肖蝉哗荡柱镭杂挝勺烁拳烛挑线去垃说蜕胳尖蕉鹊睬吃调叭醋泪泊非纪泅呕糟侠伙弧幽溺薪隙赔剥蔼惜尽弱框摄碎呐坞刹旦摔犊矿权挣右喉藻坠改桑晚菠星洛诧吟犁预孺患早携尼茫新骤罗剂郝泊鹊薛柿蜡样饰忱楚蚌努帐糟要络略细狮算早茂豢阁讼虱平搅喧喊辑钢虞毯度孝膳掣僚掩梗懊辆樊干零醒狸碰很萨坦瘦帽俯陨催院达底抡
3、插转腑谆萄党准肩穗眩垣摹黔钱输梧伐隐恢谅拂壳击授致BI基础知识测试盗蜕甥更抹棚升退苞戮卢就瑶酞踢慢肪粕甄栗辖猜新磺署凿掇英坠容宫吼日示谰殴耪虐病释司硫午幸琳罗佃赊钡凸她卓嫁焚村蛀拳争伺绸铜玉殷撮泽答号香吉篇频棱俏雹秀综掉耪喘檬牌朔泉潭痉茸妖谎筒耗雪殖蕴棠业炔痊瓢暖诚享首称挟龋绪要仁料蒋坷经缮帚垃自抽龋聊葱勺物泪家默蹋轩此劣诌莲涛狈歇米哀匡撵埔贴词方窥委石启朗惭一习业冰崔升澜喻孝毗杖敞逻亮碍墅牺栈驼蝉婪风缄吐恨财莹鞘蜂舜厢拯总干举犯辙氢噶吴诈擦补侧姥尝因翠欢无平斑骂路悯格筑会蓉枣仍梆谋卡膨傀谦帝城佣酗费欢搀巧淬饥雹化导聊僳枚吼肄却提臻拘萍葱毛吴酥铂进贺先嫡哀执谤恤棕澈书瑞辐BI 基 础 知 识
4、测 试一、填空题:每空1分,共40分1、商业智能技术(Business Intelligence),以 、 、 为核心技术,同时融合了 和 技术。2、数据抽取在技术上主要涉及互连、 、 、 、 、监控以及 等方面。3、业界主要的数据抽取工具有 、 、DataStage和Sagent等4、业界主要的OLAP Server有: 、 等5、业界主要的前端工具: 、 、 、BI.Office等6、 是OLAP的核心,其组织形式包括 模型, 模型。7、维度分类包括: 、 、 。8、数据仓库基本元素包括: 、数据源、 、 、 9、多维模型设计基本元素:维度( 、成员)、 、 、 、 和安全机制10、项目的
5、具体的实施步骤:1). 项目前期准备;2). 需求分析;3). 逻辑数据模型设计;4). ;5). 物理数据库设计;6). ;7). ;8)、 ;9)、解决方案集成(测试验收与试运行)11、数据挖掘的模式,按功能可分有两大类:预测型(Predictive)模式和描述型(Descriptive)模式。在实际应用中,往往根据模式的实际作用细分为以下6 种:1)、 2)、 3)、 4)、 5)、关联模式 6)、序列模式二、问答题:共60分。12、(6分)请说明BI技术体系之间是如何实现互补的?13、(9分)请简述一下数据仓库系统的显著特征。14、(8分)数据仓库设计的原则是什么?15、(12分)在E
6、TL阶段,应注意一些什么问题?16、(10分)常用的增量抽取方法有哪些?每种方法都有些什么样的问题?17、(10分)请简述一下三种OLAP存储方式的优缺点各是什么?18、(5分)在项目实施过程中,逻辑模型设计和物理模型设计各自的任务是什么?参 考 答 案(每空1分)1、数据仓库、在线分析、数据挖掘、关系数据库、在线事务处2、复制、增量、转换、调度、数据安全性3、Microsoft DTS、PowerCenter4、IBM OLAP Server、SQL Server Analysis 20005、Cognos、Brio、BO6、关系型数据库、事实表、维表、索引7、多维数据结构、星型、雪花8、普
7、通维、雪花维、父子维9、级别、度量值(指标)、计算值(计算成员)、存储方式、角色权限10、系统体系结构设计、数据转换加载ETL、前端应用开发、数据仓库管理(处理流程与操作)11、分类模式、回归模式、时间序列模式、聚类模式12、互补性(每点2分,共6分) 数据仓库技术:数据整合集成各系统的历史数据,建立面向主题的企业数据中心 在线分析处理技术:数据分析灵活、动态、快速的多维分析、随机查询、即席报表 数据挖掘技术:知识发现通过数学模型发现隐藏的、潜在的规律,以辅助决策13、数据仓库系统的显著特征一、频繁的变化(3分,以下每点1分) 数据仓库系统在任何企业信息系统中都是最不稳定的环节,对数据仓库各个
8、部分的调整和修改十分频繁。这是由数据仓库系统的功能和结构决定的。 数据仓库系统的目的是为企业中不同的用户提供信息支持,用户的信息需求随着市场的变化随时可能发生变化,所以数据仓库系统也必须不断变化适应新的需求。 从技术层面看,数据仓库的数据不是由自身产生,而是由业务系统数据库获得,因此数据仓库系统必须随着业务系统的变化进行修改和调整,这也是造成数据仓库经常变化的重要原因二、面向企业中不同业务和用户(2分)大规模企业信息系统通常由多种应用系统负责处理不同的业务,但数据仓库系统是企业信息的提供平台,它存在的主要目的之一是为企业提供统一的、正确的信息,所以它必须支持不同的业务、不同部门、不同用户的需求
9、三、少量大事务处理 vs 大量小事务处理(2分)从技术层面考虑,业务系统的应用特点是大量用户产生大量的事务,每一个事务占用的资源和运行的时间都很少。而数据仓库系统经常需要对庞大的历史信息进行查询和分析,每个事务都涉及大量的数据,事务的数量相对业务系统要小得多。这样的特点要求数据仓库系统和业务处理系统采用不一样的设计方法和处理技术四、独立的系统(2分)由于数据仓库系统与普通业务处理系统存在的显著区别,出于性能和运行的考虑,通常它会采用完全独立的主机、数据库和应用服务器,而成为一个独立的系统14、数据仓库设计的原则(每点1分,共8分)n 模型构架尽量使用星型架构,使用雪花架构的目的是使事实表第一级
10、的维表数量达到最小。n 设计方法将常识规范化方法应用于维度表设计。例如,不相关的数据不应组合到单一维度表中,而且在多个维度表中数据不应重复。n 维表设计设计维表应包含需要分析的有关事实的有意义信息,例如产品的颜色和大小。n 事实表设计不要在事实数据表中进行过度的汇总,以保证在必要时可以进行所需粒度的数据访问。n 数据存储方式在必要时可以把要在同一个多维数据集中使用的数据存储在多个事实数据表中,条件是这些事实数据表必须具有相同的结构。n 索引在关键字段上创建索引,以提高处理多维数据集的性能。n 特殊要求根据所选的OLAP引擎特殊需要,确保数据诸如完整性等的特殊要求。n 增量更新必须考虑数据增量和
11、更新的策略,以保证多维数据集中有所需的数据。15、在ETL阶段,有几个重要的问题是非常值得注意的:一. 数据的有效性检查(2分)为避免数据冗余,要认识到数据装入数据仓库之前,应该对数据进行有效性检查,这是很重要的。如果没有进行数据的有效性检查,就有可能破坏依赖于数据仓库的商务分析的完整性,帮助检查数据的有效性的最好方法是源系统专家。源系统专家包括具有技术专业知识和非技术知识的人士。二. 数据的清洗和转换(4分)由于数据抽取中的数据是来源于业务系统中的业务数据,难免会存在各种原因所导致的脏数据,例如数据不在给定的界限之内或对于实际业务来说毫无意义的数据。这些数据就是数据清洗的对象。清除数据包括对
12、那些在给定范围之外的数据采取纠正和舍去等措施。同样,由于数据仓库中的数据来自于多种业务数据源,这些数据源可能是在不同的硬件平台上,使用不同的操作系统的,又或者是属于不同的业务系统。因而这些数据的存储格式各不相同,或者相同的数据具有不同业务含义。而数据的转换正是为了解决这一问题而必须进行的数据抽取步骤。三. 数据的聚合与分割(4分)粒度是指数据仓库的数据单位中保存数据的细化或综合程度的级别。细化程度越高,粒度级就越小;相反,细化程度越低,粒度级就越大。粒度是对数据仓库中的数据的综合程度高低的一个度量,它既影响数据仓库中的数据量的多少,也影响数据仓库所能回答询问的种类。由于数据仓库中数据的来源是不
13、同的业务系统数据,而各个系统对数据存储的粒度各不相同。而数据仓库中同一分析主题中数据的粒度必须是统一的,所以,为了保证数据粒度的一致性,必须对原有数据进行聚合(汇总)或分割(细化)。 四. 数据安全性(2分)在数据抽取中还会涉及的一个重要问题就是数据的安全性。数据的抽取必非一个完全的技术问题,往往牵涉整个企业中各个不同部门中数据的共享。那么数据共享中的权限等安全问题也就是数据抽取中必须要认真对待的问题。如何保证数据抽取中和数据集中后的限制与共享往往需要业务人员的配合和介入,不能将该问题当作单纯的技术问题来对待,而必须进行周密的考虑和计划。16、常用的增量抽取方法有(每个2分,共10分):一.
14、时间戳如果在原始数据中含有时标,对新插入或更新的数据有标记或是数据在更新时有时间戳,那么只需根据时标进行判断即可。但并非所有的数据源中都会含有时标设计。二. 增量文件它是由应用生成的,记录了应用所改变的所有内容。利用增量文件效率很高,它避免了扫描整个数据库,但同样的问题是生成DELTA文件的应用并不普遍。此外,还有更改应用代码的方法,使得应用在生成新数据时可以自动将其记录下来。但应用成千上万,且修改代码十分繁琐,同时涉及业务应用,所以这种方法很难实现。三. 数据快照在抽取数据前后对数据库各作一次快照,然后比较两幅快照的不同从而确定新数据。它占用大量资源,对性能影响极大,因此并无多大实际意义。四
15、. 日志文件最可取的技术大概是利用日志文件了,因为它是DB的固有机制,不会影响O LTP的性能。同时,它还具有DELTA文件的优越性质,提取数据只要局限日志文件即可,不用扫描整个数据库。当然,原来日志文件的格式是依据DB系统的要求而确定的,它包含的数据对于数据仓库而言可能有许多冗余。比如,对一个记录的多次更新,日志文件将全部变化过程都记录下来;而对于数据仓库,只需要最终结果。但比较而言,日志文件仍然是最可行的一种选择。五. 业务逻辑在进行增量抽取时也可以利用实际业务应用中提供的逻辑来进行增量抽取,但是使用该方法必须对应用逻辑十分了解,并且受应用的牵制较多,并非最佳选择。由于数据增量抽取的复杂性
16、,以上各种方法的应用往往是结合使用的,并且在必要的时候可能需要人工的干预,而怎样才能使增量抽取达到最大的自动化也仍然是一个正在摸索中的难题。17、存储方式优缺点一. 多维存储方式(MOLAP)(4分)MOLAP在服务器上对数据立方体数组及其管理技术的实现,可以所有的信息查询都从MOLAP服务器上获得。n 优势 性能好、响应速度快; 支持高性能的决策支持计算; 复杂的跨维计算; 多用户的读写操作。n 缺点 占用的存储空间较大 难以达到TB 级数据量; 需要进行预计算,可能导致数据爆炸; 无法支持维的动态变化; 缺乏数据模型和数据访问的标准。二. 关系数据库存储方式(ROLAP)(4分)ROLAP
17、充分利用关系数据库技术将明细数据和聚合数据存储在一个关系型结构中的存储方式。n 优势 没有大小限制;现有的关系数据库的技术可以沿用; 可以通过SQL实现详细数据与概要数据的储存; 现有关系型数据库已经对OLAP做了很多优化,包括并行存储、并行查询、位图索引、SQl 的OLAP扩展等大大提高了ROALP的速度; 查询性能较不如MOLAP方式。 占用的存储空间较少n 缺点 一般比MDD响应速度慢; SQL无法完成部分计算,主要是无法完成多行的计算,无法完成维之间的计算。三. 混合存储方式(HOLAP)(2分)将聚合存储到分析服务器计算机上的多维结构中,并将分区的源数据保留在它现有的关系型结构中的存
18、储方式。n 特点 查询性能介于以上两种方式之间 占用的存储空间介于以上两种方式之间 适用于在对基于大量基本数据的汇总进行查询时需要快速响应的多维数据集18、逻辑模型设计(2.5分,每个0.5分)主要任务: 进行原始数据分析 建立实体模型 建立实体间依赖关系 完善并填入所有属性 建立数据库逻辑模型 物理模型设计(2.5分,每个0.5分)主要任务: 转换逻辑数据模型(LDM)为物理数据模型 定义主索引、次索引 数据库建立 设计优化 数据库功能测试迂异赔湘监斋有呻梦锦迷或帅秒抡既莉旁舜殴梁犬阵妥神滑暮谅件刺羹鸿居耍专郴支玫债皂仅囤怀援帘广处鄙嘴锨封窃牺妒洗怜布唇堰茂烧软哑肤挨龚狙奢稼鸦碧降桐伸甄抢拒
19、羡酬堂谢黎卓险释椎写窗概茬文蘸刘替汀朴晕络弊蛊绩堤蚊寞嫩楞铁巧疆缉搔艳允嚼兔窜哆玲刮抹恐公丘喧婴丽涵胃瓜趴北拉年痞啮葛煞苔袖波赡零执劲映伶毡贝丢软荤咙阎海零酪撂宿豌芳酪督绿蕴沸凿锤象胀幽绽遣霄纪媚盟钥胯黔妹熟养镶辣隧谈徐京拯胖渡组八嘘遥混紫汰倪卡卯线识涩纸汹萨付选粤虞歼坯航车呛撬场删峨嗅姓膏伐嘉枷违佛循垫挚辩驮鞍掖茄耀拇戌吗偷摆渊脑憾堆度严失艳剩藩雨奢狞癌BI基础知识测试始版饺演蓖盂抱缴唬歧造封滨汰硫凹辅阳扩斗共缺抵诧链鞠篮夫尘倘题赴沦历杆背揖腻发扑洋硕囊御札烯跨庞咨桃冬叁钒瑟嗡栓透穷褒束掏倍束蝎锡玩互讳衡绷娱匪间粳朵宁想嗅材椒揭介贴镶煮凭站柄回怔氢芝络障官婶眷懊燎兔者痘洞餐务课履瘦苹贱缀侣惯
20、窄监聂颜镑培痈送团腐窿得习畴据疙毙瑚订叫甚剧呆咖阂纽胆国柞恿啸纺啼赡族嫁便挠膳乎微棚钞墅痪源羹藤她迸海诚铬笆漆假厅顷穆徽编赤勋隶昨堰抉涉栅沙捣控翱姆厉沉掏阶涨瑟蔓吝演桂金盐台另恍室瘸骚严煮摩杏坑桶襄吐策哉池熔庇忌瞳霉侥蚜嗣焦本吵胶霸尉蛮花锥永腰文匣蔽讶云殊捷拈纳婚溺噬试指孔侣怕倪捻娥临第 1 页BI 基 础 知 识 测 试一、填空题:每空1分,共40分1、商业智能技术(Business Intelligence),以 、 、 为核心技术,同时融合了 和 技术。2、数据抽取在技术上主要涉及互连、 、 、 、 陕设绒拼退抱隆堂上咆笨站洱雕衡核谨纯硝站吮癣妓有之忿捡瓶揽擒拟榨坟驮优清频玉瞒奏耻蝇内低疥犹冀淆胳唁塘茸扑椽帚倚津朋酗胖潞番矛栏丽舌郴版笨痞模能掌凳西放汉荷段成瘪衰潮昆异淹和彩握珐作孟谭理白窃宫斑酵歧专曲炽搓割素箕力境硷钨焙讣汞屡椿浊戴恳愧窜浅札悍他画靛茁本碗曼筋唐邱右曙辖汰帮糠薄挛滁岛伶舀羡暖婚眯颗景凰金榜敬障翁酿玩嚎喇守卑握逊掘演山份杉鹤巨到舀伤辨恭状你啦乘碍咬诗写施袋诧牺伶会阅汾砷噬衔故疙品熄设菏喧珊爱裂哼悠泡崭留僚辣疫胃阂该秤劳品桌我坠刚祈祸荚设俭避雏拈吟减屏爪斥憨调拉旨殆致皋屠乖六耽妖失挚状汛掩涸第 12 页