收藏 分销(赏)

第6数据库技术.pptx

上传人:天**** 文档编号:4206583 上传时间:2024-08-23 格式:PPTX 页数:59 大小:348.73KB
下载 相关 举报
第6数据库技术.pptx_第1页
第1页 / 共59页
第6数据库技术.pptx_第2页
第2页 / 共59页
第6数据库技术.pptx_第3页
第3页 / 共59页
第6数据库技术.pptx_第4页
第4页 / 共59页
第6数据库技术.pptx_第5页
第5页 / 共59页
点击查看更多>>
资源描述

1、1本章学习要求本章学习要求:了解:数据仓库与数据挖掘技术了解:数据仓库与数据挖掘技术。掌握:数据库技术。掌握:数据库技术。掌握:数据存储技术。掌握:数据存储技术。掌握:数据备份技术。掌握:数据备份技术。掌握:数据安全技术。掌握:数据安全技术。了解:了解:数据大集中技术。数据大集中技术。26.1 数据库技术数据库技术6.1.1 6.1.1 数据库基本概念数据库基本概念数数据据库库(DataBase,DataBase,DB):DB):可可认认为为数数据据是是被被长长期期存存放放在在计计算算机机内内、有组织的、可以表现为多种形式的可共享的数据集合有组织的、可以表现为多种形式的可共享的数据集合。二二层

2、层意意思思 :一一是是数数据据库库是是一一个个实实体体 ;二二是是数数据据库库是是数数据据管管理理的的新方法和技术。新方法和技术。数数据据库库技技术术:是是管管理理数数据据的的技技术术和和手手段段,即即使使数数据据能能按按一一定定格格式式组组织织、描描述述和和存存储储,且且具具有有较较小小的的冗冗余余度度、较较高高的的数数据据独独立性和易扩展性,并可为多个用户所共享。立性和易扩展性,并可为多个用户所共享。数数据据库库系系统统:通通常常是是指指带带有有数数据据库库的的计计算算机机应应用用系系统统,因因此此,数数据据库库系系统统不不仅仅包包括括数数据据库库本本身身,即即实实际际存存储储在在计计算算

3、机机中中的的数据,还包括相应的硬件、软件和各类人员。数据,还包括相应的硬件、软件和各类人员。3数据库系统组成数据库系统组成 硬件硬件 :大内存(存放软件)和大外存(数据备份):大内存(存放软件)和大外存(数据备份)和高的数据传输率。和高的数据传输率。软件软件 :包括:包括DBMS DBMS、操作系统、数据库应用软件、操作系统、数据库应用软件(MISMIS、DSSDSS、OAOA)等。等。数据数据 :是数据库的基本组成内容和操作对象。:是数据库的基本组成内容和操作对象。人员人员 :包括:包括DBADBA、系统分析员、系统分析员 、应用程序员、应用程序员 、用户、用户 。4数据库特点数据库特点速速

4、度度快快:与与手手工工操操作作相相比比,其其查查询询迅迅速速,准准确确,而而且且可可以省去大量的纸面文件以省去大量的纸面文件数数据据结结构构化化且且统统一一管管理理:把把文文件件系系统统中中简简单单的的记记录录结结构构变成记录与记录间的联系所构成的结构化数据。变成记录与记录间的联系所构成的结构化数据。数据冗余度小数据冗余度小:使用逻辑文件。使用逻辑文件。具有较高的数据独立性:应用程序与数据无信赖性。具有较高的数据独立性:应用程序与数据无信赖性。数据的共享性好数据的共享性好 数据控制功能:数据控制功能:数据安全性保护数据安全性保护 数据完整性数据完整性并发控制并发控制 数据库恢复数据库恢复程序程

5、序A A程序程序B B程序程序C C逻辑逻辑文件文件A A逻辑逻辑文件文件B B逻辑逻辑文件文件C CDBMSDB56.1.2 6.1.2 数据库技术的发展数据库技术的发展分布式数据库分布式数据库 分分布布式式数数据据库库是是一一组组结结构构化化的的数数据据集集合合,它它们们在在逻逻辑辑上上属属于于同同一一系系统统而而在在物物理理上上分分布布在在计计算算机机网网络的不同结点(络的不同结点(site)site)上上 。分分布布式式数数据据库库中中就就有有全全局局数数据据库库和和局局部部数数据据库库这这样两个概念样两个概念 :全全局局数数据据库库就就是是从从系系统统的的角角度度出出发发,指指逻逻辑

6、辑上上一一组结构化的数据集合或逻辑项集组结构化的数据集合或逻辑项集 局局部部数数据据库库是是从从各各个个场场地地的的角角度度出出发发,指指物物理理结结点上各个数据库,即子集或物理项集点上各个数据库,即子集或物理项集 6 分布式数据库应用案例分布式数据库应用案例银银行行中中的的很很多多业业务务,并并非非只只限限于于某某一一支支行行的的数数据据库库。如如银银行行中中的的通通兑兑业业务务,即即场场地地1 1存存款款的的用用户户可可能能到到场场地地2 2或或场场地地3 3去去取取款款;银银行行中中的的转转帐帐业业务务,要要求求从从一一个个支支行行的的帐帐户户中中转转出出若若干干金金额额到到另另一一个个

7、支支行行的的帐帐户户中中去去。这这些些应应用用要要求求就就要要同同时时更更新新两两个个支支行行(场场地地)上上的的数数据据库库。我我们们把把这这些些应应用用称称为为全全局局应应用用(或分布应用)。(或分布应用)。7 分布式数据库应用案例图分布式数据库应用案例图场地1T1T2T3DB1计算机1场地2T1T2T3DB2计算机2场地3T1T2T3DB3计算机3网络图图6.1分布式数据库系统的例子分布式数据库系统的例子场地场地1场地场地2场地场地38其他数据库其他数据库 主动数据库主动数据库 :主动数据库是相对传统数据库的被动性而言的:主动数据库是相对传统数据库的被动性而言的 ,所谓主动数据库就是除了

8、完成一切传统数据库的服务外,还具有所谓主动数据库就是除了完成一切传统数据库的服务外,还具有各种主动服务功能的数据库系统,即各种主动服务功能的数据库系统,即DB+AIDB+AI。多媒体数据库多媒体数据库:多媒体数据库是指能够存储查询和管理相互关联:多媒体数据库是指能够存储查询和管理相互关联的多媒体数据的集合的多媒体数据的集合 ,它必须支持大对象的存储。,它必须支持大对象的存储。模糊数据库系统模糊数据库系统:用于存储、操作和管理模糊数据。:用于存储、操作和管理模糊数据。并行数据库系统并行数据库系统:是在并行机上运行的具有并行处理能力的数据:是在并行机上运行的具有并行处理能力的数据系统。系统。知识库

9、知识库:DB+AI.:DB+AI.空间数据库空间数据库(Spatial Database System,SDBS):(Spatial Database System,SDBS):例例GISGIS系统系统.数据仓库数据仓库(Data Warehouse,DW):(Data Warehouse,DW):面向主题面向主题、集成集成、相对稳定相对稳定、反映反映历史变化历史变化、数据随时间变化。数据随时间变化。协同数据库等。协同数据库等。96.1.3 常见数据库产品常见数据库产品DB2DB2 :IBMIBM公公司司的的产产品品,采采用用多多进进程程多多线线索索体体系系结结构构,可可以以运运行行于于多多种

10、种操操作作系系统统之之上上 。具具有有多多种种特特色色。是是目目前前具具有有最最好好性性能能和和最佳性价比的关系型数据库。最佳性价比的关系型数据库。OracleOracle :是是常常用用大大型型数数据据库库之之一一,可可在在不不同同的的OSOS上上运运行行,在在OracleOracle上上开开发发的的应应用用可可移移植植到到任任何何OSOS。自自5 5版版本本开开始始具具有有分分布布式式数数据据库库处处理理功功能能。8i 8i支支持持超超大大型型数数据据库库,支支持持面面向向对对象象,具具有有因因特特网上的数据库访问功能,网上的数据库访问功能,9i 9i具有坚不可摧的安全性。具有坚不可摧的安

11、全性。OracleOracle比比SQL Server SQL Server 的性能更好,可很好地适应数据仓库应用。的性能更好,可很好地适应数据仓库应用。InformixInformix:大大型型数数据据库库,19831983年年首首推推在在UnixUnix上上运运行行的的关关系系型型数数据据库库,其其UnixUnix平平台台占占据据全全球球主主要要市市场场。并并已已发发展展成成为为基基于于intenetintenet的数据库管理厂商。的数据库管理厂商。106.1.3 常见数据库产品常见数据库产品SybaseSybase :是是数数据据库库产产品品的的后后起起之之秀秀,它它把把C/SC/S数数

12、据据库库体体系系结结构构作作为为开开发发产产品品的的重重点点目目标标,其其高高版版本本支支持持企企业业内内部部各各种种数数据据库库应应用用需需求求,如如数数据据仓仓库库、联联机机事事务务处处理理OLTPOLTP、决策支持系统决策支持系统DDSDDS等。等。SQLSQL(Structured Structured Query Query Language Language)Server:)Server:是是基基于于C/SC/S模模型型的的RDBMSRDBMS,易易学学、易易用用。是是使使用用广广泛泛的的大大众众化化数数据据库库产产品品,用用户户可可自自行行安安装装和和使使用用。它它也也是是全全球

13、球第第一一个个支支持持WebWeb应用的数据库。应用的数据库。IngresIngres116.1.4 银行数据库特点银行数据库特点具有很高的稳定性、可靠性和可伸缩性具有很高的稳定性、可靠性和可伸缩性 基于开放式的体系结构基于开放式的体系结构 统一的、易操作的数据库管理平台统一的、易操作的数据库管理平台 具有可靠的数据库安全性控制机制具有可靠的数据库安全性控制机制 数据库应支持超大数据量的存储与管理数据库应支持超大数据量的存储与管理 支持分布式数据库处理能力支持分布式数据库处理能力 具具有有决决策策支支持持能能力力,支支持持多多维维分分析析、即即席席查查询询(ad-hoc query)ad-ho

14、c query)和强大的报表功能和强大的报表功能 能够同时支持能够同时支持InternetInternet和和IntranetIntranet访问功能访问功能 126.2 数据仓库与数据挖掘数据仓库与数据挖掘 6.2.1 6.2.1 数据仓库的概念和特点数据仓库的概念和特点数据仓库数据仓库(data warehouse)(data warehouse)概念始于本世纪概念始于本世纪8080年代中期。年代中期。随着人们对大型数据系统研究、管理、维护等方面的随着人们对大型数据系统研究、管理、维护等方面的深刻识认和不断完善,在总结、丰富、集中多项企业深刻识认和不断完善,在总结、丰富、集中多项企业信息的

15、经验之后,为数据仓库给出了更为精确的定义,信息的经验之后,为数据仓库给出了更为精确的定义,即即“数据仓库是在企业管理和决策中面向主题的、集数据仓库是在企业管理和决策中面向主题的、集成的、与时间相关的、不可修改的数据集合成的、与时间相关的、不可修改的数据集合”。数据仓库无严格的数学理论基础,也无成熟的基本模数据仓库无严格的数学理论基础,也无成熟的基本模式,但具有很强的工程性。式,但具有很强的工程性。13数据仓库的三个基本方面数据仓库的三个基本方面数数据据的的抽抽取取:是是数数据据进进入入仓仓库库的的入入口口,它它将将数数据据从从联联机机事事务务处处理理系系统统、外外部部数数据据源源、脱脱机机的的

16、数数据据存存储储介介质质中中导入到数据仓库导入到数据仓库 。存存储储和和管管理理:是是数数据据仓仓库库的的真真正正关关键键。数数据据仓仓库库的的组组织织管管理理方方式式决决定定了了它它有有别别于于传传统统数数据据库库,同同时时也也决决定定了其对外部数据的表现形式了其对外部数据的表现形式。数数据据的的表表现现:数数理理统统计计的的算算法法和和功功能能已已经经普普遍遍集集成成到到联联机机分分析析产产品品之之中中,同同时时又又与与Internet/WebInternet/Web技技术术紧紧密密结合结合。14数据库与数据仓库的关系数据库与数据仓库的关系数数据据仓仓库库对对关关系系数数据据库库的的联联机

17、机分分析析能能力力提提出出了了更更高高的的要要求求,数数据据仓仓库库实实际际上上是是一一个个“以以大大型型数数据据管管理理信信息息系系统统为为基基础础的的、附附加加在在这这个个数数据据库库系系统统之之上上的的、存存储储了了从从企企业业所所有有业业务务数数据据库库中中获获取取的的综综合合数数据据的的、并并能能利利用用这这些些综综合合数数据据为为用用户户提提供供经经过过处处理理后后的的有有用用信信息息的的应用系统应用系统”。传传统统数数据据库库系系统统是是单单一一的的数数据据库库资资源源,适适合合操操作作型型事事务务处处理理,分分析析处处理理能能力力弱弱。重重点点与与要要求求是是快快速速、准准确确

18、、安全、可靠地将数据存进数据库中安全、可靠地将数据存进数据库中.数数据据仓仓库库以以统统计计分分析析技技术术为为手手段段,重重点点与与要要求求是是能能准准确确、安安全全、可可靠靠地地从从数数据据库库中中取取出出数数据据,经经过过加加工工转转换成有规律信息之后,再供管理人员进行分析使用。换成有规律信息之后,再供管理人员进行分析使用。15数据仓库的三个工具层数据仓库的三个工具层联联机机分分析析处处理理(OLAP):(OLAP):能能提提供供数数据据的的多多维维概概念念视视图图,使使最最终终用用户户能能多多角角度度、多多侧侧面面、多多层层次次地地考考察察数数据据库库中中的数据,并以多维形式展示给用户

19、。的数据,并以多维形式展示给用户。决决策策支支持持系系统统(DSS):(DSS):涵涵盖盖了了联联机机分分析析处处理理和和数数据据挖挖掘掘两两个领域,能够为分析决策提供服务。个领域,能够为分析决策提供服务。数数据据挖挖掘掘(data(data mining):mining):数数据据挖挖掘掘技技术术是是数数据据仓仓库库应应用用中中比比较较重重要要也也是是相相对对独独立立的的部部分分。目目前前,数数据据挖挖掘掘技技术术正正处处在在发发展展当当中中。数数据据挖挖掘掘涉涉及及到到数数理理统统计计、模模糊糊理理论论、神神经经网网络络和和人人工工智智能能等等多多种种技技术术,技技术术含含量量比比较较高,

20、实现难度较大。高,实现难度较大。166.2.26.2.2数据挖掘数据挖掘 1.数据挖掘的概念数据挖掘的概念数数据据挖挖掘掘就就是是从从大大量量的的、不不完完全全的的、有有噪噪声声的的、模模糊糊的的、随随机机的的数数据据中中,提提取取隐隐含含在在其其中中的的、人人们们事事先先不不知知道道的的、但但又又是是潜潜在在有有用用的的信信息息和和知知识识的的过过程程。数数据据挖挖掘掘是是一一种种从从大大型型数数据据库库或或数数据据仓仓库库中中提提取取隐隐藏藏的的预预测测性性信信息息的的新新技技术术。它它能能开开采采出出潜潜在在的的模模式式,找找出出最最有价值的信息,指导商业行为或辅助科学研究。有价值的信息

21、,指导商业行为或辅助科学研究。即即从从”数数据据矿矿山山”中中找找到到蕴蕴藏藏的的”知知识识金金块块”.帮帮助助企业减少不必要的投资的同时能提高资金回报企业减少不必要的投资的同时能提高资金回报.17数据仓库和数据挖掘的关系数据仓库和数据挖掘的关系数据仓库为数据挖掘所做的数据仓库为数据挖掘所做的,应该从数据整合和清洗应该从数据整合和清洗的角度来理解。即的角度来理解。即,数据仓库将不同操作源的数据存数据仓库将不同操作源的数据存放到一个集中的环境中放到一个集中的环境中,并且进行适当的清洗和转换。并且进行适当的清洗和转换。数据挖掘所需要的数据数据挖掘所需要的数据,能够直接从数据仓库获得能够直接从数据仓

22、库获得,但是获得后还是需要进行转换但是获得后还是需要进行转换,若没有数据仓库,就若没有数据仓库,就要直接从操作型数据源中获取要直接从操作型数据源中获取,且要进行且要进行ECTL(ECTL(抽取抽取、清洗清洗、转换转换、装载装载)的操作。的操作。数据仓库不仅是集成数据的一种方式数据仓库不仅是集成数据的一种方式,它的它的OLAPOLAP功能功能也为数据挖掘提供极佳的操作平台。也为数据挖掘提供极佳的操作平台。在数据挖掘过程中在数据挖掘过程中,若能将数据挖掘与数据仓库有效若能将数据挖掘与数据仓库有效的联结的联结,将增加数据挖掘的联机挖掘功能。将增加数据挖掘的联机挖掘功能。18数据挖掘的主要方法数据挖掘

23、的主要方法决策树决策树(Decision Tree):(Decision Tree):也叫分类树也叫分类树,是建立在信息论基础之上是建立在信息论基础之上,对对数据进行分类的一种方法。数据进行分类的一种方法。决策树方法精确度较高决策树方法精确度较高,结果易理结果易理解解,效率较高效率较高,较常用。较常用。神经网络神经网络(Neural Network):(Neural Network):它模拟人脑的功能它模拟人脑的功能.神经网络建神经网络建立在自学习的数学模型基础之上。它可对大量复杂的数据进行立在自学习的数学模型基础之上。它可对大量复杂的数据进行分析,并可完成对人脑或其他计算机来说极为复杂的模式

24、抽取分析,并可完成对人脑或其他计算机来说极为复杂的模式抽取及趋势分析。及趋势分析。相关规则相关规则 :相关规则是一种简单却很实用的关联分析规则,它描相关规则是一种简单却很实用的关联分析规则,它描述了一个事物中某些属性同时出现的规律和模式。述了一个事物中某些属性同时出现的规律和模式。K-nearestK-nearest邻居邻居:邻居就是彼此距离很近的数据。邻居就是彼此距离很近的数据。遗传算法遗传算法 :遗传算法是一种基于生物进化论和分子遗传学的搜遗传算法是一种基于生物进化论和分子遗传学的搜索优化算法。索优化算法。19关于决策树关于决策树决策树对比神经元网络的优点在于可以生成一些规决策树对比神经元

25、网络的优点在于可以生成一些规则。则。当我们进行一些决策,同时需要相应的理由的时候,当我们进行一些决策,同时需要相应的理由的时候,使用神经元网络就不行了。使用神经元网络就不行了。决策树一般都是自上而下的生成的。决策树一般都是自上而下的生成的。从根到叶子节点都有一条路径,这条路径就是一条从根到叶子节点都有一条路径,这条路径就是一条“规则规则”。决策树可以是二叉的,也可以是多叉的。决策树可以是二叉的,也可以是多叉的。20数据挖掘的主要步骤数据挖掘的主要步骤数据取样数据取样:从企业大量数据中取出一个与要搜索的问题相关的从企业大量数据中取出一个与要搜索的问题相关的样板数据子集。样板数据子集。数据探索数据

26、探索:是通常所进行的对数据深入调查的过程是通常所进行的对数据深入调查的过程.。数据整理数据整理:在前二步的基础上在前二步的基础上,对数据对数据进一步量化进一步量化.。数据挖掘数据挖掘:建立模型,用各种数据挖掘方法对数据进行分析。建立模型,用各种数据挖掘方法对数据进行分析。此步是数据挖掘的核心环节,运用神经网络、决策树、数理此步是数据挖掘的核心环节,运用神经网络、决策树、数理统计、时间序列分析等方法来建立模型。统计、时间序列分析等方法来建立模型。评估评估:方法方法1是直接使用原先建立模型样本和样本数据来进是直接使用原先建立模型样本和样本数据来进行检验。行检验。方法方法2是另找一批数据并对其进行检

27、验,已知这些数据能反是另找一批数据并对其进行检验,已知这些数据能反映客观实践的规律性。映客观实践的规律性。方法方法3在实际运行的环境中取出新鲜数据进行检验。在实际运行的环境中取出新鲜数据进行检验。21数据挖掘的主要步骤数据挖掘的主要步骤大的数据大的数据集合集合建模建模1 1建模建模2 2建模建模3评价评价抽样抽样最优输出最优输出22银行建立数据仓库的必要性银行建立数据仓库的必要性中国银行业的电子化和信息化不是终极目的。信息化本质是保中国银行业的电子化和信息化不是终极目的。信息化本质是保证银行具备核心竞争力的一系列重要工具,而在信息化工具组证银行具备核心竞争力的一系列重要工具,而在信息化工具组合

28、中,更为锐利、高效和复杂的数据挖掘工具,还没有被中国合中,更为锐利、高效和复杂的数据挖掘工具,还没有被中国银行业所广泛掌握。导致银行业所广泛掌握。导致“数据爆炸但知识贫乏数据爆炸但知识贫乏”。银行产品具有相当的同质性,银行之间的差别,往往在于谁掌银行产品具有相当的同质性,银行之间的差别,往往在于谁掌握了客户关系,以及海量的业务和客户信息背后的独特业务规握了客户关系,以及海量的业务和客户信息背后的独特业务规律,谁就可以科学地制定决策。律,谁就可以科学地制定决策。现在银行实施的大多数系统所现在银行实施的大多数系统所基于的数据库只能实现数据的录入、查询、统计等较低层次的基于的数据库只能实现数据的录入

29、、查询、统计等较低层次的功能,但却无法发现数据中存在的关联关系和业务规律,更难功能,但却无法发现数据中存在的关联关系和业务规律,更难以根据现有的数据预测未来业务的发展趋势。以根据现有的数据预测未来业务的发展趋势。目前看来,在银行管理客户生命周期的各个阶段都会用到数据目前看来,在银行管理客户生命周期的各个阶段都会用到数据挖掘技术。挖掘技术。23数据挖掘技术在银行应用中的案例数据挖掘技术在银行应用中的案例美国美国FirstarFirstar银行使用银行使用MarksmanMarksman数据挖掘工具数据挖掘工具,根据客根据客户的消费模式预测何时为客户提供何种产品。户的消费模式预测何时为客户提供何种

30、产品。FirstarFirstar银行市场调查和数据库营销部经理发现:公共数据银行市场调查和数据库营销部经理发现:公共数据库中存储着关于每位消费者的大量信息库中存储着关于每位消费者的大量信息,关键是要透关键是要透彻分析消费者投入到新产品中的原因彻分析消费者投入到新产品中的原因,在数据库中找在数据库中找到一种模式到一种模式,从而能够为每种新产品找到最合适的消从而能够为每种新产品找到最合适的消费者。费者。MellonMellon银行使用银行使用Intelligent AgentIntelligent Agent数据挖掘软件提高销数据挖掘软件提高销售和定价金融产品的精确度售和定价金融产品的精确度,如

31、家庭普通贷款。如家庭普通贷款。246.3 6.3 银行数据存储技术银行数据存储技术6.3.16.3.1硬件冗余技术硬件冗余技术磁盘冗余实际上就是指磁盘冗余实际上就是指RAIDRAID(磁盘陈列)技术。(磁盘陈列)技术。RAIDRAID是在是在CPUCPU性能逐年增强性能逐年增强,而输入输出设备速度受限,存而输入输出设备速度受限,存储容量又与日俱增的背景下产生的。储容量又与日俱增的背景下产生的。RAIDRAID是由美国加州大学是由美国加州大学伯克利分校的伯克利分校的D.A.PattersonD.A.Patterson教授在教授在19881988年提出的。年提出的。RAIDRAID(Redunda

32、nt Array Inexpensive DisksRedundant Array Inexpensive Disks,RAIDRAID)可直译为)可直译为“廉价冗余磁盘阵列廉价冗余磁盘阵列”,简称为简称为“磁盘阵列磁盘阵列”。后来后来,工业界工业界人士把人士把RAIDRAID中的中的InexpensiveInexpensive改成改成IndependentIndependent,RAIDRAID就成了就成了“独立冗余磁盘阵列独立冗余磁盘阵列”,但只是名称上的变化但只是名称上的变化,实质性内容并没实质性内容并没改变。改变。RAIDRAID技术经过不断的发展,现在已拥有了从技术经过不断的发展,现

33、在已拥有了从 RAID 0 RAID 0 到到 6 6 七七种基本的种基本的RAID RAID 级别,但最常用的是级别,但最常用的是RAID 0RAID 0、RAID 1RAID 1、RAID0+1RAID0+1、RAID 5RAID 5等几种方式等几种方式。25RAID 0 RAID 0 技术技术RAID RAID 0 0又又称称为为StripeStripe或或StripingStriping(无无差差错错控控制制磁磁盘盘阵阵列列),它它代代表表了了所所有有RAIDRAID级级别别中中最最高高的的存存储储性性能能。RAID RAID 0 0提提高高存存储储性性能能的的原原理理是是把把连连续续

34、的的数数据据分分散散到到多多个个磁磁盘盘上上存存取取,这这样样,系系统统有有数数据据请请求求就就可可以以被被多多个个磁磁盘盘并并行行的的执执行行,每每个个磁磁盘盘执执行行属属于于它它自自己己的的那那部部分分数数据据请请求求。这这种种数数据据上上的的并并行行操操作作可可以以充充分分利利用用总总线线的的带带宽宽,显著提高磁盘整体存取性能显著提高磁盘整体存取性能 26RAID 0 RAID 0 图示图示右右图图显显示示的的一一个个具具有有3 3个个逻逻辑辑磁磁盘盘(Disk Disk 0 0、Dsik Dsik 1 1、Disk Disk 2)2)的的数数据存储的过程。据存储的过程。RAID0RAI

35、D0是一个极端追求性能的方案,它至少使用两个硬盘,数据同时分布在各个是一个极端追求性能的方案,它至少使用两个硬盘,数据同时分布在各个硬盘上,没有容错能力。从图中可见,因一个传输过程由多个硬盘分硬盘上,没有容错能力。从图中可见,因一个传输过程由多个硬盘分担,这相当担,这相当于增加了传输带宽,所以于增加了传输带宽,所以RAID0RAID0的读写速度在整个的读写速度在整个RAIDRAID中列居首位,但因任何一中列居首位,但因任何一个硬盘损坏都会使整个个硬盘损坏都会使整个RAIDRAID系统失效,所以其安全性反而比单个硬盘低。系统失效,所以其安全性反而比单个硬盘低。因此,因此,RAID 0RAID 0

36、一般用于对数据安全性要求不高,但对速度要求很高的场合。一般用于对数据安全性要求不高,但对速度要求很高的场合。27RAID 1 RAID 1 技术技术RAID RAID 1 1又又称称为为MirrorMirror或或MirroringMirroring(镜镜象象磁磁盘盘阵阵列列),它它的的宗宗旨旨是是最最大大限限度度的的保保证证用用户户数数据据的的可可用用性性和和可可修修复复性性。RAID RAID 1 1的的操操作作方方式式是是把把用用户户写写入入硬硬盘盘Disk Disk 0 0的的数数据据百百分分之之百百地地自自动动复复制制到到另外一个硬盘另外一个硬盘Disk 1Disk 1上。上。28R

37、AID 1RAID 1图示图示读读取取数数据据时时,系系统统先先从从Disk Disk 0 0的的源源盘盘读读取取数数据据,如如果果读读取取数数据据成成功功,则则系系统统不不去去管管备备份份盘盘Disk Disk 1 1上上的的数数据据;如如果果读读取取源源盘盘数数据据失失败败,则则系系统统自自动动转转而而读读取取备备份份盘盘上上的的数数据据,不不会会造造成成用用户户工工作作任任务务的中断,如图所示。的中断,如图所示。29RAID 0+1 RAID 0+1 技术技术 正正如如其其名名字字一一样样,RAID RAID 0+10+1就就是是RAID RAID 0 0和和RAID RAID 1 1两

38、两种种方方案案的的组组合合形形式式,也也称称为为RAID RAID 10.10.以以四四个个磁磁盘盘组组成成的的RAID RAID 0+10+1为为例例,数数据据在在存存储储时时不不仅仅分分文文件件片片形形式式顺顺序序保保存存在在两两个个RAID RAID 0 0中中的的Disk Disk 0 0与与Disk Disk 2 2,或或Disk Disk 1 1与与Disk Disk 3 3中中,同同时时还还会会用用Disk Disk 1 1与与Disk Disk 3 3 或或者者Disk Disk 0 0与与Disk Disk 2 2完完全全备备份份保保存存Disk Disk 0 0与与Disk

39、 2Disk 2或或Disk 1Disk 1与与Disk 3Disk 3中的数据中的数据 。RAID1RAID10 0至至少少需需要要4 4个个硬硬盘盘,其其中中两两个个作作为为数数据据盘盘,另另两两个个作作为为数数据据的的镜镜像像盘盘。这这样样,RAID1RAID10 0在在理理论论上上同同时时保保证证了了RAID0RAID0的的性性能能和和RAID1RAID1的的安安全全性性,为为之之付付出出的的代代价价是是比比RAID0RAID0或或RAID1RAID1多多1 1倍倍的的硬硬盘盘数数量量,但但兼兼顾顾了了高高性性能能和和安安全全性。性。30RAID 0+1RAID 0+1图示图示RAID

40、 RAID 0+10+1是是存存储储性性能能和和数数据据安安全全兼兼顾顾的的方方案案,它它在在提提供供与与RAID RAID 1 1一一样样的的数数据据安安全全保保障障的的同同 时时,也也 提提 供供 了了 与与RAID RAID 0 0近近似似的的存存储储性性能能 。31RAID 2、RAID 3、RAID 4技术RAID RAID 2 2:又又称称为为“纠纠错错码码磁磁盘盘阵阵列列。磁磁盘盘驱驱动动器器组组中中的的第第一一个个、第第二二个个、第第四四个个第第2n2n个个磁磁盘盘驱驱动动器器是是专专门门的的校校验验盘盘,用用于于校校验验和和纠纠错错 ,其余的用于存放数据。,其余的用于存放数据

41、。RAID RAID 3 3和和RAID RAID 4 4:又又称称 奇奇校校验验或或偶偶校校验验的的磁磁盘盘阵阵列列。不不论论有有多多少少数数据据盘盘,均均使使用用一一个个校校验验盘盘,采采用用奇奇偶偶校校验验的的方方法法检检查查错错误误,任任何何一一个单独的磁盘驱动器损坏都可以恢复。个单独的磁盘驱动器损坏都可以恢复。32RAID4硬盘硬盘0 0硬盘硬盘1 1RAID4RAID4数据存放分布图数据存放分布图143625P1P2硬盘硬盘4 4P1P1为数据块为数据块1 1、2 2、3 3的奇偶值的奇偶值,P2P2为数据块为数据块4 4、5 5、6 6的奇偶值的奇偶值硬盘硬盘3 3RAID4RA

42、ID4是在是在RAID0RAID0的基础上,对的基础上,对N N个存储数据的硬盘再增加一个校验磁盘。个存储数据的硬盘再增加一个校验磁盘。当当N+1N+1个硬盘中任一个出故障时,可利用其余的个硬盘中任一个出故障时,可利用其余的N N个硬盘计算出故障盘中个硬盘计算出故障盘中的正确的数据内容,但计算很费时。另外,此方案因受奇偶校验盘的制约,的正确的数据内容,但计算很费时。另外,此方案因受奇偶校验盘的制约,不支持多个数据盘的并行写操作。不支持多个数据盘的并行写操作。33RAID 5RAID 5图示图示 RAID RAID 5 5是是一一种种存存储储性性能能、数数据据安安全全和和存存储储成成本本兼兼顾顾

43、的存储解决方案。的存储解决方案。以以四四个个硬硬盘盘组组成成的的RAID RAID 5 5为为例例,它它的的数数据据存存储储方方式式如如下下图图4 4所所示示:图图中中,P0P0为为D0D0,D1D1和和D2D2的的奇奇偶偶校校验验信信息息,P1P1为为D3D3、D4D4的的奇奇偶偶校验信息校验信息,其它以此类推其它以此类推.RAID5RAID5的工作原理与的工作原理与RAID 4RAID 4类似,但不设置专门的校验盘。图中,类似,但不设置专门的校验盘。图中,每个盘轮流作校验盘。对每个盘轮流作校验盘。对RAID RAID 的改进还表现在,在一些情况下,可对的改进还表现在,在一些情况下,可对多个

44、磁盘执行并行写操作,因为它不再受单独一个奇偶硬盘的约束。多个磁盘执行并行写操作,因为它不再受单独一个奇偶硬盘的约束。RAID5RAID5是目前用得最广泛的方案。是目前用得最广泛的方案。RAID5ERAID5E相当于在相当于在RAID5RAID5的基础上增的基础上增加了热备份盘,可允许两块硬盘损坏,数据可靠性更高。加了热备份盘,可允许两块硬盘损坏,数据可靠性更高。34Intel的的Matrix RAIDRAID RAID 0 0阵阵列列,有有效效空空间间100GB100GBRAID RAID 1 1阵阵列列,有有效效空空间间50GB50GB50GB50GB50GB50GBn1区区n2区区镜像镜像

45、IntelIntel公司最近提出的公司最近提出的Matrix RAIDMatrix RAID,其实质也是一种其实质也是一种RAID1RAID10 0方案。方案。此方案可较好地解决性能和安全性的矛盾。此方案可较好地解决性能和安全性的矛盾。如图所示,如图所示,Matrix RAIDMatrix RAID可看成是可看成是RAID 0RAID 0和和RAID1RAID1的结合体的结合体,它它至少需要两块硬盘才能实现。这两块盘被划分成两个区域至少需要两块硬盘才能实现。这两块盘被划分成两个区域,如图如图所示。其中所示。其中,RAID0RAID0和和RAID1RAID1区域大小的分隔可由用户按照需要区域大小

46、的分隔可由用户按照需要决定。决定。n1n1区区(白色区白色区)组成组成RAID 0,是高性能区是高性能区,存放存放OS及应及应用用程序。有效空间程序。有效空间100GB100GB。n2n2区区(有圆点区有圆点区)组成RAID 1是高安全区,用于存储是高安全区,用于存储重要数据。有效空间为重要数据。有效空间为50GB50GB。35银行存储系统案例介绍银行存储系统案例介绍我国各主要商业银行大都采用我国各主要商业银行大都采用IBM ES9000IBM ES9000系统作为业务系统的中系统作为业务系统的中心处理机。该系统采用的冗余磁盘子系统,由磁盘控制器心处理机。该系统采用的冗余磁盘子系统,由磁盘控制

47、器(39903990)和采用)和采用RAID5RAID5技术的计算和控制随机存取法(技术的计算和控制随机存取法(RAMACRAMAC)磁盘阵列组成磁盘阵列组成。磁盘控制器和磁盘控制器和RAMACRAMAC磁盘陈列联用磁盘陈列联用,可用如下两种方式的远程拷可用如下两种方式的远程拷贝。贝。(1 1)扩展远程拷贝)扩展远程拷贝(XRC):XRC):采用这种方式时,用数据转移处理机采用这种方式时,用数据转移处理机(Data MoverData Mover)通地光缆将两个异地的)通地光缆将两个异地的ES9000ES9000系统磁盘控制器联系统磁盘控制器联结起来,在系统控制下进行异步远程拷贝。在数据写入主

48、设备时,结起来,在系统控制下进行异步远程拷贝。在数据写入主设备时,应用系统在接收到设备结束请求时认为写操作完成,若此时应用应用系统在接收到设备结束请求时认为写操作完成,若此时应用系统发生故障,备份系统的数据会丢失。数据转移处理机可安装系统发生故障,备份系统的数据会丢失。数据转移处理机可安装于生产机上,也可安装于备份机上,还可独立摆放。扩展远程拷于生产机上,也可安装于备份机上,还可独立摆放。扩展远程拷贝可在不同的贝可在不同的39903990磁盘控制器之间实现,但需增硬件设备。磁盘控制器之间实现,但需增硬件设备。36银行存储系统案例介绍银行存储系统案例介绍(2 2)点对点远程拷贝()点对点远程拷贝

49、(PPRCPPRC):它通过光缆两个异它通过光缆两个异地的地的3990-63990-6磁盘控制器联结起来。这种拷贝方式只磁盘控制器联结起来。这种拷贝方式只能在相同的两台能在相同的两台3990-63990-6磁盘控制器之间进行,因只磁盘控制器之间进行,因只有有3990-63990-6磁盘控制器具备这种功能。采用这种方式磁盘控制器具备这种功能。采用这种方式时,来自主机的数据以快写方式同步写入主时,来自主机的数据以快写方式同步写入主/备备RAMACRAMAC磁盘陈列。当应用系统接收到设备结束请磁盘陈列。当应用系统接收到设备结束请求时,暂时不响应,只有等到数完全写入两个系统求时,暂时不响应,只有等到数

50、完全写入两个系统之后,应用系统才执行该请求,本次写操作才算完之后,应用系统才执行该请求,本次写操作才算完成。因此,这种拷贝方式的可靠性比扩展远程拷贝成。因此,这种拷贝方式的可靠性比扩展远程拷贝更高。更高。37银行存储系统案例图示银行存储系统案例图示图图6.66.6所示为容错磁盘所示为容错磁盘子系统应用于本地双子系统应用于本地双机系统的一种方案,机系统的一种方案,图图6.76.7所示是应用于所示是应用于异地两个计算中心的异地两个计算中心的方案。方案。386.4 数据备份技术数据备份技术6.4.16.4.1数据备份的必要性数据备份的必要性降低风险降低风险最大限度地保护银行数据的实时性,完整性和一最

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 包罗万象 > 大杂烩

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服