1、单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,单击此处编辑母版标题样式,单击此处编辑母版文本样
2、式,第二级,第三级,第四级,第五级,*,*,第,2,章 信息管理的技术基础,教学目的:,熟悉该章节提到的几个信息管理技术的概念,了解相关技术的特点。,重点:,数据挖掘技术术语,信息安全威胁和对策,难点:,知识组织技术,2025/1/7 周二,2,本章内容,2.1,网格技术,2.2,知识组织技术,2.3,网络信息检索技术,2.4,信息安全技术,2025/1/7 周二,3,2.1,网格技术,网格技术概述;,网格技术的本质和特点;,网格技术的分类,2025/1/7 周二,4,2.1,网格技术,1,),网格技术概述,网格思想的来源,网格是借鉴电力网的概念提出的。提出网格的目的就是能够使得人们在使用网格
3、资源的时候,能够像使用电力资源一样,自由使用,而不用关心我现在使用的电力资源是水力发电的还是热电呢,是从哪个发电厂得来之类的事情。网格也希望给最终用户提供的是与地理位置无关,与具体的计算设施无关的通用的计算能力。,2025/1/7 周二,5,2.1,网格技术,1,),网格技术概述,网格的概念:,网格是可以作为虚拟的整体而使用的在地理上分散的异构资源,这些资源可能属于不同管理域,它们包括网络可达的异构计算机、数据库、科学仪器、文件和超级计算系统等。,2025/1/7 周二,6,2025/1/7 周二,7,2025/1/7 周二,8,2.1,网格技术,2,),网格技术的本质和特点,网格技术的本质,
4、网格的本质不是它的规模,而是充分利用互连网络中的现有软硬件资源,支持广域环境上的计算数据、存储、信息和知识资源的共享、互通与互用,消除资源孤岛。以较低成本获得较高的性能。,共享与协同,是网格的本质问题。,共享,是将网络上海量、自治、分布、异构的资源进行有效组织,以服务的方式为网格用户提供统一透明的访问机制。这些资源包括计算、存储、数据、软件、仪器设备、传感器、信息库、知识库和专家等。,协同,是指资源可以相互交互、理解、协作,以期共同完成复杂的网格应用。包括人人、人资源、资源资源的协同。,2025/1/7 周二,9,2.1,网格技术,2,),网格技术的本质和特点,网格技术的特点,P1,(,1,)
5、,分布性,:,组成网格的资源可能是计算资源、存储资源、数据资源、仪器资源等,它们分布在地理位置不同的许多地方。,2025/1/7 周二,10,2.1,网格技术,2,),网格技术的本质和特点,网格技术的特点,P2,(,2,),异构性:,组成网格的资源是异构的,对于计算资源,有不同类型的计算机,不同的计算方式,不同的计算接口,不同的系统架构。对于存储资源和其他资源,也面临这样的问题。,(,3,),自治性:,网格上的资源首先是属于某一本地的个人或者组织,网格资源的拥有者对资源具有最高级别的管理权限,网格应该允许资源拥有者对其资源有自主的管理能力,因此,网格具有自治性。,2025/1/7 周二,11,
6、2.1,网格技术,2,),网格技术的本质和特点,网格技术的特点,P3,(,4,)动态性:,由于网格资源具有自治性,因此网格资源可能动态地加入或者退出网格,也可能出现故障而导致不可用。,(,5,)自相似性,:,网格的局部和整体之间存在着一定的相似性,局部往往在许多地方具有全局的某些特征,而全局的特征在局部也有一定的体现。,2025/1/7 周二,12,2.1,网格技术,3,),网格技术分类,网格的分类,按网格主体分为科学网格、地球系统网格、地震网格、军事网格、物理网格、游戏网格、教育网格等许多种。,按网格客体分为数据网格、计算网格和服务网格。,按网格客体的不同层次可以分为资源网格、信息网格 和知
7、识网格。,2025/1/7 周二,13,本章内容,2.1,网格技术,2.2,知识组织技术,2.3,网络信息检索技术,2.4,信息安全技术,2025/1/7 周二,14,2.2,知识组织技术,知识发现和数据挖掘技术,数据仓库,2025/1/7 周二,15,日本人巧用内容分析法获取经济情报,日本的搜集情报活动堪称世界一流。,二战后,日本约有,1,万多人被派到美国学习新工艺和管理技术,并陆续学成回国。,美国人后来经调查研究得出惊人的结论:这些日本人仅仅花费了,25,亿美元,就几乎把西方的所有技术都搞到了手,而这笔花费仅占美国每年研究经费的十分之一。,2025/1/7 周二,16,第一阶段:油田存在性
8、的判断,60,年代中期,日本人应用内容分析法推测出我国刚开发的大庆油田。日本人对大庆油田早有耳闻,但始终无准确的信息。,后来,日本人从,1964,年,4,月,20,日出版的,人民日报,上看到“大庆精神大庆人”的字句,于是日本人判断“中国的大庆油田确有其事”。,但是,大庆油田究竟在什么地方,日本人还没有材料作出判断。,2025/1/7 周二,17,第二阶段:油田地点的判断,-,在东北,从,1966,年,7,月的一期,中国画报,封面上,日本人看到一张照片,铁人王进喜身穿大棉袄,头顶着鹅毛大雪。,猜测到,:,2025/1/7 周二,18,“,大庆油田是在冬季为零下三十度的东北地区,大致在哈尔滨与齐齐
9、哈尔之间,”。,后来,到中国来的日本人坐这段火车时发现,来往的油罐车上有很厚的一层土,从土的颜色和厚度,证实了“大庆油田在东北”的论断。,但大庆油田的具体地点还是不清楚。,2025/1/7 周二,19,第三阶段:油田地点的判断,-,在马家窑,1966,年,10,月,日本人又从,人民中国,杂志上找到了王进喜的先进事迹,在该事迹介绍中还写有这样一段话:,王进喜一到马家窑看到大片荒野时说:,“好大的油海,!,把石油工业落后的帽子丢到太平洋去。”,于是,日本从伪满州地图上查找到“马家窑是位于黑龙江海伦县东面的一个小村,在北安铁路上一个小车站东边十多公里处。”,日本人终于将大庆油田的准确地理位置搞清楚了
10、。,2025/1/7 周二,20,第四阶段:炼油规模的判断(,1,),从,1966,年,7,月,中国画报,上发表的一张大庆炼油厂反应塔的照片上,日本人推算出大庆炼油厂的规模。,其推算方法很简单,首先找到反应塔上的扶手栏杆,扶手栏杆一般是一米多一点,以扶手栏杆和反应塔的直径相比,得知反应塔内径约为,5,米。,据此,日本人推断:大庆炼油厂的加工能力为每日,900kL,,如果以残留油为原油的,30,计算,原油加工能力为每日,3000kL,,一年以,360,天计算,则其年产量为,100,万,kL,。,2025/1/7 周二,21,第四阶段:炼油规模的判断(,2,),根据这个油田的出油能力和炼油厂规模,
11、日本人得出结论:,中国将在最近几年出现炼油设备不足,,买日本的轻油裂解设备是完全有可能的,,以满足每日炼油,10000kL,的需要。,这就是日本人在,1966,年从中国公开报刊中获得的有关大庆油田的重要信息,然后按他们估计的大庆油田要求进行产品设计。,2025/1/7 周二,22,大庆给日本带来了什么机遇?,根据大庆油田出油能力与炼油厂有限的炼油能力,日本人推论:中国将在最近几年必然因为炼油设备不足,会考虑买日本的轻油裂解设备。,中国要买的设备规模和数量多大?根据情报分析,要满足日炼油,1,万千升的需要。这是日本在,1966,年根据公开报刊点滴信息作出的判断和决策。,2025/1/7 周二,2
12、3,日本人得到了什么,有了如此多的准确情报,日本人迅速设计出适合大庆油田开采用的石油设备。当我国政府向世界各国征求开采大庆油田的设计方案时,日本人一举中标。,日本人将这一国家机密首次破获并从中国赚得,真金白银达,50,亿美金,!,2025/1/7 周二,24,2.2,知识组织技术,1,),知识发现数据挖掘,知识发现(,Knowledge discovery of database,),:,知识发现是从数据集中识别出有效的、新颖的、潜在有用的,以及最终可理解的模式的非平凡过程。知识发现将信息变为知识,从数据矿山中找到蕴藏的知识金块,将为知识创新和知识经济的发展作出贡献。,P1,2025/1/7
13、周二,25,2.2,知识组织技术,1,),知识发现数据挖掘,知识发现是所谓,数据挖掘,的一种更广义的说法,即从各种媒体表示的信息中,根据不同的需求获得知识。知识发现的目的是向使用者屏蔽原始数据的繁琐细节,从原始数据中提炼出有意义的、简洁的知识,直接向使用者报告。,P2,2025/1/7 周二,26,典型数据挖掘案例:,尿布和啤酒的故事,先请大家做个脑力游戏,说出任何尿布和啤酒的联系,即在什么情况下它们可以相提并论。,请想象这样的一副情景:在一个大的超级市场里面,人来人往。一角的货架上,尿布和啤酒赫然地摆放在一起出售。而且,尿布和啤酒的销售量双双增加。这是上个世纪发生在美国沃尔玛连锁超市的真实事
14、件,而且也许是将尿布和啤酒最好地联系起来的方法,因为它甚至符合了今天正在流行的,“,双赢,”,原理。,2025/1/7 周二,27,数据挖掘过程,2025/1/7 周二,28,2.2,知识组织技术,1,),知识发现数据挖掘,数据挖掘定义:,数据挖掘在技术上的定义,数据挖掘(,Data Mining,)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。,数据源必须是真实的、大量的、含噪声的;发现的是用户感兴趣的知识;发现的知识要可接受、可理解、可运用;,2025/1/7 周二,29,2.2,知识组织技术,1,),
15、知识发现数据挖掘,数据挖掘定义:,数据挖掘在商业角度定义,数据挖掘是一种新的商业信息处理技术,其主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理,从中,提取辅助商业决策的关键性数据。,按企业既定业务目标,对大量的企业数据进行探索和分析,揭示隐藏的、未知的或验证已知的规律性,并进一步将其模型化的先进有效的方法。,2025/1/7 周二,30,2.2,知识组织技术,1,),知识发现数据挖掘,数据挖掘的任务:,1,)描述性挖掘任务:用数据挖掘算法来描述大量数据的特性;,2,)预测性挖掘任务:用当前的数据进行分析,来预测未知事物或者事件的发生。,2025/1/7 周二,31,
16、2.2,知识组织技术,1,),知识发现数据挖掘,数据挖掘算法,预测,描述,分类,数值预测,密度估计,类/概念描述,频繁模式挖掘,聚类分析,离群点分析,2025/1/7 周二,32,应用实例,电信,:客户流失,百货公司,/,超市:购物篮分析,保险:交叉销售,流失,信用卡:,欺诈探测,电子商务:,网站日志分析,个性化服务,税务部门:偷漏税行为探测,警察机关:犯罪行为分析,医学:,医疗保健,病症原因分析,2025/1/7 周二,33,2.2,知识组织技术,2,),数据仓库,数据仓库的概念:,数据仓库是在企业管理和决策中面向主题的、集成的、与时间相关的、不可修改的数据集合。,William H.Inm
17、on,与其他数据库应用不同的是,数据仓库更像一种过程,对分布在企业内部各处的业务数据的整合、加工和分析的过程。,数据仓库是知识发现、数据挖掘的基础,2025/1/7 周二,34,2.2,知识组织技术,2,),数据仓库,数据仓库的几个重要概念:(,1,),ETL,ETL,(,Extract/Transformation/Load,),用户从数据源抽取出所需的数据,经过数据清洗、转换,最终按照预先定义好的数据仓库模型,将数据加载到数据仓库中去。,元数据,关于数据的数据,指在数据仓库建设过程中所产生的有关数据源定义、目标定义、转换规则等相关的关键数据。同时元数据还包含关于数据含义的商业信息。,Dat
18、a Mart,数据集市,-,小型的,面向部门或工作组级数据仓库。,2025/1/7 周二,35,2.2,知识组织技术,2,),数据仓库,数据仓库的几个重要概念:(,2,),Operation Data Store,操作数据存储,ODS,是能支持企业日常的全局应用的数据集合,是不同于,DB,的一种新的数据环境,是,DW,扩展后得到的一个混合形式。四个基本特点:面向主题的,(Subject-Oriented),、集成的、可变的、当前或接近当前的。,粒度,数据仓库的数据单元中保存数据的细化或综合程度的级别。细化程度越高,粒度级就越小;相反,细化程度越低,粒度级就越大。,分割,结构相同的数据可以被分成
19、多个数据物理单元。任何给定的数据单元属于且仅属于一个分割。,2025/1/7 周二,36,2.2,知识组织技术,2,),数据仓库,数据仓库的特点:,面向主题,典型的主题领域:客户;产品;交易;帐目,集成的,数据提取、净化、转换、装载,非易失的,数据仓库的数据通常是一起载入和访问的,但并不进行一般意义上的数据更新,随时间的变化性,数据仓库的键码结构总是包含某时间元素。,2025/1/7 周二,37,本章内容,2.1,网格技术,2.2,知识组织技术,2.3,网络信息检索技术,2.4,信息安全技术,2025/1/7 周二,38,2.3,网络信息检索技术,网络爬虫,信息过滤,2025/1/7 周二,3
20、9,2.3,网络信息检索技术,1,),网络爬虫,网络爬虫概述,Crawler,,即,Spider,(网络爬虫),其定义有广义和狭义之分。狭义上指遵循标准的,http,协议,利用超链接和,Web,文档检索方法遍历万维网的软件程序;而广义的定义则是能遵循,http,协议,检索,Web,文档的软件都称之为网络爬虫。,网络爬虫是一个功能很强的自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成部分。,2025/1/7 周二,40,2.3,网络信息检索技术,1,),网络爬虫,网络爬虫概述,网络爬虫是搜索引擎中,最核心的部分,,整个搜索引擎的素材库来源于网络爬虫的采集,从搜索引擎整个产
21、业链来看,网络爬虫是处于最上游的产业。其性能好坏直接影响着搜索引擎整体性能和处理速度。,通常网络爬虫是从一个或若干个初始网页的上的,URL,开始,获得初始网页上的,URL,列表,在抓取网页过程中,不断从当前页面上抽取新的,URL,放入待爬行队列,直到满足系统的停止条件。,2025/1/7 周二,41,2.3,网络信息检索技术,2,),信息过滤,信息过滤的定义,信息过滤是根据用户的信息需求,在,动态,的信息流中,搜索用户感兴趣的信息,屏蔽其它无用和不良的信息。,2025/1/7 周二,42,2.3,网络信息检索技术,2,),信息过滤,信息过滤系统示意图,过滤,数据,过滤器,用户,数据源,过滤数据
22、,2025/1/7 周二,43,2.3,网络信息检索技术,2,),信息过滤,信息过滤的分类,主动,(Active),的,IF,系统,主动搜集信息,并将相关信息发送给用户,通常采用,Push,操作,会造成信息过载问题,所以该系统要尽力建立精确的用户需求。,被动,(Passive),的,IF,系统,不负责为用户搜集信息,通常用于邮件和新闻组信息过滤,2025/1/7 周二,44,本章内容,2.1,网格技术,2.2,知识组织技术,2.3,网络信息检索技术,2.4,信息安全技术,2025/1/7 周二,45,2.4,信息安全技术,信息安全的概念,信息安全的威胁,信息安全的策略,2025/1/7 周二,
23、46,2.4,信息安全技术,1,),信息安全概念,信息安全的概念,所谓网络信息安全就是指网络系统的硬件、软件及其系统中的数据受到保护,不受偶然的或者恶意的原因而遭到破坏、更改、泄露,系统连续可靠正常地运行,网络服务不中断。,网络安全从其本质上来讲就是,网络上的信息安全,,信息安全的根本目的是使一个国家的信息技术体系不受外来的威胁和侵害。从广义来说,凡是涉及到网络上信息的保密性、完整性、可用性、真实性和可控性的相关技术和理论都是网络安全的研究领域。,2025/1/7 周二,47,2.4,信息安全技术,2,),信息安全的威胁,信息安全的威胁,P1,(,1,)病毒。通过网络传播的计算机病毒,破坏性非
24、常高,而且用户很难防范,是计算机系统最直接的威胁。,(,2,)网络犯罪和黑客对网络攻击。利用计算机网络破坏计算机信息系统,传播计算机病毒、黄色淫秽图像,窃取国家秘密或企业商业机密等,其动机有些是政治原因,也有一些仅仅是为了炫耀自己的技术。,(,3,)拒绝服务攻击。攻击服务系统,使得合法用户对信息或其他资源的合法访问被无条件地拒绝。,(,4,)信息泄漏。指信息被泄漏给非授权的人。,(,5,)非授权访问。未经系统授权的人使用网络或计算机资源。,2025/1/7 周二,48,2.4,信息安全技术,2,),信息安全的威胁,信息安全的威胁,P2,(,6,)窃取。非法用户通过数据窃听的手段获得敏感信息。,
25、(,7,)截取:非法用户首先获得信息,再将此信息发送给真实接收者。,(,8,)伪造:将伪造的信息发送给接收者。,(,9,)篡改:非法用户对合法用户之间的通讯信息进行修改,再发送给接收者。,(,10,)假冒。一个实体假装成另外一个不同的实体。,(,11,)行为否认。参与信息交换的一方,事后否认曾经发生的行为。,2025/1/7 周二,49,2.4,信息安全技术,3,),信息安全的策略,信息安全的策略,P1,(,1,)保护物理安全。物理安全指在物理介质层次上对存储和传输的网络信息保护安全。,(,2,)访问控制策略。访问控制是保障网络安全的主要策略,它的主要任务是防止对资源的非授权访问,防止以非授权
26、的方式使用某一资源。具体说可以包括入网访问控制、网络的权限控制和客户端安全防护策略等。,(,3,)保护信息安全传输。信息在网络上传输的过程中,有可能被拦截、读取,甚至破坏和篡改封包的信息,应使用加密、数字签名等技术确保信息传输的安全。,(,4,)为服务器安装安全操作系统。给系统中的关键服务器提供安全运行平台,构成安全,WWW,服务,安全,FTP,服务,安全,SMTP,服务等,并作为各类网络安全产品的坚实底座,确保这些安全产品的自身安全。,2025/1/7 周二,50,2.4,信息安全技术,3,),信息安全的策略,信息安全的策略,P2,(,5,)防止黑客利用系统漏洞攻击。及时安装系统安全漏洞的补
27、丁程序,防止黑客入侵。漏洞是在硬件、软件、协议的具体实现或系统安全策略上存在的缺陷,从而可以使攻击者能够在未授权的情况下访问或破坏系统。系统安全漏洞与系统攻击活动之间有紧密的关系,发现系统漏洞,及时安装补丁程序进行补救是防止黑客入侵的必要手段。,(,6,)口令机制是资源访问的第一道屏障。攻破了这到屏障,就获得了进入系统的第一道大门。所以口令攻击是入侵者最常用的攻击手段。为了防止黑客破解系统口令,口令长度不应该少于,6,个字符,而且最好是字母、文字、标点等的组合。另外,应该定期更改口令。,(,7,)安装防火墙。防火墙是防止黑客入侵的有利屏障。好的防火墙能极大的提高内部网络的安全性,防止内部信息的泄漏。,(,8,)网络安全管理。要想加强网络的安全管理,就要制定有关规章制度,确保网络的安全、可靠运行。具体说网络安全管理包括确定安全管理的等级和范围,制定网络操作规程,网络系统的维护制度,应急措施等。,2025/1/7 周二,51,