收藏 分销(赏)

基于数据仓库的高校数据统计服务平台研究.pptx

上传人:a199****6536 文档编号:8930054 上传时间:2025-03-08 格式:PPTX 页数:47 大小:783.84KB
下载 相关 举报
基于数据仓库的高校数据统计服务平台研究.pptx_第1页
第1页 / 共47页
基于数据仓库的高校数据统计服务平台研究.pptx_第2页
第2页 / 共47页
点击查看更多>>
资源描述
Click to edit Master title style,Click to edit Master text styles,Second level,Third level,Fourth level,Fifth level,*,*,Click to edit Master title style,Click to edit Master text styles,Second level,Third level,Fourth level,Fifth level,*,*,Click to edit Master title style,Click to edit Master text styles,Second level,Third level,Fourth level,Fifth level,*,*,基于数据仓库高校数据统计服务平台研究,第1页,提要,背景,需求分析,平台设计,平台实现,平台布署,第2页,背景,各高校建成信息管理系统越来越多,海量数据背后隐藏着,许多主要信息,是学校正常运转关键资源,以灵活便捷,方式对数据进行统计、分析,进而为高校管理与决议提供支,持需求日益强烈,第3页,背景,商业智能,(BI,business,intelligence),Gartner,Group,Howard,Dresner,1996,:一类由,数据仓库,(,或数据集市,),、查询报表、数据分析、数据挖掘、,数据备份和恢复等部分组成,以帮助企业决议为目标技术,及其应用。,第4页,背景,微软,BI,体系框架,第5页,背景,IBM,BI,体系框架,第6页,背景,建立,BI,系统基本步骤包含:,确认和解读数据源;,进行数据采集和存放管理;,构建模型并在此基础上分析数据,第7页,背景,商业智能基础是数据仓库,(DW,Data,Warehouse),数据仓库是一个面向主题、集成、相对稳定、反应历,史改变数据集合。,数据仓库为有效地为,BI,系统提供了全局一致数据环境,也为历,史数据综合数据处理提出了一个行之有效处理方法。,第8页,背景,国外,:BI,应用已经进入了数据分析阶段,有些已经积累了高端数据,挖掘经验;,国内,:BI,应用则还停留在数据整合初级阶段,应用主要领域集,中在电信、保险、销售等行业,,国内高校情况不容乐观:,数据分散在不一样源系统中,数据规范性和共享性还存在很大问题;,数据统计和分析基本上是基于单个系统中操作型数据进行,既不,能反应出不一样系统之间数据关联,又缺乏对数据全局把握;还会,因为操作型数据动态性和分散性影响统计结果准确性,也无法对,历史数据进行统计和分析。,第9页,背景,要建立高校,BI,应用,满足为高校管理与决议提供支持,需求,首先必须打破不一样应用系统之间“藩篱”,建立全,局一致数据仓库,将操作型数据转换为静态、稳定、,规范化、能够反应历史分析型数据,然后在此基础上搭,建统一数据统计服务平台。,第10页,需求分析,数据统计需求按用途不一样分为,2,类:,一是以年报表或者季度报表形式上报上级部门统计数据,有,着固定报表格式、复杂报表内容、专门统计口径,有报,表甚至还有严格填报流程;,二是部门日常所需要统计数据,往往和某种类型详细业务相关,,和第一类需求相比,统计数据格式和内容比较简单,没有复杂,填报流程,但时间粒度要求更细,要以月报表、周报表乃至日,报表形式提供统计结果,而且要求提供数据钻取功效。,第11页,需求分析,这些需要统计数据包括高校人事、学生、科研、教学等各,个领域,每个领域下面又细分为了很多不一样细类,详细如,图,1,所表示。,第12页,平台设计,总体架构,数据仓库建模,统计数据模型,第13页,总体架构,高校数据统计服务平台由源系统、数据仓库和统计平台三部,分组成。,第14页,总体架构,源系统:,高校业务包括数据源比较广泛,主要有些人事系统、,教务系统、硕士系统、科研系统等,再加上校园网之外,一些其它外部数据源,组成了数据统计服务平台数据基础,,因为系统业务职能和详细需求不一样,在实现时会选取不一样,数据库,数据结构也可能存在较大差异,从而造成数据间有,较大异构性和不一致性。,第15页,总体架构,数据仓库,:数据仓库全方面接收源系统数据,,ETL,进程对数据,进行规范化、验证、清洗,并最终装载进入数据集市,经过,数据集市支持系统进行数据查询、分析;整个数据仓库包含,四大层次:,复制层,(SSA,system-of-records-staging-area),原子层,(SOR,system-of-record),汇总层,(SMA,summary-area),集市层,(DM,data,mart),第16页,总体架构,复制层(,SSA,system-of-records-staging-area,),:直,接复制源系统数据,尽可能保持业务数据原貌;与源系统数,据唯一不一样是,复制层中数据在源系统数据基础上加入,了时间戳信息,形成了多个版本历史数据信息;,原子层(,SOR,system-of-record,),:基于模型开发一套,符合,3NF,范式规则表结构,它存放了数据仓库内最细层次,数据,并按照不一样主题域对数据分类存放;依据当前部分需,求,将全校数据在原子层中按人事、学生、教学、科研四大主,题存放;原子层是整个数据仓库关键和基础,在设计过程中,应含有足够灵活性,以能应对添加更多数据源、支持更多,分析需求,同时能够支持深入升级和更新;,第17页,总体架构,汇总层(,SMA,summary-area,),:汇总层是原子层和集,市层中间过渡,因为原子层数据是高度规范化数据,,所以要完成一个查询需要大量关联工作,同时集市层中,数据粒度往往要比原子层高很多,对要生成集市层中,汇总数据需要进行大量汇总工作,所以,汇总层依据需,求把原子层数据进行适度反范(比如,设计宽表结构将,人员信息、干部信息等多个表数据合并起来)和汇总,(比如,一些惯用人头汇总、机构汇总等);从而提升,数据仓库查询性能。,第18页,总体架构,集市层(,DM,data,mart,),:集市层保留数据是供用户直,接访问;能够将集市层了解成最终用户直接最终想要看,数据;集市层主要是各类粒度事实数据,经过提供不一样粒,度数据,适应不一样数据访问需求;集市层中数据以,2,种不一样类型存放:一类以星型模型建设,便于部门日常灵,活查询和统计,另一类按宽表以及重新组织适应固定报表,表结构存放,便于高校年统和季度统计工作。,第19页,总体架构,统计平台,:高校数据统计服务平台采取B/S架构3层体系结,构,即:数据操作层、逻辑层、表示层。,数据操作层,逻辑层,表示层,第20页,总体架构,数据操作层:,充分考虑系统高可用性,数据统计服务平,台与数据仓库所使用数据库相互独立,由此确保数据统,计服务平台对数据进行加工处理时不会影响数据仓库中,数据;数据存取模块实现对数据统计服务平台数据访问。,第21页,总体架构,逻辑层:,分为报表预定义、报表查询、报表生成、报表填报、,报表审核及报表汇总等模块;每个模块分别实现不一样功效;,在统计平台中,不一样身份用户其功效权限和数据权限是不,一样:报表预定义是给系统管理员用;报表生成、报表,填报是给院系管理人员使用,只能查看和操作本院系数,据;报表审核、报表汇总是给学校相关部门管理人员用,,能够操作全校数据;功效权限和数据权限经过公用层与身份,认证服务平台对接,统一进行管理,第22页,总体架构,表示层:,提供交互界面给用户使用,另外还提供一些服务接,口供其它系统调用,第23页,数据仓库建模,当前较为流行数据仓库建模方法较多,惯用有,Inmon,所提倡范式建模法和,Kimball,所提倡维度建,模法。,第24页,数据仓库建模,维度建模法针对各个维做了大量预处理,经过这些预处理能够,极大地提升数据仓库处理能力,相对于范式建模法来说,在性,能上占据了显著优势;同时维度建模非常直观,紧紧围绕着业,务模型,能够直观地反应出业务模型中业务问题。不需要经过,尤其抽象处理即能够完成维度建模。所以高校数据统计服务平,台数据仓库采取维度建模方式构建。,维度建模法采取事实表,维表方式来构建数据仓库,数据集市、,事实表存放实际数据,维表存放事实表中对象属性,事实表,和维表关联关系惯用是“星型模型”。,第25页,数据仓库建模,维度建模步骤,结合详细需求确定分析主题,,结合高校主要业务定义了一个公共维,度主题和人事、学生、教学、科研,4,个业务主题:公共维度包含时间,维、地理维、国家标准及校标,时间维和地理维在不一样应用场景能够,使用视图形式转换为详细分析维度,国家标准和校标主要用来处理在,数据集成过程中一致性问题;人事主题关键内容是教师基本情,况,详细分析主体有收入、岗位、职称以及出色人才等;学生主题,关键内容是在校生基本情况,详细分析主题有招生、成绩、奖惩、,异动、就业等;科研主题主要分析全校师生科研结果完成情况,根,据实际业务能够纳入全部科研结果,如项目、论文、著作、专利、,学术活动等;教学主题以教学活动相关内容为主,如课程计划、教,学任务、选课、教学工作量等。,第26页,数据仓库建模,确定分析粒度,,通俗地说就是分析对象详细程度。为了满,足分析可扩展性及需求多样性,以最小粒度来设计数据,模型总是能到达最好分析效果,如:统计每个学生明细,情况、统计每项科研结果详细情况。,第27页,数据仓库建模,设计维表,,维度是统计和分析数据角度,与统计查询参,数相对应。在选取维度时应该将实体作为一个对象,把与该,对象相关全部主要属性都提取出来作为独立维度。,第28页,数据仓库建模,设计事实表,,为了跟踪含有生命周期活动数据改变过程,以保留历史信息,设计事实表时使用迟缓改变维方法以捕,获改变数据。事实表中版本、开始时间和结束时间,3,个字,段是实现迟缓改变关键。版本表示同一事物历史状态顺,序,开始时间和结束时间表示在该段时间内该事物处于某一,状态,每一条数据结束时间等于新数据开始时间,这么,该事物不一样时间段状态就分布在一条时间轴上,从而能够,得到任一时间点该事物状态信息,第29页,数据仓库建模,第30页,统计数据模型,确定统计相关星型模型,即数据统计针正确是事实表中间那,些事实,包括到哪些统计指标,统计粒度怎样。,确定报表中详细每一行和每一列分别代表统计指标,统计指,标简单地说即维度取值,每个统计指标对应到维表中是某个维度,取某个值,也有可能是多个维度取值累加。,确定单元格统计方法,每个单元格统计指标应该是其对应,行、列所代表维度取值并集。,将维度转化为可执行查询语句,去事实表中查询出对应统计,数据和事实数据,为了方便,在数据统计服务平台报表数据库,中还能够将查询到统计结果固化,以数据库表形式存放下来。,第31页,统计数据模型,将,1,张业务报表拆分为,5,张配置表,它们分别是指标表、维,表、维值表、行列表、指标维度组合表;最终计算得到结,果存放在指标数据表中。,第32页,平台实现,ETL处理,前台展示,第33页,ETL,处理,ETL(extraction-transformation-loading),负责将,分散、异构数据源中数据抽取到暂时中间层后进行清洗、,转换、集成,最终加载到数据仓库或数据集市中。,ETL,是实,施数据仓库关键和灵魂,,ETL,规则设计和实施约占整个,数据仓库搭建工作量,60%,80%,。,第34页,ETL,处理,数据抽取,包含初始化数据装载和数据刷新:初始化数据装载主要关注,是怎样建立维表、事实表,并把对应数据放到这些数据,表中,在数据仓库建模小节中已经做了详细介绍;而数据刷,新关注是当源数据发生改变时怎样对数据仓库中对应数,据进行追加和更新等维护,第35页,ETL,处理,触发器方式(又称为快照式)来实现数据刷新,详细来说就是:在,SSA,层需,要抽取数据数据表上建立了插入、修改、删除,3,个触发器(,trigger,),每,当源数据库中数据表中数据发生改变时,复制到,SSA,数据也会对应发生,改变,对应触发器将改变数据写入一个暂时区(,buffer,);在数据库层,定义了一系列作业(,job,)和存放过程(,procedure,):作业要求了包含,数据刷新频率和数据刷新先后次序在内一系列任务调度策略,调用对应存,储过程从暂时表中抽取需要刷新数据,暂时表中抽取过数据被标识或删除;,触发器方式好处是:数据抽取性能高、规则简单,对于编程人员来说易于,上手,尤其适合北京大学数据仓库现有规模还较小特点,是一个简单易行,好方法;但伴随以后数据仓库规模越来越大,数据表越来越多,需要编写,触发器、存放过程和作业就越来越多,可能会不利于管理,第36页,ETL,处理,数据清洗,主要是针对源数据库中出现二义性、重复、不完整、违反,业务或逻辑规则等问题数据进行统一处理,下表列出了,北京大学在对业务系统进行数据清洗时发觉几类最常见,问题及针对这些问题所采取策略。,第37页,ETL,处理,数据转换,主要是为了将数据清洗后数据转换成数据仓库所需要数,据:来源于不一样源系统同一数据字段数据字典或者数据,格式可能不一样,在数据仓库中需要给它们提供统一数据,字典和格式,对数据内容进行归一化;其次,数据仓库,所需要某些字段内容可能是源系统所不具备,而是需,要根据源系统中多个字段内容共同确定;,比如,数据仓库中人员类型“事业单位专业技术人员”实际上是,依据人事表中“编制类型,=,事业单位”、“岗位级别,=985”,而且,“人员类别,=,在职职员”等多个字段内容共同得出,像这么字段,形成也依赖于数据转换,第38页,ETL,处理,考查工具,ColverETL:,开源,ETL,工具,无偿版本支持连接组件太少,(,Pass,),Kettle:,功效完善,组件齐全处理平台,Talend:,功效完善,组件齐全处理平台,Jitterbit:,ETL,工具,不过功效比较简单,维护、日志、监控等,功效缺乏,Apatar:,ETL,工具,非服务器结构,适合单机版本开发小,ETL,程序,OpenDigger,:,ETL,工具,非图形化接口,Spring,batch,:主要用于实现调度平台,配置方法和,spring,工具,第39页,ETL,处理,第40页,ETL,处理,Kettle,优势,LGPL,License,限制较为宽松,无偿,Repository,使得版本管理和代码迁移非常轻易,任务调度支持定时,时间和命令,支持,Job,Duplication,第41页,ETL,处理,Talend,优势,接口支持非常丰富,包含:各种数据库,文件,(Excel,CSV,Jason,XML,Mail,等,),,外围系统,(SAP,CRM,FTP,SCP,JMS,等,),,网络,(WS,Socket,RPC,RSS,SOAP,等,),,流,(Buffer,Row),有若干高性能组件如:外排序,批量插入,(,如,SQLLoader),结构简单,只公布,jar,包,第42页,前台展示,常见数据仓库前端展示工含有,BO,、,Cognos,等,能基,于,Web,直观界面,能提供报表、图表、仪表盘等各种展,示方式。但都是商业产品,价格比较昂贵。,ExtJs,是一款开源创建前端用户界面,是一个基本与后台,技术无关前端,ajax,框架,含有功效强大、编程简单特,点,数据统计服务平台用户界面基于,ExtJS,开发。,第43页,前台展示界面,第44页,平台布署,第45页,结束语,提出了基于数据仓库技术高校数据统计服务平台,经过合,理架构设计、科学数据建模实现了对数据集中存放、,加工,以及统计数据生成、统计数据查询等功效。该系统能,够有效地满足高校新形势下业务发展需求,对于促进高校,数据集约化管理水平提升、搭建数据统筹管理和决议支持,服务长期有效机制框架含有十分主要意义,第46页,/10/16,47,谢谢!,第47页,
展开阅读全文

开通  VIP会员、SVIP会员  优惠大
下载10份以上建议开通VIP会员
下载20份以上建议开通SVIP会员


开通VIP      成为共赢上传
相似文档                                   自信AI助手自信AI助手

当前位置:首页 > 包罗万象 > 大杂烩

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        抽奖活动

©2010-2025 宁波自信网络信息技术有限公司  版权所有

客服电话:4009-655-100  投诉/维权电话:18658249818

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :微信公众号    抖音    微博    LOFTER 

客服