资源描述
内容管理深化电力行业信息化北京拓尔思信息技术有限公司陈明主要内容v内容管理与电力行业v资源整合与搜索服务v网站和门户建设2第一部分:内容管理3从数据管理到内容管理v曾把信息管理定义为数据管理(DM)和内容管理(CM)两部分的集成v“对计算机应用来讲,计算机系统从数据管理发展到内容管理是一大进步,因为它体现了更好的人文精神和更好、更高的一种工作效率。”4内容管理的概念v内容管理的概念内容生命周期5内容管理的应用环境v网络环境互联网、内网v行业政府、媒体、企业、教育科研v应用网站管理、资源整合、发布搜索、知识管理6内容管理的几个方面v采集、创建:资源整合v存储v服务v标准化7内容的来源、采集和创建v采集,整合各种现有资源网络历史数据库分散文件其他业务系统v人的参与人工的采集、标引加工8内容的存储(与关系数据库的共存)v内容的特点结构:元数据对象数据v大规模,要求低成本综合成本,包括数据库的硬件运行环境、管理成本等等v数据库功能特点:淡化关系运算强调索引和查询加强语言处理v分布式和组织结构适应9内容服务v直接面向人的服务服务内容:数据的挖掘服务形式:服务的个性化个性化Portalv数据的价值体现理解人的需要服务方式:推送10内容管理的标准化v元数据的标准化行业标准国家标准v数据对象格式文件、图片、音视频v数据封装XML框架:XinhuaML、CNML、NewsML、资源描述:RDF、METS11TRS内容管理的情况v2000年首先在国内发布内容管理白皮书v专注创新,历时六年的发展v产品情况全线内容管理软件产品 “实现对异构环境下以各类非结构化和半结构化数据为主的内容的全面管理,提供内容采集、创建、加工、存储、传递、组织、服务和反馈等内容全生命周期过程中所需各项功能,以及元数据管理、智能检索和分析、数字版权和内容安全等专项技术,使内容得到高效利用和增值,给内容所有者和消费者带来效益。”12内容服务平台内容采集创建网络信息采集信息采集网关多媒体采集数据交换接口内部创作接口电子文档处理内容管理数据存储结构化数据对象数据非结构化数据内容挖掘与知识管理服务自动分类自动摘要自动聚类查重与相似性分析过滤与知识提取本地内容管理本地应用集成本地内容采集本地内容编辑跨媒体发布个性化服务版权保护内容评估站点管理电子商务个人内容桌面内容协作平台内容编审监控统计用户管理工作流引擎协同工作沟通TRS内容管理架构内容采集内容采集内容采集内容采集ContentContentCaptureCapture内容存储内容存储ContentContentRepositoryRepository内容挖掘内容挖掘ContentContentMiningMining内容加工内容加工内容加工内容加工ContentContentProcessingProcessing内容服务内容服务ContentContentServicesServices13TRS内容管理主流产品内容服务平台内容采集创建网络信息采集信息采集网关多媒体采集数据交换接口内部创作接口电子文档处理内容管理数据存储结构化数据对象数据非结构化数据内容挖掘与知识管理服务自动分类自动摘要自动聚类查重与相似性分析过滤与知识提取本地内容管理本地应用集成本地内容采集本地内容编辑跨媒体发布个性化服务版权保护内容评估站点管理电子商务个人内容桌面内容协作平台内容编审监控统计用户管理工作流引擎协同工作沟通TRS INFORADARTRS GATEWAYTRS APITRS DPTRS CKMTRS DB SERVERTRS CDSTRS WCM14TRS内容管理产品的发展和延伸v论坛系统(TRS BBS)vPortalv统一身份管理和单点登录(TRS IDS)vWeb2.0博客系统、播客、wiki15TRS内容管理市场情况v2000多家企业级用户vTRS公司的市场份额销售规模超过主要竞争对手之和Autonomy,Baidu企业软件,Verity,Interwoven等v高端用户市场国家部委、省市信息中心、高端媒体16 TRS客户v近千家权威政府机构,80%以上的部委和省市信息中心采用TRS产品。国家发改委、国务院办公厅、国家门户、外交部、商务部等v数百家媒体和新闻网站采用TRS,市场占有率50%以上新华社、人民日报、中央电视台、新华网、人民网、,北京日报,文汇新民报业集团、南方报业集团、深圳报业集团等v超过300家图书馆、科研机构和大学采用TRS产品。国家图书馆、上海图书馆、浙江图书馆等v一批大型企业用户中石化、中石油、中国银行、上海宝钢、中国网通等v在香港、日本等发展了一批客户香港政府、日本佳能、日本索尼、香港华润、星岛日报等17TRS内容管理电力行业应用成果v国家电网公司国家电网公司办公网国电信息中心资讯网国家电力信息网国电查新网国家电网公司信息报送系统v电力研究院东北、天津、河北、河南、内蒙、浙江、福建、安徽国网北京电力建设研究院国网北京经济技术研究院v电力公司黑龙江、吉林、华能集团18TRS内容管理在电力行业的发展v搜索服务垂直搜索和企业搜索v网站建设网站门户和内部知识管理19数据的结构化和非结构化第二部分:垂直搜索和企业搜索(搜库)20结构化数据非结构化数据相互转换21(互联网)搜索引擎搜索引擎企业搜索垂直搜索22搜索引擎目前只实现了一般性搜索需求v 数目/范围(40亿?80亿?)v 深度 v 类型(网页,博客,论坛)v 可搜索的属性(内容,时间,作者,来源,元数据)v 排序方式(以pagerank为主的固定的排序算法)23搜索无止境v 需求的多样化v 互联网数据内容的复杂性:海量、动态、非结构化v关注垂直搜索Google等搜索引擎代表了综合性搜索的成功。Web的海洋中有无数的资源值得挖掘。242.1 垂直搜索25垂直搜索v垂直搜索的应用 站内搜索 网站群搜索 行业搜索(搜房网、酷讯、IT168等都是面向行业应用的垂直搜索引擎)经济/财经、论坛、博客v垂直搜索作用实时性更好深度采集 分类更细致、准确更加满足特定用户群(专业)的搜索需求26搜索引擎和垂直搜索比较v网页采集技术v网页解析技术v索引和检索技术v智能化处理27网页采集技术v 按需控制采集目标v 按需支持深度采集v 按需支持动态网页采集各种采用脚本(script)动态生成的网页,其复杂性不是因为script本身,而是由于动态发布在逻辑上带来的混乱甚至陷阱,比如“打印此页”、“推荐”、“评论”、“收藏”28网页解析技术v 按需支持网页内容以及属性的解析v 按需支持网页元数据的提取比较项目比较项目标题、标题、正文解析正文解析时间、来源、作者时间、来源、作者解析解析其它元其它元数据解数据解析析互联网搜索互联网搜索支持支持不提供不提供不提供不提供垂直搜索垂直搜索支持支持按需按需按需按需29索引和检索技术比较项目比较项目精确检索精确检索结果缓存结果缓存结果排序结果排序互联网搜索互联网搜索否否是是单一、固定单一、固定垂直搜索垂直搜索按需按需按需按需多样化多样化支持全文检索 按需提供精确检索或非精确检索 按需提供多种结果排序方式 按需支持结构化和非结构化数据集成检索30智能化处理技术v搜索引擎智能化处理技术的合理运用可提高搜索引擎的服务质量。技术上尚未完全成熟。v垂直搜索由于一般有行业背景支持,可能更好地运用智能化处理技术按需提供支持功能,比如自动分类、自动聚类、自动标引、自动排重等 31垂直搜索本质:网络数据的结构化处理v采集v分析v检索v智能化32TRS相关技术和产品v网页采集技术v网页解析技术v索引和检索技术v智能化处理技术33网页采集技术v 支持用户自定义范围的信息采集v 支持深度采集v 内嵌基于网页内容的排重技术v 确保信息采集的完整性v 支持多语言网页的采集和自动转码(比如同一转换为UTF-8编码)34网页解析技术v 利用网页结构分析的方法,剔除垃圾信息,获得正文内容,以及相关图片、表格的信息v 实现了基于模板的内容解析技术:利用链接模板,可以限定采集网页的区域;利用内容模板,可以限定正文获取的区域。v实现了基于模板的BBS内容解析技术:利用模板提取BBS贴子中的标题、作者、发贴时间、发贴内容等。35贴子标题贴子时间发贴人贴子内容同一主题的跟贴36索引和检索技术v 最优秀的中文全文检索功能TRS Database Server 提供企业级应用的精确检索功能 提供多种结果排序方式 全文检索与数据库技术完美结合,支持结构化和非结构化数据集成检索 支持多语言检索37智能化处理技术v TRS 文本挖掘工具集自动分类 自动聚类 自动标引(自动抽取关键词、摘要)自动排重 褒贬倾向分析38TRS搜索引擎支持产品v 全文检索服务器(TRS Server)v 全文检索服务器集群(TRS Cluster)v TRS网络信息雷达v TRS论坛采集工具v TRS站内检索/网站群检索v TRS搜索引擎解决方案v TRS CKM(智能化处理)39TRS垂直搜索成功案例v 中央政府网站搜索引擎v 某部搜索引擎(专网搜索)v 某国际电子巨擎的行业情报服务v 众多网站的站内搜索系统v 千里眼经济情报预警系统40412.2 企业搜索和搜库应用42企业搜索引擎互联网搜索引擎互联网搜索引擎 企业级搜索引擎企业级搜索引擎 异构资源搜索和整合互联网通信协议 企业环境下各种信息采集接口以HTTP传输协议为主获得的HTML和特殊格式文档(DOC、PPT、PDF、MP3、图片等)HTML/XML(HTTP)RDBMS(API/SQL)文件系统(NFS、FTP)Office/LotusOA/Instant CommunicationEnterprise Application数据实时更新更新周期长,静态缓存的索引,周期切换企业信息更新需要即时反映动态更新索引,保证数据一致性准确性相关性 不可能查全相关重要性排序以Page Rank、Title、Meta为主面临SEO问题和商业性因素更全面精确计算,字、词混合索引;复合元数据查询(结构化特征)更准确、排序更合理安全性公开信息,不存在安全问题访问权限控制非常重要管理、挖掘和应用找到信息后服务完成需要完备整合和管理智能挖掘分析(各种分类、聚类、提取手段)安全开放接口支持其他应用系统面向企业需求,个性化服务43TRS 企业搜索平台和应用44搜库实现v对多个数据库进行搜索式查询1.数据合并,通过关系数据库机视图和网关进行2.在TRS数据库的多表联合查询 45搜库应用主要案例46第三部分:网站门户建设47网站管理技术的发展历程v完全手工页面v小规模软件程序发布,动态发布v平台化、智能化的网站发布平台上升到内容管理层次模板技术工作流技术编辑器技术网站群技术48TR5 WCM内容协作平台49TRS WCM 5.2主要技术特点1-高效管理各种异构内容v可接收和管理各种异构内容1.网页(直接采集和自动抓取)2.Word(Word插件抽取)3.RSS(RSS接受器自动抓取)4.Blog(Blog抓取工具自动)5.其它业务数据(定制各种接收Service)50TRS WCM 5.2主要技术特点2可视化编辑工具51TRS WCM 5.2主要技术特点3快速部署、即开即用,提高工作效率v自动安装和部署向导式的自动安装,使用于Windows和Unix操作系统主流应用服务器(Websphere/Weblogic)提供自动部署,减少了部署成本和维护成本v用户访问通过浏览器使用WCM,无需安装其它客户端软件vTRS WCM 5.2遵循工作导向设计(Task-Oriented)的原则,定制了适合不同操作、不同角色的界面风格系统的主界面支持自定义,不同的用户体现出不同的关注点 系统采用多种视图组织用户操作平台,便于不同角色的用户更快速进行自己的工作v个人首页我的工作台集成了个性化定制的常用操作和最近访问的内容52在线编辑的工作流,直观简单的配置界面。在Web上制定工作流程,配置工作节点以及人员,决定流程路径的操作。可以结合邮件、在线即时信息,手机短信等协助提醒。支持串行、条件工作流结合了版本控制、权限控制,可以提供有效的内容安全保护 流转情况实时掌握TRS WCM 5.2主要技术特点4 以工作流引擎为驱动的内容协作53TRS WCM 5.2主要技术特点5内容多站点、多渠道发布v针对操作对象提供个性的、多种发布策略完全发布、快速发布、高级发布、更新发布、独立发布、计划发布、撤销发布、定时发布v支持多渠道信息发布用户主动访问Web移动终端设备系统主动推送Mail短信RSS订阅v提供发布监控v直接输出XML格式页面 54模板编辑置标向导 设定最终生成的页面为HTML、SHTML、ASP、JSP等 模板分类管理 通过模板粘贴可以选择将现有站点下的模板文件粘贴至当前模板编辑窗口中 TRS WCM 5.2主要技术特点6可视化模板编辑,随心所欲地驾驭内容表现55TRS WCM 5.2主要技术特点7集成内容智能处理,加速内容增值有效降低内容拥有成本错误信息定位、反显错误信息类型、更正建议自动校对56TRS WCM 5.2主要技术特点8支持多语言的内容管理v多语种内容管理的支持支持蒙文、藏文、维语等少数民族语言支持中、繁、英、法、德、俄、阿等20多种语言v界面支持本地化可按照不同语种修改界面的语种资源文件用户可以选择不同中的界面57TRS WCM 5.2主要技术特点9 交互业务表单v表单设计:支持Office InfoPathv表单导入*.xsnv表单填写v表单流转v表单的发布与统计58TRS WCM5.2成功案例v外交部全球网站群v首都之窗v中国经济网v国家知识产权局v北京市发改委v深圳在线v赛尔网v北京日报v北京中小企业网59TRS电力行业应用v国家电网公司国家电网公司办公网国电信息中心资讯网国家电力信息网国电查新网国家电网公司信息报送系统v电力研究院东北、天津、河北、河南、内蒙、浙江、福建、安徽国网北京电力建设研究院国网北京经济技术研究院v电力公司黑龙江、吉林、华能集团60TRS公司的其他应用vPortalv博客vTRS IDS统一身份管理和单点登录系统61总结v内容管理v垂直搜索v企业搜索v网站门户建设TRS内容管理,服务电力行业信息化62谢谢!陈明:63
展开阅读全文