收藏 分销(赏)

基于知识图谱的政策分析系统建设方案.pdf

上传人:自信****多点 文档编号:3147624 上传时间:2024-06-20 格式:PDF 页数:4 大小:1.72MB
下载 相关 举报
基于知识图谱的政策分析系统建设方案.pdf_第1页
第1页 / 共4页
基于知识图谱的政策分析系统建设方案.pdf_第2页
第2页 / 共4页
基于知识图谱的政策分析系统建设方案.pdf_第3页
第3页 / 共4页
亲,该文档总共4页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、-133-CHINA SCIENCE AND TECHNOLOGY INFORMATION May.2024中国科技信息 2024 年第 10 期科技工作知识图谱构建技术对数据之间的关联关系进行刻画,从而实现基于知识图谱的知识智能统一检索、政策脉络分析、政策分析应用等应用。具体如图 1。其中源数据层负责存储丰富多元的结构化和非结构化数据,涵盖政府文件、新闻资讯等重要信息。数据处理层通过智能化手段处理和转换外部数据,加强数据的质量和可用性。服务引擎层聚焦于图谱构建以及深度搜索等智能服务,提升知识的整合和传播效率。最后,应用层实现基于图谱的知识检索、政策脉络分析和其他复杂分析应用,助力各类企业及项

2、目的深入研究。整个架构周全考虑了智能化政策分析的多个方面,为用户提供一站式、高效的分析体验。数据流图系统通过搜集和解析外部资源与第三方信息,如政府政策、立法和行业资讯,建立了多种知识库。通过设置实体、属性、关系和热词的抽取机制,我们能够有效挖掘和整理采集数据的关键要素。此外,结合实体链接、热点分析、时间序列聚类和关键词提炼技术,我们进一步加工这些数据。基于这些方法,我们构筑了一个政策资讯知识图,不仅能够对策略进行深入分析,还能对市场竞争态势提供详尽的分析结果,增强我们的知识服务能力。具体数据流见图 2。技术设计1.知识建模能力通过一套全面的知识图谱建模工具,支持构建高度复杂且动态的数据模型。从

3、概念到实体、从属性到关系,乃至事件和规则,这一系统全方位地捕捉和表征现实世界事物的多面向知识结构。它支持多层次的知识体系构建,包括各个实体之间的层级关系,以及对时间序列和事件进行建模。建模工具的灵活性体现在其支持自上而下与自下而上的结合方式,这使得数据模型能够灵敏地适应数据变动,减少模式改变的需求。同时,系统还提供了便捷的可视化建模界面,降低了构建知识图谱的技术门槛。2.结构化数据处理针对来自内部业务数据的结构化信息,提供一套结构化数据 D2R 组件,实现了主流 D2R 工具的所有功能,并结合企业大数据特点进行了优化,D2R 指将结构化数据通过映射的方式进行知识图谱的知识导入。3.非结构化数据

4、处理对于非结构化的文本数据,提供了一套智能文本抽取方案,能够管理和维护文本数据的知识抽取全周期。它具备历史知识回标、模型预标注、模型服务热加载等功能,并实现了钻取后质量控制的闭环能力。4.知识存储知识存储包含知识图谱与资源数据的存储。知识图谱采基于知识图谱的政策分析系统建设方案俞晓波俞晓波上海勘测设计研究院有限公司俞晓波,信息系统资深架构师。政策分析系统充分利用了人工智能与知识图谱技术,致力于对能源与电力系统相关政策、热点事件、法律法规以及行业资讯进行深度智能化分析。系统能够实现智能检索、溯源追踪、政策框架构建及分析报告的自动生成,为项目技术与经济信息提供全面支撑,确保及时捕捉政策动态,从而为

5、项目决策提供有力的数据支撑。引言研究目标政策分析系统的构建旨在实现双重目标:首先,在业务层面,系统着力于应用人工智能与知识图谱技术,对可再生能源以及电力系统的相关政策、法规、热点与行业动态等数据进行高效智能分析,并提供智能检索与溯源功能。目的是为技术项目提供有力的经济情报,掌握政策导向,协助战略规划与决策。其次,在工具层面,目标是构建支持生产力的辅助工具,提高工作效率,并打造数据共享平台。这将实现数据的自动化采集、管理以及基于数据的智能化分析,最终呈现分析成果及实现知识共享。研究内容研究内容涵盖数据处理技术、知识图谱构建以及搜索查询等技术,利用这些技术构建专门的政策和企业知识图谱。将涉及相关领

6、域的政策知识和企业信息将通过知识图谱关联起来,并在各类业务场景中发挥作用,包括统一的知识搜索、政策串联分析、数据报表应用以及可视化展示等。方案设计技术设计整体架构政策分析系统的整体架构分为源数据层、数据处理层、服务引擎层、应用层四个部分,通过对政府文件、新闻资讯、企业报告、行业论坛等数据接入并进行处理与转化,再结合中国科技信息 2024 年第 10 期CHINA SCIENCE AND TECHNOLOGY INFORMATION May.2024-134-科技工作图 1 整体架构图图 2 数据流图-135-CHINA SCIENCE AND TECHNOLOGY INFORMATION Ma

7、y.2024中国科技信息 2024 年第 10 期科技工作用混合存储,支持大规模三元组存储、时态信息的存储,能够与业界主流大数据计算产品无缝对接,快速接入推理与图计算。提供图谱中实体、属性、关系、同义等各要素的增删改查,支持批量导入导出、知识查询及知识溯源。5.知识融合知识融合即将图谱中冗余知识进行融合,本模块通过自动计算或业务专家的干预,提升知识图谱的数据质量。提供手工融合的方式对实体及其属性进行业务规则配置及合并操作,支持多实体属性对比、冲突检测。提供待合并实体对的候选页面,支持对融合计算结果及概率进行展示,支持单条或批量入图,支持待合并实体对的对比,支持合并主体的变更。同时支持将图谱数据

8、读出后通过外部复杂计算。支持基于配置的业务规则批量计算待合并实体,计算结果输出到融合候选集,人工审核后再进行合并。6.知识标引提供人工的方式及自动计算的方式建立知识与资源数据进行关联;支持实体与文本、文件、链接等多种类型资源型数据的标引关联。提供通过人工的方式建立图谱知识和资源数据之间的关联。支持构建实体与文本、文件、链接等数据源之间的标引关联。支持在知识应用页面查看实体。自动标引通过自动计算的方式对大批量知识与资源数据进行关联,提供基于语义相似度的标引及基于知识图谱知识的标引。支持标引图谱范围配置,支持数据字段及权重配置,不同标引算法配置。7.知识推理提供基于规则的实体隐含属性值推理,通过定

9、义业务规则,产生新的关 系。支持用户贴合自身业务进行推理规则制定,包含:多步路径推理,节点关系、边关系规则定义,数图 4 企业图谱模式图图 3 政策图谱模式图值范围、聚合操作定义。通过可视化配置的方式进行属性及关系推理的业务规则配置;支持在线构建、配置推理规则,包括推理路径规则配置,以及路径中属性过滤规则配置。支持基于用户规则的推理结果实时预览。支持对推理结果经过审核确认后的数据落地到知识图谱中。知识图谱构建政策和企业图谱构建以政策为中心,建立政策、机构、行业、关键词、人物等概念,刻画政策的摘要、正文、发布时间等属性,构建政策的发布季候、关键词、作者等关联关系。具体政策图谱模式如图 3。以企业

10、和项目为中心,建立企业、项目、行业、人物、地区、报告文书等概念,刻画企业的碳当量、碳排放、能耗指标、企业规模等属性,构建企业的所属行业、所属地区、Esg报告、碳中和报告等关联关系。具体企业图谱模式如图 4。图谱构建过程1.知识模型(schema)定义基于能源与电力领域采集的多源数据,构建热点、政策、法规、行业信息、论文、人物、机构等关键概念,同时以热点为中心,关联至各维度概念,实现以热点为焦点的可视化关系网络图展示。2.数据采集中国科技信息 2024 年第 10 期CHINA SCIENCE AND TECHNOLOGY INFORMATION May.2024-136-科技工作对于能源与电力

11、方面相关的政策、法规、行业信息等数据,除了内部数据库中已有的存量数据外,对于外部网站中存在的数据,通过爬虫采集的方式进行采集,支持配置数据采集任务流、拖拽式流程配置组件关联等功能。3.数据解析对于采集的数据提供网页数据解析组件 wrapper,提供可视化组件对半结构化数据如 html、xml 等进行解析配置,转换成结构化数据。提供基于配置方式的半结构化数据解析功能。解析对象以网页标注语言(如 HTML)为主;支持拖拽式可视化配置;支持配置表达式类型包括:Xpath、CSS、JSON、正则表达式等。4.热点抽取与元素抽取对于采集后的非结构化文本数据,提供热点抽取与元素抽取两种抽取方式,热点抽取主

12、要是根据整篇文本内容,通过引入热点计算模型的方式自动生成对应简要热点短语或句子,同时类似的热点信息可通过聚类合并与过滤的方式,进行热点整合,最终实现热点的自动生成与热点搜索。元素抽取主要是对文本数据中的关键业务元素,如人物、机构、设备等信息通过语料打标、模型训练、文本抽取的方式,自动将这些元素进行抽取,实现对非结构化转结构化数据的处理,抽取后的数据可用于图谱的构建与展示。5.实体链接基于抽取的热点数据,通过实体链接的方式,将多模态论文、标准、法规、政策等数据与对应的热点实体进行自动关联,关联后可通过搜索某热点实体,自动展示与之关联的所有不同维度资讯信息。6.主题事件生成按事件的主题对事件数量进

13、行自动聚合统计,在可视化探索页面可按事件主题查看关联事件,并查看各主题聚合下的事件数量。7.数据可信度计算对系统外部采集的开源数据形成的图谱中的各类言论观点进行可信度计算,对异常言论进行预警,帮助用户辨别同一主题下不同言论的真实性。场景应用知识智能统一检索通过采用语义搜索技术、拓宽搜索边界及提升搜索的精确度和效率,为用户带来一个高效准确的信息检索体验。能够处理包括政策文档、新闻报道、企业报告及行业动态等各类知识内容,并支持用户通过输入关键词或简短语句来进行基础或深入的搜索查询。利用了最新的技术手段,如大数据、云计算、人工智能和文本挖掘,来构建一个分层次的知识体系架构,实现了从单一资源向综合资源

14、网络的智能化转变。还特设了行业热点词云图、企业及区域热点资讯的直观展示,以及基于知识图谱的搜索增强服务,这包括了深度的知识关联和推荐系统。此外,还提供了对搜索结果的详细知识画像查看、数据导出功能,并支持通过 API 与其他系统集成,以实现政策搜索的能力扩展,旨在为用户提供一个全面、深入且高度定制化的搜索体验。政策脉络分析通过对关键实体及其关系的深入探索,提供全面的情报分析功能。该模块包括五个主要功能:首先,通过图谱探索形成关系网络图,并基于时间信息倒序展示实体关联事件的发展脉络,同时提供时序筛选配置功能,以便从时间维度进行深入的知识分析与挖掘。其次,通过政策时间脉络分析,支持对政策知识的时间维

15、度分析与挖掘,包括标注和高亮显示与日期相关的段落。接着,政策关键词分析功能基于关键词词库对政策内容进行检索分析,并通过标签在政策列表上展示相关关键词。政策关联推荐功能则是基于政策、关键词、时间、行业、企业等信息进行图谱信息关联,并提供相关信息推荐。最后,简报生成功能允许根据业务部门提供的报告文档格式,汇集系统分析后的信息,形成面向决策人员的文档报告,并支持信息下载归档。政策分析应用专注于对与双碳减排、综合能源、智慧能源以及风光水储相关的项目及企业数据进行深入的多维度统计分析。该模块通过可视化手段,直观展示了数据的变化趋势和各项数据之间的关系,帮助用户更好地理解和分析相关领域的发展情况。具体而言

16、,双碳数据分析报表应用能够提供项目签发量、项目类型、发行日期等多个维度的数据分析,为用户呈现全面的双碳市场概况。项目规模统计分析则侧重于根据项目的规模大小进行分类统计,从而揭示不同规模项目的分布情况。简报管理提供了一套高效的简报生成和管理工具,专为新能源、双碳、水电等业务板块设计。该模块允许用户依据业务部门的模板,从情报列表页快速提取摘要信息,生成符合行业需求的月报、周报及自定义简报。报告内容覆盖国家部委、地方政府、行业组织、行业企业、技术动态、专家观点等六个主要方向,确保了报告的全面性和深度。此外,报告支持基于业务板块和专题方向的分类,使得报告内容更加精准地对应用户的具体需求。为了方便用户的

17、进一步分析和分享,该模块还提供了报告导出功能,用户可以轻松地将月报或周报导出,以支持决策制定和策略调整。后台管理为用户提供了一个全面的系统管理平台,旨在优化和维护系统的运行效率。图谱运营功能允许用户进入知识图谱工具,对图谱的模式和所含的知识进行细致的管理,确保知识图谱的准确性和实用性。数据源管理则针对本项目所涉及的所有数据来源提供查看和编辑功能,使得数据管理更为高效和透明。词库管理功能允许用户手动添加或上传关键词,并查看所有关键词的热度,包括人工输入和自动抽取的关键词,从而有效地掌握和更新关键词库。任务管理部分则覆盖了数据获取、处理、发布以及自定义知识计算等多个维度,通过细分任务类型,提高了任务执行的效率和质量。未来方向我们将专注于通过引入先进人工智能技术,如深度学习,优化知识图谱的构建和更新机制,以提高数据的准确性和时效性。同时,方案将扩展应用场景至更多行业和领域,提供更全面的政策分析支持,并加强系统与其他系统的集成,提供灵活的服务接口以满足更广泛的业务需求,旨在全面提升决策支持的效率和质量。

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服