收藏 分销(赏)

基于依存句法分析的建筑设计规范条文自动结构化方法.pdf

上传人:自信****多点 文档编号:2319567 上传时间:2024-05-28 格式:PDF 页数:8 大小:947.97KB
下载 相关 举报
基于依存句法分析的建筑设计规范条文自动结构化方法.pdf_第1页
第1页 / 共8页
基于依存句法分析的建筑设计规范条文自动结构化方法.pdf_第2页
第2页 / 共8页
基于依存句法分析的建筑设计规范条文自动结构化方法.pdf_第3页
第3页 / 共8页
亲,该文档总共8页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、第 卷第 期 年 月土木工程与管理学报 .:./.收稿日期:修回日期:作者简介:王 新()男陕西延安人硕士研究生研究方向为(:.)通讯作者:徐 照()男江苏徐州人博士副教授研究方向为(:.)基金项目:国家自然科学基金()教育部人文社科基金()江苏省自然科学基金()江苏省建设系统科技项目()基于依存句法分析的建筑设计规范条文自动结构化方法王 新 徐 照(东南大学.软件学院.土木工程学院 江苏 南京)摘 要:基于 的建筑专业施工图合规性自动审查的关键步骤是将自然语言建筑设计规范条文转换为计算机可理解并执行的格式 为解决人工转译建筑设计规范条文费时、费力且效率低的问题本文提出了基于依存句法分析的建筑

2、设计规范条文自动结构化方法 借助依存句法分析词语之间的依存关系利用正则表达式与关键字组合识别词语的语素特征推导出各类规范条文的判断依据 按照核心词语将规范条文分成四类设计自动结构化流程实现规范条文中实体和关系的抽取 最后通过案例分析对方法程序进行了验证较高的正确率表明了该方法的有效性对推进基于 的建筑专业施工图合规性自动审查系统的应用具有重要意义关键词:建筑设计规范条文 结构化 依存句法分析 自然语言中图分类号:.文献标识码:文章编号:()(.):.:施工图审查是我国的一项重要制度旨在按照相关法律法规与标准规范对施工图内容进行 土木工程与管理学报 年审查是保障工程质量安全、公众生命财产安全的重

3、要手段 施工图审查制度提高了工程建设的质量安全为降低我国工程建设安全事故的产生发挥了重要作用 目前我国施工图审查方式主要是人工审查此方式存在审查工作量大和规范查阅工作繁杂等问题 为克服以往审图方式中存在的问题住建部相继颁布的住房和城乡建设部工程质量安全监管司 年工作要点住房和城乡建设部等部门关于加快新型建筑工业化发展的若干意见等文件中均提出要积极促进施工图审查改革、推广施工图数字化审查试点推进施工图 审图模式提高审查效率随着 技术的不断推广与成熟相关的施工图合规性自动审查系统相继被提出 其关键步骤就是实现建筑设计规范条文的结构化将自然语言编写的建筑设计规范条文转译为计算机可理解并执行的格式 目

4、前行业标准规范均采用自然语言进行编写由于自然语言与机器语言的巨大差异计算机直接对非结构化的规范条文进行处理的效果不尽人意同时效率与质量也较低 一方面建筑设计规范条文力求表述精确使用了大量的建筑工程专业术语描述另一方面为使内容表达全面规范条文中含有较多复杂句此外建筑设计规范中条文量大且繁杂人工处理极易出错校正过程复杂 因此如何利用现有技术方法使自然语言编写的建筑设计规范条文自动结构化生成相应计算机可以理解和执行的格式逐渐成为领域关注和研究的重点针对以上问题本文在分析多本建筑设计规范的基础上旨在提出一种建筑设计规范条文自动结构化方法该方法首先对规范条文进行长句转换、分词和词性标注然后借助依存句法分

5、析构建句子的依存句法树并对各节点词语进行语素分析利用句子的依存关系与语素特征构建规则库实现了建筑设计规范条文的自动结构化 研究现状面向英文文本的结构化相对成熟因为英文语法形式较为规范且有 等一些丰富的知识库支持而国内针对中文文本的自动结构化技术的研究起步较晚且通常需要进行中文分词、语义标注等处理由于领域特点如专业术语使得建筑设计规范条文的结构化更为复杂最初建筑设计规范条文的结构化主要依赖专家人工实现 如刘洪利用 二次开发技术将规范转译为程序函数建立规范数据库国外的 软件等 近年来部分学者利用自然语言处理、本体论等进行规则的自动或半自动解译通常以自然语言处理方法为基础编制逻辑转换的模式、规则从而

6、实现规范条文自动转化为逻辑规则 舒赛借助上下文无关文法对消防设计规范条文进行句法分析利用语素构成作为判断依据实现规范条文的自动结构化 唐锐等将建筑规范中的条文进行分词和词性标注利用 模型进行命名实体识别使用基于注意力机制融合句子语义的建筑规范关系抽取方法抽取出实体、属性及属性值 等提出了一种基于语义、规则的 方法利用文本的句法特征和语义特征对条文进行自动化处理 等将自然语言处理和上下文无关语法结合起来提出了一种规则解释框架用于生成结构化的规则 等提出一种 框架使用基于特定领域的文本分类方法将规范条文自动解释为 刘玥基于上下文无关文法和实体识别构建规则逻辑表达式 等基于短语结构和词性模式识别规范

7、条文特征上述自动或半自动规则解译方法主要采用短语结构文法和上下文无关文法而忽略了句子各成分间的依存关系 本文在相关研究的基础上引入依存句法综合考虑句子的短语结构信息和各成分之间的依存关系深入分析了建筑设计规范条文的语素特点利用句子的依存关系与语素特征构建规则库完成了建筑设计规范条文自动结构化并进行实例分析实现完全自动化的规则解译无需人工干预即可将规范条文自动转换成计算机可处理的规则 建筑设计规范条文自动结构化方法.预处理预处理阶段主要为长句转换、分词和词性标注考虑到建筑设计规范中长句的复杂性本文优先选择对短句进行分析与处理 将建筑设计规范中的长句人工转换为多个简单句简单句仅含有一 个 句 法

8、且 结 构 清 晰 利 于 分 析 如 民用建筑设计统一标准第.条规定:“室内坡道坡度不宜大于 室外坡道坡度不宜大于 ”可转换为“室内坡道坡度不宜大于 ”和“室外坡道坡度不宜大于 ”第 期王 新等:基于依存句法分析的建筑设计规范条文自动结构化方法对规范条文完成长句转换之后需要进行分词与词性标注为分析句子各成分间依存关系作准备 分词是指将句子中的词语进行汉字序列的切分使词语作为分析处理的最小单位粒度 词性标注指对词语进行词类标注如动词、名词等以“阳台应设置防护栏杆”为例中文分词和词性标注后可得到阳台/应/设置/防护栏杆/由于建筑设计规范中含有大量专业术语为提高分词工具对规范条文中文分词和词性标注

9、的正确率需要构建术语库收集标准规范中的专业术语供工具使用此外建筑设计规范中存在少数规范以表格形式表示不作为本文研究内容.依存句法分析建筑设计规范条文采用自然语言描述需要通过句法分析来解析其句法结构本文采用依存句法分析句子的语言结构 依存句法利用句子中各成分之间的依存关系来描述语言结构 依存句法理论认为句法关联描述了词语之间的从属关系 这种关系是由支配词和从属词组成动词是句子核心并处于支配地位 依存句法既保留了整个句子的短语结构信息同时也描述了各成分之间的依存关系 语言学家 为依存句法理论提出了 条公理:()一个句子中仅含有一个成分作为独立成分()句子中某一成分被其他成分所依存()句子中每个成分

10、仅可依存一个成分()句子含有成分、直接依存于 处于 和 之间的 仅能依存于 或者 或者、之间的某个成分根据上述 条公理本文归纳了常见的 种依存关系如表 所示在对规范条文进行分词后本文利用条件随机场模型计算语句中各词语间的依存关系使用最小生成树算法来生成依存句法树 以阳台/应/设置/防护栏杆/为例分析其依存关系可得到如图 所示的依存关系 表示为:同时可得对应图 所示的依存句法树依存句法树的根节点是当前句子的核心每个节点包含原词语、索引、词性以及依存关系 由图 可知“阳台”与“设置”为主谓关系“设置”与“防护栏杆”为动宾关系“应”与“设置”为状中关系 其中“设置”作为核心关系为整个句子的核心表示“

11、阳台”应存在“防护栏杆”表 依存关系归纳序号关系类型主谓关系动宾关系直接宾语间宾关系间接宾语前置宾语前置宾语兼语定中关系状中结构动补结构并列关系介宾关系左附加关系 右附加关系 独立结构 核心关系0|?1|n2|u3|v4|nHEDSBVADVVOB图 依存关系示例?3|vHED?1|nSBV?2|uADV?4|nVOB图 依存句法树示例 一组依存关系描述了句子中词与词之间的依赖关系可表示一类具有此类句法结构的句子丰富的结构信息和紧密的依存关系利于句法结构分析和判断 本文采用 格式描述依存关系可生成唯一依存句法树在建筑设计规范条文中存在一类规范缺少作为句子的核心并支配其他成分的谓语动词如“梯段净

12、高不应小于.”为契合依存句法在此情况下本文将“小于”、“大于”等比较词视为动词作句子核心处理.语素分析由于同一依存句法树(除原词语外)可表示多个具有相同句法结构的句子这些句子在语义层面的表达可能并不一致如“候梯厅深度不应小于.”和“梯段净高不应小于.”两者的依存句法树相同但其语义有所不同前者对建筑空间的属性进行约束后者对建筑元素的属性进行约束 因此在依存句法分析的基础上本文 土木工程与管理学报 年对生成的依存句法树各节点的原词语进行语素类别划分包括名词、情态动词、比较词、量词和动词进一步消除条文中语义信息的歧义 其中名词表示人、事、物等的统一名称如“娱乐建筑”情态动词表示语气可根据情态动词要求

13、严格程度不同区别对待规范条文如“必须”、“应”等比较词用来表示关系大小的词如“高于”、“低于”等 量词表示事物的计算单位 如“”“/”等 动词指表动作或状态的词如“设置”、“穿过”等 由于规范中的专业名词通常由形容词和名词组成将两者组合作为名词进行分析本文主要对名词与动词进行细分如表 所示表 语素类别及识别方式词性类别实例正则表达式名词建筑物()高层建筑 建筑元素()直跑楼梯 楼梯属性()有效面积 面积空间()起居室 室数值().?.措施()排水措施 措施区域()严寒及寒冷地区 地区方位()上方系统()供暖系统 系统比较词()大于情态动词()应量词()动词存在约束()设置、采用等数值约束()大

14、于、小于等位置约束()紧邻、穿过等代替约束()作为、作等 名词划分为建筑物、空间、元素、属性、区域、方位、系统、数值、措施/构造 建筑物是指用建筑材料构筑的实体供人们居住和活动的各类建筑如“娱乐建筑”空间指建筑界面限定的供人们生活和活动的场所如“卧室”元素指建筑物的建筑部件、构件、配件、工程设备等如“门”属性指元素、空间或建筑物的属性如“宽度”数值则是仅由数字构成如“.”区域则是指某些特定的地区如“严寒及寒冷地区”方位指方向、位置如“上方”系统指建筑物内部的各个系统如“供暖系统”动词在规范条文的依存关系作为核心关系是整个句子的核心 根据规范条文中动词的不同将其分为存在约束、数值约束、位置约束、

15、代替约束对依存句法树各节点原词语进行语素识别采用关键字识别与正则表达式识别组合的方式 关键字识别是在已有词语集合中查找是否含有特定的词语 正则表达式为字符串匹配的模式可识别一类词语作为关键字识别的补充与扩展 其中建筑物、元素、属性、空间、措施、区域、数值、系统均采取关键字与正则表达式组合识别其余均采用关键字识别方式 通过语素识别可以得到依存句法树各节点的语素特征 以“阳台应设置防护栏杆”为例其语素特征表示为:代表 中每个索引节点原词语所对应的语素类别.规范条文自动结构化在依存句法分析及语素分析的基础之上对于每一条建筑设计规范条文都可以生成对应的依存句法树同时可提取依存句法树中各节点词语的语素类

16、别为语素特征 根据依存关系与语素特征可构成一条规则从句法结构和语素分析两个角度对规范条文的语义信息进行表达代表此类别规范的判断依据 通过规则判断规范条文构成是否合乎给定的句法结构和语义信息可识别出一系列具有相同依存关系与语素特征的条文进而实现准确识别并抽取出规范条文中的实体及实体之间的关系根据动词的类别可将规范分为四大类别:存在约束类、数值约束类、位置约束类、代替约束类每类规范包含多个规则 图 展示了“给水排水管道不应穿过变配电房”的依存句法树及其各节点语素类别 在对规范条文的描述语言进行分析总结后可构建规则库 表 列举了四类别规范中部分规则的描述与判断依据?|3 vHEDPC?|1 nSBV

17、E?|2 uADVMV?|4 nVOBS图 依存句法树及各节点语素类别示例借助规则库中的每条规则可识别出具有相同依存关系与语素特征的规范条文据此可实现规范条文的自动结构化 建筑设计规范条文自动结构化流程如图 所示 首先利用术语库和分词工具对条文进行分词 然后借助依存句法分析语句依存关系构建依存句法树同时借助正则表达式和关键字识别出依存句法树中各节点语素类 第 期王 新等:基于依存句法分析的建筑设计规范条文自动结构化方法表 四类规范下的部分规则规范类别类别标识核心词语描述规则表示(判断依据)依存关系语素特征例句存在约束设、设置、采取等空间“”布置在空间“”时应采取措施“”:卧室/布置/在/半地下

18、室/时/应/采取/排水措施数值约束大于、小于、高于等空间“”的 属性“”不应小于“”:地下室/的/最低处净高/不应/小于/./位置约束紧邻、贴邻、穿过等元素“”不 应穿过空间“”:给水排水管道/不应/穿过/变配电房代替约束作为、作等元素“”不 应作为元素“”:推拉门/不应/作为/疏散门别提取语素特征 最后根据依存关系及语素特征匹配规则库中已有规则即可得出条文的类别标识和结构化表示 由于四类规范均含有多条规则类别标识前缀作为规范类别后缀作为顺序标识两者组合为唯一标识?图 自动结构化处理流程下述算法描述了基于依存句法分析的条文自动结构化流程算法:输入:由多行长句转换处理后的规范条文组成的文本 输出

19、:结构化结果集合.初始化./中文分词/.()./依存句法分析/.().():./识别语素类别/.()./识别结果不为空/./添加语素特征/./在规则库中查询唯一标识/.().!“不应”“不可”.“不作”./将实体和关系添至结果集/.()./其他情况/.().().以条文“卧室的局部净高不应低于.”为例 其依存关系表示为:其语素特征表示为:而代表核心关系的词语为“低于”由以上可知此条文规范类别为数值约束中文分词为卧室/的/局部净高/不应/低于/./类别标识为表明局部净高为卧室的属性且局部净高的值不低于.应用案例为验证上述结构化流程及技术设计的可行性和有效性本文选择 民用建筑 土木工程与管理学报

20、年设计统一标准、住宅设计规范的相关规范条文作为案例进行验证.预处理为提升对规范条文中文分词的正确率本文整理上述规范及/民用建筑设计术语标准 中的相关专业术语并进行词性标注形成术语库 术语库共包含 个词语根据语素类别进行区分其统计信息如表 所示可以看出主要为元素类别占比.表 术语库语素统计信息序号类别占比/元素.空间.措施/构造.建筑物.属性.系统.其他 本文使用上述规范中的相关条文作为实验数据转换后共包含 条 本文选择北京大学语言计算与机器学习研究组研发的 作为中文分词和词性标注工具其主要基于经典的 模型 针对选取的建筑设计规范条文本文从句型方面分析其特征 表 统计了实验数据中句子的长度情况可

21、以看出主要是短句集中在 个词之间表 样本数据的句子长度统计句长词数占比/.构建规则库在依存句法分析与语素识别的基础上以各类规范的依存关系与语素特征作为判断依据构建规则库在依存句法分析阶段本文使用了哈尔滨工业大学社会计算与信息检索研究中心研制的语言技术平台()进行依存句法分析 在语素识别阶段借助正则表达式识别和关键字识别两者组合的方式识别依存句法树各节点词语的语素类别 根据常见规范条文的依存关系与语素特征将四类规范中部分条文对应的多个判断依据构建为规则库规则库采用 中 数据结构进行存储持久化则采用 文件 在四类规范中本次实验共总结了 条规则作分析验证其中涉及的依存句法树仅 种 各规则类别统计信息

22、如表 所示由于代替约束在规范中出现较少其占比最少仅为.表 规则库统计信息序号规则类别占比/数值约束.存在约束.代替约束.位置约束.规范条文自动结构化及结果分析在已构建的规则库基础上输入经过预处理后的规范条文 根据各类规范的依存关系及语素特征可自动判别规范条文所属类别进而得出每一条规范条文的结构化表达及类别标识实现规范条文的自动结构化 在完成规范条文自动结构化后可利用 和 对结构化条文进行可视化 是一个轻量级、高性能的图数据库可以以图的形式存储结构化数据 部分可视化结果如图 所示 黄色节点表示建筑物蓝色节点表示措施/构造橙色节点表示空间粉色节点表示元素 各个节点之间以箭头连接表示节点间的关系如“

23、体育建筑设人行道路”?.?.?图 结构化条文可视化示例 条数据进行自动结构化后对规范类别进行统计分析统计信息如表 所示其中主要为设置约束类占比.全部数据中正确结构化的有 条错误 条正确率.错误的 条中有 条为语素识别时未识别出“”如“自动扶梯的倾斜角不宜超过”此外还有条存在“配电间”、“分户热计量装置”、“水泥地面”和“使用面积”的分词错误导致依存句法树构建错误与语素识别错误进而类别判断错误由于结构化过程较为依赖术语库当术语库中缺少上述量词与专业名词会导致类别判断错误 因此术语库应尽量收集领域专业术语增加分词正确性减少依存句法分析与语素识别时的 第 期王 新等:基于依存句法分析的建筑设计规范条

24、文自动结构化方法错误提高结构化正确率 此外规则库中的规则作为规范类别的判断依据也应在多本建筑设计规范的基础上进一步总结提高可自动结构化的规范类别数量表 规范类别统计信息序号规范类别占比/数值约束.存在约束.代替约束.位置约束.通过实例分析可以得出根据依存关系和语素特征可有效提取条文中的实体、关系验证了规范条文的自动结构化方法以支持基于 的施工图合规性自动审查系统的构建 结 语本文提出了一种面向自然语言的建筑设计规范条文自动结构化方法通过构建术语库提高规范条文的分词质量对分词、词性标注后的规范条文进行依存句法分析构建依存句法树并采用组合识别方式对词语进行语素识别 根据依存关系与语素特征构建规则库

25、识别规范条文的规则逻辑 通过提升专业术语和规则的数量提升结构化的正确率可完全自动化进行规则解译实现建筑设计规范中实体和关系的自动化抽取有效地解决了人工转译低效的问题 然而在语素识别方面本文方法还有待改进和提升未来将考虑结合机器学习相关的算法采用语义标注、命名实体识别等方式更加充分地利用数据本身的特征以更好地实现语素识别参考文献 甘 晨.基于 和本体的建筑施工图合规性审查研究.武汉:华中科技大学.中华人民共和国住房和城乡建设部工程质量安全监管司.关于印发住房和城乡建设部工程质量安全监管司 年工作要点 的通知 /.().:/./.中华人民共和国住房和城乡建设部 中华人民共和国教育部 中华人民共和国

26、科学技术部 等.住房和城乡建设部等部门关于加快新型建筑工业化发展的若干意见/.().:/./.邢雪娇 钟波涛 骆汉宾 等.基于 的建筑专业设计合规性自动审查系统及其关键技术.土木工程与管理学报 ():.:.穆磊.基于 的建筑消防自动审图研究.北京:北京建筑大学.魏 然 舒赛 余宏亮 等.自然语言建筑设计规范条文的规则表达式自动提取方法.土木工程与管理学报 ():./.:.:.:.:.刘洪.基于 的结构设计规范审查方法研究.重庆:重庆大学./.:.林佳瑞 周育丞 郑哲 等.自动审图及智能审图研究与应用综述/.工程力学:.:/./.舒 赛.支持图审的消防设计规范条文自动结构化方法.武汉:华中科技大

27、学.唐锐 李智杰 李昌华 等.基于 与知识图谱的智能化审图系统设计与实现.计算机测量与控制 ():.():.:.土木工程与管理学报 年 .:.刘 玥.面向 消防审查的规范语义模型构建方法研究.北京:北京建筑大学.:.():./.().:/./.():.:/.().:/./.:/.().:/./.(上接第 页).():.崔庆宏 王广斌 刘潇 等.年国内 技术研究热点与演进趋势.科技管理研究():.:.():.():.():.林佳瑞 张建平.我国 政策发展现状综述及其文本分析.施工技术 ():.马智亮.我国建筑业信息化的历史回顾及启示.中国建设信息():.丰景春 李晟 罗豪 等.政策工具视角下我国 政策评价研究.软科学 ():.:/.:.:.():.杜根旺 汪涛.创新政策协调研究综述及展望.科研管理 ():.:.李 健 顾拾金.政策工具视角下的中国慈善事业政策研究 以国务院关于促进慈善事业健康发展的指导意见为例.中国行政管理 ():.胡世文 祁志伟.政策工具视角下数字政府建设政策文本研究 基于省级政策文本()的分析.西南民族大学学报(人文社会科学版)():.刘贵文 陶怡 毛超 等.政策工具视角的中国装配式建筑政策文本量化研究.重庆大学学报(社会科学版)():.毛 超 岳奥博.政策科学范式下智慧城市政策文本量化及演进历程研究.情报杂志 ():.:.():.

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服