收藏 分销(赏)

DB44∕T 1888-2016 标准文献全文XML解析规范(广东省).pdf

上传人:曲**** 文档编号:136507 上传时间:2022-09-10 格式:PDF 页数:42 大小:2.46MB
下载 相关 举报
DB44∕T 1888-2016 标准文献全文XML解析规范(广东省).pdf_第1页
第1页 / 共42页
DB44∕T 1888-2016 标准文献全文XML解析规范(广东省).pdf_第2页
第2页 / 共42页
DB44∕T 1888-2016 标准文献全文XML解析规范(广东省).pdf_第3页
第3页 / 共42页
DB44∕T 1888-2016 标准文献全文XML解析规范(广东省).pdf_第4页
第4页 / 共42页
DB44∕T 1888-2016 标准文献全文XML解析规范(广东省).pdf_第5页
第5页 / 共42页
点击查看更多>>
资源描述

1、ICS 01,140,20 A 14 备案号53121-2017DB44 广东省地方标准0844月1888-2016标准文献全文XML解析规范Specification for XML of standard full-text 2016-09-08发布2017-01-01实施广东省质量技术监督局发布1 OB44/T 1888-2016 目次前言.m引言. . . ,-.v l范围2规范性引用文件3术语和定义4标准全文结构化解析模型.2 5标准全文分类方法Schema文f牛结构. . .36半结构化标准全文Schema文件结构. .77全结构化标准全文Schema文件结构. .14附录A(资料

2、性附录)标准全文分类方法Schema文件.28 附录B(资料性附录半结构化标准全文Schema文件.31附录c(资料性附录全结构化标准全文Schema文件.332 目IJ本标准依据GB/T1. -2009的起草规则编制.本标准的附录A、附录B和附录C为资料性附录.本标准自广东行标准化研究院提出并归口.本标准主要起草单位.广东省标准化研究院。OB44/T 1888-2016 本标准主要起草人:伍文虹、陈#乌江、陈莉、曹I佳彦、冯宁霞、黎敬涛、杨丽君、陆致逸、陈雪璐、黄福贤、欧婉菁、蓝玉玉、刘华.本标准是首次发布。m 3 DB44/T 1888-2016 号l随着网络技术、计算机技术和信息技术的飞

3、速发展,标准文献的信息组织模式已从卡片式目录手工检索的模式转换为数据库存储计算机检索的模式,通过题录加工和全文扫描,建立了题录数据库和全文数据库,实现了题录信息的计算机检索和相关标准文本的自动链接,但是检索结果往往是与目标信息相关的标准文献,还需要进一步通过浏览文本获取最终的目标信息,难以实现知识管理和知识发现。标准信息挖掘是通过数字化和结构化的信息加工,实现多途径和多维度的信息检索,全方位和细粒度的信息抽取,如图1所示.二辈辈图1标准信息挖掘针对采集的资源的格式不同,在综合考虑加工时间、成本和效益的基础上,建立标准文献全文结构化解析模型,提出了采用XML(即可扩展宜标语言)描述的半结构化和全

4、结构化两种标准全文结构化数据格式。V 4 1 范围本标准规定了标准信息准文献全文数据格式。本标准适用文献加工、3.1 的信3. 2 3. 3 标准文献全文XML解析规范量2字文本文件digital text documer吐OB44/T 1888-2016 ,以及半结构化和全结构化标义,支持不同的数字化标准以及全方位和细粒度通过特定的编辑软件生产的,由字、词、数字或符号表达的文件。其存储内容使用UTF-8编码格式,输出形式可为字辱、数字字符和符号,或由符号、短语(用自然语言或入造语言)写成的语句.3.4 可扩展置标语言extensiblemarkup languge: XML 5 0844/T

5、 1888-2016 标准通用置标语言(SGML)的子集,是一种用于标记电子文件使其具有结构性的标记语言,它为描述和交换结构化数据提供统一方法.3. 5 元素element在诸如HTML和SGML之类的标记语言中,一组标记、标记之间的内容以及标记所含的所有属性的组合。3. 6 半结构化标准全文semi-structuredstandard ful I-text 只包含了标准全文部分的内容和结构信息的文档,称为半结构化标准全文。3. 7 全结构化标准全文whole-structuredstandard ful I-text 完全包含标准全文内容和结构信息的文档,称为全结构化标准全文.4 标准全文

6、结构化解析模型综合考虑标准化对象、技术要索和标准文本三个方面,在内容层面和展现层面建立了如图2所示的标准全文结构化解析模型。内容层面分类方法l分类方法2分类方法3分类方法n文条图表展现层面公式标准全文分类方法Schema文件标准全文分类JJ法如IL划1标准全文Schema文件标准全文XML文件注:标准按照不同分类方法,可分为不同种类.如分类方法1是披照法律的约束性划分,标准分为强制性标准和推荐性标准,分类方法J是按照涉及的内容划分,标准分为产品标准、过程标准、服务标准、接口标准和信息技术标准.图1标准全文结构化解析模型2 6 OB44月1888-20165 标准全文分类方法Schema文件结构

7、5.1 结构划分方法5. 1. 1 标准全文分类方法Schema文件的结构划分方法见表10 表1标准全文分类方法Schema文件结构划分方法元素属性约束定义StructTextDocumcnt Schema文件根节点Updatetime 1il后:!fr时间Updateuser 最后更新用户StructTextDocument的子兀素,必标准的通用元素/必备元素N orma.lStandard 须且只能有一个StructTe川Document的于元素,可标准的可选元素,以标准类SpecialStandard 有O-N个型进行组织.(预留今后扩展Std-type 必须设定标准类型NormalSt

8、andard 和Section SpecialStandard的子节点,可为标准全文元素。-N个元素ld.必备元素为Al.眩,A3. 第一个标准类型的扩展元素为Bl.眩,因. (预留今Id 必须设定后扩展第二个标准类型的扩展元素为Cl.C2. C3. (预留今后扩展依次类推Necessary 取值有True/False.默认值为False是否必要字段取值有Section- type Text/lmage/Table/Formula.默认元素类型值为TextMulti-value 取值有True/False.默认值为False是否为多值Sub-section 取值有lmage/Table/For

9、mula为多值时子元素名称N缸盹Section的子元素,必须设定元素名称Other-Name Section的子元素,可选J名3 7 8 DB44/ T 1888-2016 表(续元素属性约束定义Al ias Other-Name的子元素,可为l-N个别名Tag Section的子元素.J逃标签Define Section的子元素,可选定义NOle Section的于元素,可ilt注释5. 1. 2 创建标准全文分类方法XML文件时,应按以下要求设定相关属性a) 元素的Id是其唯一标识符:b) 元京的Id、名称、是否必须著录、是否多值等属性应边行设定,这些设置决定结构化标准全文XML文件的创建

10、7j-;1.05. 2 元素说明5.2. 1 元素StructTextDocument曰t t.rJO brstes . -咽.-,. :咀pdatet山iupd.teuser1 层次结构L!truc山z山cu.ente-.or.alStandard由问云主,位远刊注1j!j口子元素NormalStandard SpecialStandard 属性名称类型使用默认固定N解updatetime xs:stnng updateuser XS: stnng 5.2. 2 元素StructTextDocument/NormalStandard层次结构|Ior.al山dor叶主斗.IISectiOD.电

11、1. . 子元素Section 父元素elernent StructTextDocurnent 5. 2. 3 元素StructTextDocument/SpecialStandard4 层次约构于元素父元素属性层次结构子元素父元素DB44/ T 1888-2016 Spec:i alSta.ndard = Section 注解Name Other-Names Tag Define Note elements NormalStandard SpecialStandard 5 g 10 D844/T 1888-2016 属性名称类型使用默认id xs string required necess

12、ary derived by: False xs: stnng section-type derived by xs:string multi-value derived by xs:string sub-section derived by: xs:stnng Text False 5. 2. 5 元素StructTextDocument/NormaIStandard/Section/Name).1次结构类型xs: stnng 父元素element Section 属性-5.2.6 元素StructTextDocument/NormaIStandard/Section/Other-Names

13、层狄结构|Other-I.es母斗子才:iash1 于元素Al ias 父元素elem ent Scction 5. 2. 7 元素StructTextDocument/NormaIStandard/Section/Tag层次结构类型xs:stnng 父兀萦element Section 5. 2. 8 元素StructTextDocument/NormaIStandard/Section/Define6 固定注解DB44/ T 188息一2016层次结构I=D.f山i类型xs:stnng 父元素element Section 5. 2. 9 元素StructTextDocument/Norm

14、aIStandard/Section/Note层次约构类型xs: strlng 父兀萦element Section 5. 2.10 元素StructTextDocument/NormaIStandard/Section/Other-Names/AIias 层狄结构国司类型xs: stnng 父兀萦elempnt Other-Names 6 半结构化标准全文Schema文件结构6. 1 结构划分方法半结构化标准全文Schema文件的结构划分方法见表2。表2半结构化标准全文Schema文件结构划分方法元素属性约束定义Standard 半结构化标准文献XML文件的根节点Std no 标准号Narn

15、e 标准名称Section Standard(J(J于兀K;一个著录的兀絮Id 必填值兀素的lDName 必填值兀素的名称Type 必填值,可选项为一一Text/lmage/Folm uJa/Table 7 11 DB44/ T 1888-2016 元素属性约束定义Text Sectio口的子兀素条文信息!mage Section的于兀萦用于描述兀索中的图片信息Pagc 必填值国片所在页敛Path 必填值图片路径.锻仅著录文件名Table Section的jJG萦用于描述元素中的表格信息Page 必填值表格所在页数Path 必填值表格阁片路径,一般仅著录文件名Formula Section的于

16、兀素用于描述JG索中的公式信息Page 必填值公式所在页数Path 必填值公式图片路径,一艘仅著录文件名Ti t1e lmage. Table. Formula的子元素描述阁片,表格和公式的名称D esc lmage. Formula的子兀萦图片和公式的说明信息Content Table的子元素表格的内容6. 2 元素说明6.2. 1 元素Standard曰8t tribrrtes .-唱.-町s , 层次结构I Sd.d 卜孟p-1:sectioD1. f JG#. Section 名称类型使用默认固定注解属性std n。xs:stnng optional namc xs:stnng opt

17、ional (xs:element name=.Standard) (xs:sequence) xs:element ref=Section maxOccurs=*unbounded J) XML f-l:!il /xs:sequence) /xs :elcment) 12 8 DB44/T 188-2016 6.2.2 元素Standard/Section层次结构子元素父元素属性XML代码曰8 tributes 画画画注解 xs:restriction base=Mxs:stringM) 9 13 OB44/T 1B88-2016 (xs:enumeration value=wFormula

18、M / /x5:5impleType) /X5:.飞tribute (/xs:element 元素Standard/Section/Text曰attr.ibrstes层次结构|王Tezte-element Section 父元素名称类型使用默认固定注解属性page XS: stnng reQuired XML代码(xs:attribute name=pageN type=#xs:stringN use=NrequiredN / /x5:complexType) 6.2.3 元素Standard/Section/lmage6.2.4 曰st tr.ihutes 国叫叫一叫一出层次结构1i tle

19、 Desc 子元素Scction elem ent 父元索10 14 DB44/ T 1888-2016 注解固定默认使用类型名称required xs: stnng path xs;string page xs:strng left 属性xs:string top xs:stnng right xs :string bottom (xs:element name=*Ima肘 (xs:sequence) (xs:element ref=*Title* type二xs:string/ /xs:sequence) XML代码 元素Standard/Section/Table6. 2. 5 曰aHr

20、ibrstes闯闯闯闯叫出层汰结构于元素Title Content 15 Section II elem ent 父元素0844/ T 1888-2016 注解固定默认使用类型名称required xs:string page required xs:string path xs:stnng left xs:string top 属性xs:string right xs:slring botlorn xs:element nameMTablcW) (xs:sequence) (xs:elemenl ref=-TitleN type=xs:stringN / /xs:sequence) XML代

21、码(xs:atlribute name=left type=xs:string / (xs:attribute n四ne=toptype=xs:stringN /) (xs:allributc name=right type=xs:str 吨./ xs:attrihute name=bottom lype=xs:string /) 元素Standard/Section/Formula6. 2. 6 El 8 t tribtes 同闯闯闯闯出层次结构Tille Desc 子元紫Section element 父元Ji(12 16 OB44月1888-2016名称类型使用默认固定注解path xs

22、:strjng reQuired page xs:stnng required 属性left xs:strlng top xs:stnng right xs:stnng bottom xs:stflng 4 xs:element XML代码 (xs:attribute name=wrightM type=*xs:stri吨./ 6. 2. 7 元素层次结构类型属性父元素element Table XML代码 13 17 18 DB44/ T 1888-2016 6. 2. 8 元素Standard/Section/Formula/Title层次结构1=1; tle I 类型xs:string

23、属性content simple 父元素elem ents Formula Image Table XML代码 6. 2. 9 元素Standard/Section/Formula/Desc层次结构类型xs:string 属性content simple 父元11.elements Formula Image XML代码 7 全结构化标准全文Schema文件结构7. 1 结构划分方法7. 1. 1 标准文献按照内容和表现形式分为文档元素和页面元素.7. 1. 2 文档元素分为:封面、目;欠、前言、引言、范围、引用文件、正文条款、附录、参考文献、索引:另外,标准的修改单也作为标准文献的文档元素。

24、文档元素的约束为:必备要素、可选要素。文档元素的性质属性分为.资料性概述、资料性补充、规范性一触、规范性技术。7. 1. 3 页面元素分为:标题、条文、图、表、注、脚注。7. 1. 4 文档元素的属性、约束与页面元素的关系见表3.14 DB44月1888-2016表3文档元素的属性、约束与页面元素的关系表序号文档元素属性约束页面元素约束封面资料性概述必备要素(1)Ti tle page lnformative Essential element preliminary element 2 标题1-0 Title 3 目次资料性概述可选要索(1)Table of nformati ve Opti

25、onal element contents preliminary ele皿eot4 条文Text 5 前言资料性概述必备要萦(1)Foreword Informative Essential element preliminary element 6 条文Text 7 引言资料性概述可边要素(1)Introduction Informative Optional eement preliminary element 8 条文Text 9 图。-nFigure 10 表。-nTable 11 注0-0 NoLe 12 脚注0-0 Footnote 13 范围规范性一般必备絮絮(1)Scope

26、Normati ve general Essential element element 14 条l Text 15 引用文件规范性一般可选要素(1)Normative Normative gencral Optional element references element 16 条文(1) Text 17 正文条*规范性技术必备要素(1)Clause Normative technical Essential element element 18 条文1-0 Text 19 图。-0Figure 20 表0-0 Table 15 19 OB44/ T 1888-2016 表3文铛元素的属性

27、、约束与页面元素的关系表(续)序号文挡元素属性约束页面元素约束21 注。-nNote 22 脚注。-nFootnote 23 附录资料性补充可选要素(O-n)Annex Informatve Optional element supplementary element 规范性技术Normativc technical element 21 条文I-n Text 25 阁O-n Figure 26 条文。-nText 27 注O-n Notc 28 脚注O-n Footnote 29 参考文献资料性补充可选要素(0-1lBibliography Informative Optional elem

28、ent supp!ementary element :30 条文Text 31 索11资料性补充可选要素(O-n)lndexes Informative Optional element supplementary elcmcnt 32 条文l Text 33 修改单规旧性技术可选要素(O-n)Amendment Normati ve technical Optional element element 34 条文I-n Text 35 因。-nFigure 36 表。-nTabJe 37 注。-nNote 38 脚注。-nFootnote 7. 2 元素说明7.2. 1 元素文档16 20

29、层次结构于元素属性剧L代码0844/T 1888-2016 xs:element B .ttr.ibrttu 哇=-11ancu函;4江半:.1i半尘二二J (xs:documentationComment describing your root eement(/xs:documentation) (xs:complexType XS: sequence) (xs:element name=M目伙,.ffiinOccurs=巧./ (xs:element name=M引言.minOccurs=刀./ 17 21 22 OB44/ T 1888-2016 (xs:element namc=.范

30、围,/ (xs:element n皿e=修改单.minOccurs=O maxOccurs=*unbounded* / 7. 2.2 元素封面层次结构子元素属fi18 中文名称施日期名称性质-在t岳低春季再i王佳主:-f:2豆J标准号被替代标准号采用标准号英文名称发布组织类型可用性XS: documentElementAttribute JCS CCS 备案号发布UW!实 XML代码xs:element name#封面) (xs:element ref=中文名称minOccurs=O / (xs:element ref=英文名称.,minOccurs=巧/) xs:elernent ref=标

31、准号/) xs:elem ent ref=1f被替代标准号11minOccurs=巧/) xs:element ref=发布组织.minOcc町5=0/) /xs:sequence) xs:attribute ref=性质default=资料性概述,/) 7.2.3元素目次层次结构子元素|条文属性XML代码名称性质类型可用性XS: documentElementAttribute xs:element name=目次.minOccurs=巧) (xs:sequence) xs:element ref=条文,/) 阻:attributeref=性质/) 7.2.4元素前言DB44/T 188岳-

32、201619 .2j ?4 DB44/ T 1888-2016 层次结构子元索属性XML代码条文名称性质:豆J1 类型XS: documentElementAttribute (xs:sequence) (xs:attrlbute rcf=N性质/ /xs:complexType) 可用性7. 2. 5 元素引言层次结构子元素属性XML代码20 条文名称性质图表注类型43 ,-.年乒L斗FJXS: DocumentElementAttribute 可用性(xs:element name=引言minOccurs=*Q*) (xs;scquence) / DB44/ T 188B-2016 /x.

33、s:seQuence) 7. 2. 6元素范围层次结构属性xs 、层次结构 XML代码属性文一称质条-名性XS: D ocumentElementAttribute XML代码xs:element name=引用文件HminOccurs=*O*) (xs:complexType) (xs:sequence) /xs:sequence) eJement) 21 ?5 ?6 D844/ T 1888-2016 7.2.8 元素正文条款层次结构子元素剧性XML代码22 条文名称性质1 阁表类型注-也Jj-4生JL年乒可用性XS: DocurnentElementAttribute xs: eleme

34、nt name;:E文条款.maxOccurs;:unbounded) xs: sequence) xs:clcment ref= minOccurs=刀.maxOccursunbounded /) /xs:sequencp) (/xs:complcxType) /xs:elcment) DB44/ T 188-2016 7.2.9 元素附录层次结构子元素属性XML代码条文罔表注-毯J443 :-fp年乒:-fJ孟名称类型可用性性质X S: DocumentElem entAttribute (xs :seQuence) (/xs :seQuence) 7.2. 10 元素参考文献层次结构于元

35、素属性XML代码:品J矗立名称类型可用性性质xs, DocumentEleme圳Att口butexs:element name=参考文献.minOccurs=.O) (xs:seQue叫nce) /xs:sequence) 23 ?7 DB44/ T 1B88-2016 元素索引层次结构7. 2. 11 条文子元素可用性类型名称性质XS: DocumentElementAttribute 剧性 /xs:sequence) 川,IL代码 / xs:complexType) /xs:element) 元素修改单7.2. 12 UOE 层次结构:-4-J L电-J注表图条文子元素可用性类型名称性质X

36、S: DocumentElementAttribute 属性xs:element name=修改单.minOccurs=O. maxOccurs=.unbounded#) xs:element ref=M圈minOccurs=巧MmaxOccurs=unbounded / ) XML代码24 织.80844/T 1888-2016 /xs;seQuence) 7.2.13元素图层狄结构子元素属性XML代码 7.2. 14元素表。ptional1 use=woptionalH 1 25 ?9 D844/T 1888-2016 曰attrib tu些国层次结构Content Description

37、 Ti tle 于元素可用性类型名称XS, 10 lD XS, lDREF Foreword ro 届1tXS: string XS: string Page Path (xs:sequence) (xs:element name=飞JescriptionNtype=气s:strt吨./ XL代码(xs:allributc name=*JDN type=*xs:l日./ xs:complexType) (xs:sequence) XML代码(xs:element name=beNotedI日,type=xs:IOREF / (xs:attribute name=*noteT吨,.type:;:

38、飞s:booleanwuse=*optionalW default=*旷/ 7. 2. 16元素条文次结构手元素属性X.L代码litle 名称: 10 ) :2半ji:.J !-t主i二i,去尘!.IContent 类型ID XS, JD ForewordlD XS, IDREF Page XS: string (xs:element name=*条文 可用性 xs:attr ibute name=*ID* type=*xs:ID* 27 31 32 D844/ T 1888-2016 附录A(资料性附录标准全文分类方法Schema文件标准全文分类方法Schema文件如下: 28 xs:cle

39、ment namc=Other-Names (xs:sequence xs:clement ref=Alias maxOccurs=unbounded xs:clcment mllllc=Sectio旷 xs:elemcnt ref=Definc minOccurs=。 xs:clement xs:enumeratlon 用:elementref=SpecialStandard minOccurs=O maxOccurs=unboundedl OB44/ T 1888-2016 29 33 34 DB44/ T 1888-2016 x己:xs:attn衍tribut川且ten阳lam缸皿ame

40、旷=飞u叩A甲p网dateuscr俨(咿叨yp俨xs阳S:S归阳n吨g 30 附录B(资料性附录)半结构化标准全文Schema文件半结构化标准全文Schema文件如下. 4阳。complexType 目attributename=pa曲lype=自由inguse=requircd! 剖:attributename=page type=xs:stringl 阻:elementname=Section xs:anribute name=id type=xs:string u时se=吁旧eq甲u山ired OB44/ T 188-2016 31 35 3-6 OB44/T 1888-2016 目。a

41、忧ributename=std_no type=xs:string use=rcquiredl xs:element na缸me= xs:attribute name=page rype=xs:string use= r町eq刷ui阳r目ed 32 附录c(资料性附录全结构化标准全文Schema文件全结构化标准全文Schema文件如下: !. edited with XMLSpy v2oo9 xs:schcma 目clementname=国次minOcc山5=0 DB44/T 1888-2016 33 3.7 38 OB44/ T 1888-2016 34 DB44/ T 1888-2016

42、斗K.s:elementref=注minOccurs=O maxOcc田s=unbounded1 xs:elemcnt name=嗦引minOccurs=O ma,Occurs=unbounded与 35 3j 40 0844月1888-201636 Jxs:sequen回 4日clemcnt 阻attributename=upagel1 type=xs:string use=飞ptionalf 况础s:enu皿田eral xs:element name=中文名称xs:element name=英文名称xs:element name=标准号xs:element xs:element D844/T 1888-2016 37 41 FON-F 户寸咕。广东省地方标准标准文献全文XML解析规范DB44/T 1888一2016* 广东省标准化研究院组织印刷广州市海珠区南回路563号1104室邮政编码510220网址w酬.bz360. org 电话020-84250337广东省农垦总局印刷厂42

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 品牌综合 > 行业标准/行业规范

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服