收藏 分销(赏)

化学信息学3.ppt

上传人:精**** 文档编号:7962377 上传时间:2025-01-28 格式:PPT 页数:73 大小:4.67MB
下载 相关 举报
化学信息学3.ppt_第1页
第1页 / 共73页
化学信息学3.ppt_第2页
第2页 / 共73页
化学信息学3.ppt_第3页
第3页 / 共73页
化学信息学3.ppt_第4页
第4页 / 共73页
化学信息学3.ppt_第5页
第5页 / 共73页
点击查看更多>>
资源描述

1、3.1,基本数据库理论,用户,应用程序,数据库系统,平面文件,查询,信息系统,信息系统的框架,化学,信息系统:采用电子方法对有关化合物的文献、结构、物化性质、谱图等信息以及化学反应的信息进行存储、提取、分析和处理的系统,3.1.1,信息系统中的数据库,信息系统中的数据库类型,数据库系统,(database system,DBS),平面文件:用户可以直接使用的数据文件,(flat-file),数据库,(DB),数据库管理系统,(DBMS),用户,应用,DBMS,DBS,用户,数据,索引,元数据,数据,索引,元数据,DB,数据库系统的框架,采用“布尔算子”的基本检索工具,与(,AND,),:,两个

2、或两个以上的搜索术语必须合成于一个记录中,(如:,acetylsalicylic acid,AND,headache),或(,OR,),:,两个或两个以上的术语在一个记录中被搜索到任一个均可,(如:,acetylsalicylic acid,OR,aspirin),非(,NOT,),:,不进行的搜索,检索时只用第一个术语而不用第二个,(如:,acetylsalicylic acid,NOT,synthesis),A B,A B,A B,采用“截词符”的基本检索工具,?,在一个搜索术语中替代一个不确定的字母,(如:,analys,?,s,与,analysis and analyses,匹配,),

3、#,在一个搜索术语中替代一个空格或一个字母,(如:,acetylsalicylic,#,acid,与,acetylsalicylic acid,或,acetylsalicylicacid,匹配,),*,在一个搜索术语中替代任意多个字母,(如:,acetylsali,*,与,acetylsalicylic,acetylsalicylsaure,or,acetylsalicylique,etc.,匹配,),采用“限制符”的基本检索工具,其作用是限制检索词或检索式在数据库纪录中出现的字段位置,分为基本检索字段和辅助检索字段:,基本检索字段:题目(,TI,);文摘(,AB,);主题词(,DE,),标识

4、词(,ID,),辅助检索字段:作者(,AU,)、语种(,LA,)、年代(,PY,)、期刊名称(,JN,)、文献类型(,DT,),3.1.3,访问数据库(在线或本地),3.2,数据库分类,著书目录,全文,专利,数值,光谱,化合物目录,研究计划,结构,反应,文献数据库,事实数据库,结构数据库,数据库,3.2.1,文献数据库,在文献数据库中,作者名,题目,杂志或书,发表年份,关键词或摘要均从数据库中存取,整个数据库可分成文献和主文本数据库,与全文本数据库相反,文献数据库完全不包含完整的文本,只提及信息。因此,在文献数据库中获取信息导致文献引用,然后在全文本数据库中找到完整的文献。全文本数据库不仅包含

5、完整的文本,(,包括参考文献,),,还存储文本中的事实和图形。由于保存在文献数据库中的详细信息,检索时间要大于对文献数据库的检索,使得该系统检索更昂贵。,典型文献目录数据库有化学文摘社,(CAS),CA,文摘、美国国家医学文摘,Medline,。,3.2.2,事实数据库,数字数据库,主要包含化合物的混合数据,与文献数据库不同,事实数据库直接描述对象(化合物的主要数据),并提供与他们相关的信息。,主要包含化合物的数字数据,如物化值、测试数据(颜色、溶解度、折射率等,),,此外,数字数据库还带有参考文献或数据源的文献目录和识别化合物的信息,(,如名称、,CAS,登录号、分子量,),。典型的数字数据

6、库有,Beilstein,,,DCTHERM,和,Webbook,等。,化合物目录数据库,提供化合物的电子版印刷日录,化学品的不同供应商的目录采用适当的异名,分子式,分子量,结构图和价格来鉴别化合物。典型的化合物目录数据库有,Chemline,和,MERCK,。,研究项目数据库,包含不同学科领域的研究报告和摘要,这样的事实数据库允许我们对各种科技数字和文本提问项目进行检索。典型研究项目数据库有,UFORDAT(Environment Research in Progress),FEDRIP(Federal Research in Progress),。,3.2.3,结构数据库,化学结构数据库含

7、有化合物的化学结构信息(如原子的拓朴性质、原子间的连接等),化合物或结构图不是以图形存储,而是以连接表等形式表达,使用分子图形软件可将分子结构信息可视化。著名的结构数据库有,ICSD,、,CSD,和,PDB,等。,化学反应数据库包含化学反应的信息,包括单步或多步反应的反应物、产物和反应条件、化学反应的类型、反应机理、反应活性、反应的交叉索引以及反应的理化参数等。著名的反应数据库有,ChemInform,等,化学文摘数据库,化学文摘社,(CAS),的化学文摘,(CA),文件主要对化学、化学工程和生物化学进行文章摘要和索引,它包含会议记录、技术报告等专题,(,从,1907,年起,),、综述、会议摘

8、要、电子刊物、网络报告、国际刊物和专利。,该数据库覆益了所有的化学信息,并用不同的主机提供提供服务:,DIALOG,Dalastar,Quested-Orbit,STN International,和专门的,SciFinder,。,从,1907,年到,2003,年,3,月,文献目录数据包含,2,干多万个记录。并且以每周,14000,条的速度更新。,3.3,典型数据库简介,Scifinder,Scholar(CA,网络版,),SciFinder Scholar,由美国化学协会化学文摘社,1998,年编辑出版的网络版,它整合了化学文摘,美国国家医学图书馆,Medline,生物医学数据库以及欧洲和美

9、国等,50,多家专利机构的全文专利资料。,SciFinder Scholar,几乎涉及了化学家和生物学家感兴趣的所有领域,其中除包括无机化学、有机化学、材料学、分析化学、物理化学、高分子化学外,还包括冶金学、地球化学、药物学、毒物学、环境化学、生物学,生物医学以及物理学等诸多学科领域。,访问权限:天大,IP,范围,天津大学,6,个并发用户。,SCISEARCH,SCISEARCH,包含文献目录引用,(,连接,),到发表文章,数据库表示电子在线版的扩展科学引用索引,(SCI),和,ISI(Institute,for Scientific Information),内容,,5900,多个科学技术刊

10、物被包含在,20000,万多条记录的数据库,(2002,年,10,月,),,可以完成文献目录数据检索,同时包括被引用的作者和发表的文章。,/,Medline,Medline,包括主要的生物医药文献,包含,1958,年以来,4600,种刊物上的文章的,13000,万余引用,(2002,年,10,月,),。数据库覆盖基础生物医学研究,临床科学、牙医、药学、兽医学、临床前科学和生命科学。,Medline,是,PubMed,的子集,由美国国家医学库,(NLM),建立的文献目录数据库,数据库对,SdFinder,Scholar,或,PubMed,可以免费获取。,www.M,/,Beilstein,数据库

11、,具有,830,多万,(,至,2002,年,10,月,),的有机物记录,从,Beilstein,手册,以及从,1779,年以来有机化学中,180,种杂志摘录而来。所有的文档都经过了严格的评估和同行评审。,该数据库包括如下信息:,物质鉴定,(,如:结构子结构,化学名称及片断,,CAS,登记号,物理性质,关键字,),;,830,万种化合物和,500,万个化学反应的数据,(,制备,反应,从天然产物分离,化学派生物,纯化,),;,3500,万条物化性质和生物活性的关联记录,包括描述药效和环境的数据,(,数据值如,380,万个熔点,沸点;非数据值如,620,万条制备方法,,150,万个 红外光谱,,50

12、,万个吸收光谱,),;,75,万条文摘和从,1980,年以来的一级有机化学文献中摘录的标题索引的条目数据,(,作者,杂志名,,Beilstein,引用号,专利号,出版年份,),Gmelin,Gmelin,也是一个结构和事实数据库。它是无机和有机金屑化学结构和件质的全面的电子版检索资源。数据库中的物质记录来自,Gmelin,无机和金属有机化学手册,(1772,1975),和,1975,年以来,110,种最重要的无机和金属有机和材料科学杂志。,该数据库包括如下信息:,超过,215,万种化合物,其中,47,万种配位化合物,,5500,种合金,,1.4,万种玻璃和陶瓷,,1.1,万种无机高分子和,32

13、00,种矿物;,超过,130,万种结构式,包括有机金属化合物的可检索结构式;,超过,167,万种反应式;,超过,114,万篇引文、篇目及文摘。,Gmelin,数据库中大的数据分类有:,鉴别标识,包括材料组成和结构数据;,化学性质,包括行为,制备和反应细节;,电化学数据;,电的、磁的、机械的、分子的、光学的性质;,溶解度和在溶液中的蒸气压;,分光度数据;,热力学数据;,量子化学计算;,配体检索:可得到具有同一配体环境的所有配位化合物。,DETHERM,数据库,DETHERM,是一个含有条目信息的数字数据库。它提供约,21000,种纯净物和,101000,种混合物的热物理性质的数据,(,相平衡数据

14、、临界数据、迁移数据、表面张力、电解数据,),。,DETHERM,具有,420,万数据,由,Dechema,,,FIZ Chemie(,德国柏林,),和,DDBST GmbH(,德国,Oldenburg),制作。对数据库中含有的,500,多种性质的定义可以在,NUMERIGUIDE,中找到。,波谱数据库,Specinfo,Specinfo,是一个波谱数据的事实数据库,具有超过,660000,张数字式波谱和,150000,个相关联的化学结构。数据库包括核磁共振谱,(,1,H-,13,C-,15,N-,17,O-,19,F-,31,P-NMR),,红外光谱,(IR),和质谱,(MS),。此外,也包

15、括了实验条件,(,仪器,溶剂,温度,),、偶合常数,弛豫时间和文献条目数据。数据库与,CA,登录数据库,,Beilstein,和,NUMERIGUIDE,是交叉结合的。,Specinfo,具有如下特征:,具有结构编辑器和波谱显示;,可检索确定结构、子结构、名称、分子式和分子量范围;,波谱相似性检索;,预测,NMR,化学位移,(,1,H-,13,C-,19,F-,31,P-NMR),;,显示物理数据、,CAS,登记号、实验条件;,可缩放显示和打印波谱。,该数据库有一些附加的命令和检索域,以指导检索特定的波谱数据,比如峰和多重性检索。,Specinfo,还具有一个附加的工具,用于计算,NMR,谱,

16、它基于数据库中的已知数据对于库中已有的结构类别,可得到相当可靠的计算波谱参数。,晶体结构数据库,晶体是微观粒子呈周期性排列构成的固体。晶体中原子的排列方式主要由,X,射线或中子衍射分析确定。晶体中最小的单元,晶胞决定了整个晶体的特征,包括其对称性。,晶体按晶格结构可分为七个晶系,立方晶系 四方晶系 六方晶系,a,=,b,=,c,a,=,b,c a,1,=,a,2,=,b,c,=,=,=90,o,=,=,=90,o,=,=90,o,=120,o,立交晶系 单斜晶系 三斜晶系 菱面体晶系,a,bc,a,bc a,bc a,=,b,=,c,=,=,=90,o,=,=90,o,90,o,=,=,90,

17、o,从小分子到大分子(尤其是蛋白质和核酸)的晶体结构可分别从下面的三个晶体结构数据库中找到:,剑桥晶体数据库(,CSD,);,无机晶体结构数据库(,ICSD,);,PDB,(,Protein Data Bank,)。,ICSD,(无机物晶体结构数据库),ICSD,是世界上最大的无机晶体结构数据库,具有,76480,个无机物晶体结构,(,至,2004,年,),,包含完全确定的非碳结构的所有原子坐标。每年更新两次,每次更新会增加,2000,种新化合物。,ICSD,由,FIZ Klsruhe,和,NIST,制作。,ICSD,数据库提供如下信息:,化合物名称,矿物名称和来源,,CAS,登记号;,晶体点

18、阵参数,(,每个晶胞的结构单元数和晶胞体积,),;,Hermann,Mauguin,空间群符号;,元素的氧化态;,参考文献条目,.,www.fiz-karlsruhe.de/ecid/Internet/en/DB/icsd,/,CSD,(有机晶体结构数据库),CSD,含有,250000,多个有机和有机金属化合物(最多可达,1000,个原子)的晶体结构信息。所有的晶体结构都由,x,射线或是中子衍射技术分析得到。数据库由剑桥晶体学数据中心制作并提供,最早的数据可追溯到,1930,年。,CSD,中存储的每一条晶体记录包含了下述信息:,对特定记录的文献条目信息,包括作者姓名和完整的杂志文献;,分子的连

19、接表;,晶体的结构和实验信息,主要是数值,如原子坐标、空点群对称性,共价半径和晶体连接关系。,晶体结构信息文件举例:,CIF,(,Crystallographic Information File,),晶体结构可视化软件举例:,Mercury,PDB,PDB,库含有,20254,个实验测定的大分子,(,核酸、蛋白质和病毒,),的三维结构,(2002,年,11,月,),。此外,它包含了蛋白质和小分子配体复合物的数据。除了结构信息,如序列细节,(,一级和二级结构信息等,),、原子坐标、结晶条件、结构因子、,3D,图像,以及各种到其他资源库的链接,(,书目索引,),,数据登录条目由,RCSB(,结构

20、生物信息研究联合实验室,),通过附加信息来注释。,PDB,定期更新,免费获取:,www.rcsb.org/pdb/home/home.do,Research Collaboratory for Structural Bioinformatics(RCSB),oncogene protein,致癌基因,分子生物学数据库,许多具有精细主题的生物化学数据库已经被用来解决不同的问题。自从,1996,年以来,,Nucleic Acid Research,杂志的每一卷的第一个主题都被保留以用于陈述分子生物学数据库。互联网上最全面的日录是,DBCAT,,它目前列出,511,个数据库。,序列库在生物化学中具有

21、重要的作用,提供多肽或蛋白质的氨基酸序列,以及核酸的核苷酸序列。,20,种氨基酸通常表达成三字母码或是一个字母,(,根据生物化学惯例,),;,4,种核酸用单字母码表示。这样,生物化学物质的组成就可由文本检索方法找到。,BIOSIS,BIOSIS,是生物科学领域最大的条目式数据库,它覆盖了生物学与医学方面的文献,包括生物学、微生物学、临床和实验医学、生物化学、生物物理学以及仪器和方法学,由,1969,年以来,9000,种生命科学杂志中的信息组成。该数据库具有超过,1300,万条记录,(,至,2002,年,9,月,),,由,Biological Abstract,制作并每周更新。,oncogene

22、 protein,致癌基因,GenBank,Genbank,是基因序列的文本数字式数据库,包括在基因研究中得到的,2200,多万个序列中的,280,多亿个基元,碱基嘌呤或嘧啶(至,2003,年,1,月)。收集了公开途径可得的序列以及注解信息,如序列描述、源器官、序列长度、参考文献。数据库建于,1967,年,由,National Center for Biotechnology,制作,并每天更新。,EMBL,EMBL(European Molecular Biology Laboratory),是基核苷酸序列数据库,包括,2000,多万个核苷酸序列、,280,多亿个核苷酸。提供的信息包括序列名称

23、、物种、序列长度、启动子、分类以及核酸序列。,PIR,PIR(,蛋白质信息资源,),是带有条目链接的文本数字式蛋白质序列数据库(目前公开的最大蛋白质序列库)。当前的,PIR-PSD,版本,75.04,(至,2003,年,3,月)容纳了超过,28,万个部分的或完整的蛋白质序列,信息包括蛋白质功能、分类(对蛋白质生物来源的描述)、序列特性、实验分析以及条目文献。可以进行基于文本的查询或序列相似性查找。,oncogene protein,致癌基因,SWISS-PROT,SWISS-PROT,数据库版本,40.44,(至,2003,年,2,月)容纳了超过,12,万个蛋白质序列、,4400,多万个氨基酸

24、,是从大约,10,万条文献中摘录得到的。除了序列数据、文献条目和分类数据以外,还提供高价值的注释信息(比如蛋白质功能)、最低水平的冗余以及和其他数据库(,EMBL,、,PDB,、,PIR,等)的高水平整合。,化学反应数据库,化合物以连接表,(CT),方式存储在反应数据库中,这和结构数据库是一样的。此外,每个化合物还被指派反应中心信息以及在该化合物在特定反应中的角色,(,反应物、产物等,),。除了反应数据,反应数据库还包括条目信息及反应事实数据,(,溶剂、产率等,),。所有这些不同的数据类型使得整个数据库相当复杂。检索软件必须能够获得所有不向类型的数据。,CASREACT,CASREACT(CA

25、,反应检索服务器,),是一个启动于,1985,年的反应数据库,具有的,670,多万条反应,(300,万条单步反应和,370,万条多步反应,)(,至,2003,年,3,月,),是从,40,万篇文献,(,杂志、专利等,),中得到的。包含有以下信息:,反应物、试剂和产物连接表,(,可结构检索,),;,CAS,登录号,(,对所有参与反应的化合物,),;,反应条件;,产率;,条目信息。,Cheminform RX,Cheminform RX,反应数据库建立在,Chemlnform(,一个每周从有机或无机化学的新出版物中摘录文摘的服务器,),的基础上,已出版了,30,多年。每次印刷的杂志含有从约,250,

26、个一级期刊中收集的大约,350,篇文摘。它主要集中在有机与有机金属合成化学家所需要的信息上面。,Chemlnform RX,是这个高度专业的文摘的电子版本,它由柏林,FIZ Chemie,建立于,1991,年,已成为一个独特的世界级信息系统。当前,,Cheminform RX,反应数据库是应用最广泛的内部反应数据库,它覆盖从,1900,年到现在的参考文献。超过,100,万个反应和,110,万个分子存储在其中并以每年约,5,万个反应的速度增加。,Cheminform RX,,现被称为化学信息反应数据库,(ChemInform Readion Library),已由,MDL,公司建成一个客户机服务

27、器结构的商用版本。,专利数据库,专利数据库包含从专利文档收集的信息。它描述专利的技术特性和应用范围(专利保护)。,专利的定义:法律文档,规定拥有者的独有权利,防止他人在一定的时期内制造或使用所声明的发明,专利的功能:,(1),对新产品或工艺提供法律保护,;,(2),向社会大众公布先进技术的信息,.,专利文档中包含的信息主要有:,(1),对新产品或工艺提供法律保护,;,(2),向社会大众公布先进技术的信息,.,专利文档中包含的信息主要有:,条目信息,;,综述(摘要),有时提供示意图;,描述(说明书);,专利声明(权利要求);,实例,专利数据库结合了事实、文本、图、表和化学结,构,因而是综合性数据

28、库。,在化学方面的专利中,化合物常用,Markush,结构,来表示。,专利对于那些要保护他们的研究成果的公司是非,常重要的。,在工业界,新事物总是首先以专利形式公布。,著名的专利数据库示例,EUROPATFULL,欧洲专利及应用全文数据库,INPADOC,国际专利数据库,JAPIO,日本专利及应用的条目信息,MARPAT,CAS,专利,Markush,文件,PATDPA,德国专利及应用模型,PATIPC,国际专利分类,USPATFULL,美国专利全文数据库,WPINDEX,国际专利出版物数据库,INPADOC,INPADOC,是最全面的条目式科技专利文档数据库,含有,2600,万条专利文档,,

29、5900,多万条法律状态数据(至,2003,年,3,月)。,数据库中还包含,3500,多万条从,71,个专利发行组织(欧洲专利局、世界知识产权组织)得来的专利引用,每周增加约,4,万条引用。,WPINDEX,WPINDEX,(世界专利索引)是,Derwent,信息公司创建的世界专利数据库,从,40,个专利发布部门广泛收集国际专利文档。,该条目式数据库包含了,1160,万条专利记录和,550,万张图片(至,2002,年,10,月),每年增加,150,万专利文档。,从,1965,年起进行了分类和索引。,MARPAT,CAS,的,MARPAT,专利文件数据库包含了大约,18,万个在,CA,文件中的专

30、利或相关的化学文献中的结构记录(至,2002,年,11,月)。这些文档能用通用结构进行检索。,MARPAT,数据库包含了有机和有机金属分子的,Markush,结构,具有超过,50,万个从,38,个专利发布组织得到的可检索的,Markush,结构,每周增加约,250,个新引用和,750,个新,Markush,结构。可检索的信息包括条目数据、摘要和,CAS,索引号。,本 章 完,化合物结构的,Markush,标记法,Markush,结构主要用于与发明有关的化合物的专利保护,由,Markush,提出,于,1924,年被,US,专利局认可。,Markush,结构有固定的核心、主体和可变部分。不同位置的取代基能被结构类(烷烃或芳香类)或官能团取代。取代基或可变部分在与图分离的位置以文本的形式给出。,因此结构图能转化成大量简单或复杂的化合物结构类。,X,R,1,NHR,2,R,1,H or small alkyl,halogen,OH,COOH,R,2,H,CH,3,X=H,(CH,2,),n,CH,3,Markush,结构主要用于专利数据库来表达大量不同的化合物。,Markush,结构已经应用于,Derwent,全球专利索引,,INPI Merged Markush,服务器和美国化学文摘社的,MARPAT,。,

展开阅读全文
部分上传会员的收益排行 01、路***(¥15400+),02、曲****(¥15300+),
03、wei****016(¥13200+),04、大***流(¥12600+),
05、Fis****915(¥4200+),06、h****i(¥4100+),
07、Q**(¥3400+),08、自******点(¥2400+),
09、h*****x(¥1400+),10、c****e(¥1100+),
11、be*****ha(¥800+),12、13********8(¥800+)。
相似文档                                   自信AI助手自信AI助手
搜索标签

当前位置:首页 > 包罗万象 > 大杂烩

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2025 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服