收藏 分销(赏)

中科院网络化工资源知识点总结.doc

上传人:天**** 文档编号:4300156 上传时间:2024-09-04 格式:DOC 页数:17 大小:230.50KB 下载积分:8 金币
下载 相关 举报
中科院网络化工资源知识点总结.doc_第1页
第1页 / 共17页
中科院网络化工资源知识点总结.doc_第2页
第2页 / 共17页


点击查看更多>>
资源描述
网络化学化工资源知识点总结(2014.12.20) 第一部分 信息检索的相关概念及检索步骤 文献(期刊文章)检索步骤 n 步骤1:初筛 - 检索摘要信息 n 文献摘要检索工具 n 步骤2:锁定目标文献à存入EndNote n 步骤3:获取目标文献全文 n 1995 – 全文数据库 (Web of Knowledge, 出版商库…) n 早期文献:检索联合目录 - 原文传递 n 步骤4:阅读关键文献à进一步线索(早期重要文献、重要同行、主流术语…) n 继续 一、信息源 n 源(一次文献) :人类积累的知识 – 书à基本知识 n 图书检索:图书馆、网上书店 n 源(一次文献):学术成果的发表途径 à动态+鲜活知识 à R&D n 期刊/杂志/Newsletter n 会议 (会议文集/摘要集/参加会议) n 专利 n 学位论文 n 其他:科技报告、科技新闻及评论等 n 信息检索工具 (二次文献)– 从内容类型角度 n 摘要性期刊 – 文献(摘要)数据库 n 专利检索工具、会议论文集检索工具、学位论文检索工具 n Web信息检索工具 – 搜索引擎 二、网络化学信息检索的基本步骤 n 明确信息需求 – 找什么? l 问题 – 模型化(主题/关键词、同行) n 整理检索起点 – 已知什么? l 直接、间接 n 选择检索工具 – 信息源知识 n 设计检索策略 – 如何检索? l 结合(问题描述 + 工具功能) n 评价检索结果 (个性化----复杂) l 结果满意吗? l 新的线索 n 循环直到查找结果满意为止 三、 不同工具类型及其检索方式 l 文献数据库检索- 布尔代数 l Web信息检索 - 全文检索 l 化学数据库 – 化学结构检索 l 其他:基于自然语言的检索 (未成熟) (一)文献摘要数据库 – 工作原理及检索功能 n 文献著录信息 - 数据库 (类似图书馆卡片) n 经过人加工、格式规范 n 可检索字段 – Title, Author, Keywords … n 原理:检索式 = (匹配) 被检索字段值 à 检索结果 n 组合检索 – 布尔代数 n 检索结果子集 – 逻辑运算 n 运算符:AND, OR, NOT n AND (intersection) – 交集 n OR (union) – 并集 n NOT (complement) – 补集 (1)信息检索基本问题 n 有效交流 - 相同的语言 n 检索 (匹配) – 一致表达 n Polysemy (一词多义) n 同一个词有不同的含义, e.g. “扩散” n 社会学里:“内部传达,不要扩散” - 传播、流传 n 健康领域:癌症:“扩散”- 转移 n 化学:分子/离子在一相分散的过程,从浓度高向低 n Synonymy (一义多词) n 同一个概念用不同的词表达 (习惯) (2)文献数据库加工、格式规范 n 文章索引标准化 - standardized terminology n 受控词表 n Controlled Vocabularies / Controlled Terms n 如:主题词表(subject headings) n 叙词表 (Thesauri) – 以自己熟悉的词为起点 n 词之间的关系 n 缩小、扩大概念范围 n 相关词汇 n 受控词表 n Controlled Vocabularies / Controlled Terms n 如:主题词表(subject headings) 举例: n 叙词表 (Thesauri): Fibres n Scope Note: Natural or man-made fibres for spinning n Used for: Fibers, Man made fibres, Natural fibres n Broader Terms: Textile products n Narrower Terms: Cotton, Flax(亚麻), Jute (黄麻), Wool n Related Terms: Yarn (纱线) (二)Web信息检索 - 全文检索 Ø 主要检索工具:搜索引擎 检索– 全文检索 Ø 可检索词 – 文档中的所有词 (every word) Ø 文档未经过人工加工 (文献数据库 – 人加工) Ø 计算机 – 文本规范性处理à建索引 Ø 停用词过滤 (a, the, we, chemistry?) Ø 词干归一化(stemming) Ø 检索结果的打分、排序 Ø 例如:词频统计 Ø 检索结果 – 太多 Ø 高级检索 – 检索策略 Ø 可检索词 – 文档中的所有词 (every word) Ø 文档未经过人工加工 (文献数据库 – 人加工) Ø 应用 Ø Word Processor – MS WORD, Adobe Acrobat Reader (PDF) Ø Internet通用搜索引擎 Ø Google Ø 百度 – 中文分词 (分词方法决定建立索引的粒度) Ø 中文字(word)之间没有分割符 (三)化学数据库 – 化学结构检索 n 化学结构 (1D, 2D, 3D) n 1D – SMILES, InChI (New): 检索途径 n 2D – MOL, RDF, … : 检索途径 n 3D – MOL, PDB, CIF… (几何优化) n 应用:3D构象搜索、优化 - 药物设计、分子模拟 n 目前国际化学数据库发展趋势:2D结构的检索 n 全结构(exact match) – 唯一 n 子结构 (substructure) n 相似性检索 – 基于fingerprint n 举例:我们的化合物搜索引擎 (四)基于自然语言的检索 (未成熟) LSI – 一种自然语言检索方法 n LSI (隐含语义检索) n 文档向量模型 n 降维: SVD分解 n 检索输入 – 一段话 四、信息检索结果评价 – 估计 n 相关文档 (Rel) – 应该得到的 Rel n 检索结果 (Retr) – 所得到的 n 查全率 (Recall) n 查准率 (Precision) Rel Retr 五、影响信息检索结果的因素 n 检索者 - 检索步骤 n 数据源 n 原作者 – 用词习惯 n 文献数据库 – 规范程度(检索功能) 第二部分 化学化工的文献摘要数据库 n 在线系统STN、Dialog、Questel·Orbit n 联机系统(online service) (一)Dialog与Orbit 1. Orbit n 目前特色 – 知识产权信息 n 最早的库: CA(化学文摘)库àOrbit (父奖子的佳话) 2. Dialog n 1972 Dialog开始商业运作 n 三个数据库 n ERIC (Educational Resources Information Center) n NTIS (National Technical information Center) n PANDEX (类似于引文索引, Dick Kollin) n 用户寥寥:Half a dozen customers (<10) n Dialog today - 2004 n 900个数据库 n 每月:70万次检索、1700万page views (二)STN – 面向科学技术的在线数据库 n FIZ (FachInformationsZentrum Karlsruhe, Europe) n JST (formerly JICST, Asia) n CAS (North America and elsewhere) n 200个库 (三)文献数据库发展趋势 界面友好 - 功能受限 à功能完善 (四)摘要数据库 (索引) n 摘要数据库 n 可用的摘要库 n 检索策略 n 索引表(可检索字段)、主题词表 n 检索结果的保存 – 文献管理工具 n 文摘数据库 (各有特色、互有重叠) n CA (Chemical Abstracts) n EI (Engineering Village 2) n Current Contents - ISI Web of Knowledge n CSA (剑桥科学文摘) n BIOSIS n PubMed n 重庆维普《中文科技期刊全文数据库》, CNKI, NSTL n 其他 n 文摘数据库 n 会议录ISTP - ISI Web of Knowledge n PQDD.B学位论文数据库 n Dewent世界专利索引 - ISI Web of Knowledge n 专利(美国专利、欧洲专利等) n 美国科技报告检索 n 其他 1.美国化学文摘CA n CA on CD (光盘版) n CAplus (STN, SciFinder) n SciFinder (网络版) n 1907 - n 8000种期刊 n 专利:29个国家/专利机构 n Updated weekly 【CA可提供的数据库内容】 n 摘要 + n 化合物登录 n 化学反应 n 可购买化学品 n 专利 n 法规 2.工程索引EI (1)检索策略 n 快速检索、专家检索 n 多种限制条件 n 索引+叙词表 n 检索历史 n 保存检索策略 n 组合 – 不同检索结果 (2)检索结果 n 下载、e-mail n 导入到文献管理工具 n 快速检索 – 检索词组合+选择限制条件 n 专家检索 – 自己书写命令组合 ((({fuel cell}) WN TI) AND ((CENEAR) WN CN)) n 同一次检索策略的优化 n 检索功能 n 大小写不敏感 n 精确检索: {fuel cell} 或 “fuel cell” n 连接词 (and, or, not, near) - Stop Words n 特殊字符被忽略(0-9, A-Z, ?, *, #,(),{}以外) n 布尔运算符(AND, OR, NOT) n 截词 (Truncation) – 右截断 * n 取词根stemming, $X - X的所有词根形式 (确省) n 限制条件 n 文章类型 (DT) – 出版来源 (会议,期刊?) n 处理分类 (TR) – 内容特点 (实验,理论?) n 语种 n 时间 n 最新更新 n 当不选择Autostemming off时 (缺省),((nanotechnology) WN TI)是包括单、复数 n 下面则找出仅为复数的情形 n 利用索引 – 可检索字段的值 (Quick Search) n 作者名索引 n 受控词索引 (Ei controlled term) n 作者单位名称索引 (书写变化、缩写、改名) n 出版物名称 (Series title) n 出版商索引 n 文章索引标准化 - standardized terminology n 受控词表 n Controlled Vocabularies / Controlled Terms n 如:主题词表(subject headings) n 叙词表 (Thesauri – 2010无) n 词之间的关系 n 缩小、扩大概念范围 n 相关词汇 n Browse Indexes - 受控词表 (Controlled Terms) n 按字母排,不表示词和词之间的关系 n 每一篇文章都被赋予CV (观察一篇文章) n 叙词表 (Thesauri) – 概念树结构 (2010无) n 缩小、扩大概念范围 n 相关关键词 n 组合检索 n Search – 查看叙词表是否有某词 n Exact Term – 已知受控词、获得相关词 n Browse – 浏览字母序叙词表 n 专家检索 – 组合检索 n 推荐方法 n 选择Expert Search n Browse Indexes – 生成一个检索子句、子句连接关系(AND、OR) n 修改检索字段名称代码 运算优先顺序:括号(里>外) ; NOT>AND>OR n 布尔代数组合各检索子句 检索碳纳米管、实验内容、会议文章 结果太多, 如何refine? 将CV à TI n 保存检索策略 n 保存当前的检索策略: n 1. Search History n 2. Save (必须事先在服务器注册) n 调出保存好的检索策略: n Saved Searches n 点击检索策略,重新检索一次 n 整理检索结果 (每一次) n 浏览、任意指定 n Select range - Go n View Selection n Selected Records n 整理检索结果 (多次检索 - 一个结果) n Save to folder (3个folder, 且< 50) n 将结果保存的远方服务器 n 前提:已经注册过 n Select range - Go n View Selection n Save to folder n My folder (管理自己的folder) n 下载检索结果Download n 选择结果格式 n Citation (缺省) n Detailed record n 选择下载方式 n Update Folder (暂存到EI服务器) n 打印 n E-mail n 下载 - 文献管理工具 文献管理工具 n EndNote n Reference Manager n ProCite n Thomson ResearchSoft Niles Software Research Information Systems (RIS) n 导入 – 参考文献信息 n 手工 n 检索结果文件 - 自动导入 n 联机检索 - 直接自动导入 n EI Information Village n ISI Current Contents n 期刊全文检索工具 n 图书馆在线目录 n n 导出 – 参考文献插入与格式自动生成 n EndNote - WORD (论文写作) n 批量导入 n 检索结果 - 文件格式 n 选择/编辑 - 导入模板 n 建立目标enl 导出 – 参考文献插入与格式自动生成 n 导出参考文献格式模板 n 下载结果到自己的计算机 n E-mail n 计算机文件 n 文献管理工具EndNote n 文件格式:RIS 第三部分基于Web的摘要数据库 (索引) n ISI Web of Knowledge (内容) n ISI Current Contents Connect (摘要) n Web of Science (WOS, 引文) n ISI Proceedings (ISTP, 会议录,2009并入WOS) n Derwent Innovations Index (专利, 始于1963-) n 创始人Monty Hyams逝于2013-10-10, 享年95岁 n ISI Journal Citation Reports (期刊评价) n 引文索引(Citation Index)的思想 n 如果文章A引用文章B, 那么两篇文章有一定的、共同的部分; n 由文章A的参考文献,可回溯找到文章B; n 引文索引可以将被引文献文章B作为检索输入,以找到引用它的文章A。
展开阅读全文

开通  VIP会员、SVIP会员  优惠大
下载10份以上建议开通VIP会员
下载20份以上建议开通SVIP会员


开通VIP      成为共赢上传

当前位置:首页 > 教育专区 > 其他

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        抽奖活动

©2010-2026 宁波自信网络信息技术有限公司  版权所有

客服电话:0574-28810668  投诉电话:18658249818

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :微信公众号    抖音    微博    LOFTER 

客服