资源描述
网络化学化工资源知识点总结(2014.12.20)
第一部分 信息检索的相关概念及检索步骤
文献(期刊文章)检索步骤
n 步骤1:初筛 - 检索摘要信息
n 文献摘要检索工具
n 步骤2:锁定目标文献à存入EndNote
n 步骤3:获取目标文献全文
n 1995 – 全文数据库 (Web of Knowledge, 出版商库…)
n 早期文献:检索联合目录 - 原文传递
n 步骤4:阅读关键文献à进一步线索(早期重要文献、重要同行、主流术语…)
n 继续
一、信息源
n 源(一次文献) :人类积累的知识 – 书à基本知识
n 图书检索:图书馆、网上书店
n 源(一次文献):学术成果的发表途径 à动态+鲜活知识 à R&D
n 期刊/杂志/Newsletter
n 会议 (会议文集/摘要集/参加会议)
n 专利
n 学位论文
n 其他:科技报告、科技新闻及评论等
n 信息检索工具 (二次文献)– 从内容类型角度
n 摘要性期刊 – 文献(摘要)数据库
n 专利检索工具、会议论文集检索工具、学位论文检索工具
n Web信息检索工具 – 搜索引擎
二、网络化学信息检索的基本步骤
n 明确信息需求 – 找什么?
l 问题 – 模型化(主题/关键词、同行)
n 整理检索起点 – 已知什么?
l 直接、间接
n 选择检索工具 – 信息源知识
n 设计检索策略 – 如何检索?
l 结合(问题描述 + 工具功能)
n 评价检索结果 (个性化----复杂)
l 结果满意吗?
l 新的线索
n 循环直到查找结果满意为止
三、 不同工具类型及其检索方式
l 文献数据库检索- 布尔代数
l Web信息检索 - 全文检索
l 化学数据库 – 化学结构检索
l 其他:基于自然语言的检索 (未成熟)
(一)文献摘要数据库 – 工作原理及检索功能
n 文献著录信息 - 数据库 (类似图书馆卡片)
n 经过人加工、格式规范
n 可检索字段 – Title, Author, Keywords …
n 原理:检索式 = (匹配) 被检索字段值 à 检索结果
n 组合检索 – 布尔代数
n 检索结果子集 – 逻辑运算
n 运算符:AND, OR, NOT
n AND (intersection) – 交集
n OR (union) – 并集
n NOT (complement) – 补集
(1)信息检索基本问题
n 有效交流 - 相同的语言
n 检索 (匹配) – 一致表达
n Polysemy (一词多义)
n 同一个词有不同的含义, e.g. “扩散”
n 社会学里:“内部传达,不要扩散” - 传播、流传
n 健康领域:癌症:“扩散”- 转移
n 化学:分子/离子在一相分散的过程,从浓度高向低
n Synonymy (一义多词)
n 同一个概念用不同的词表达 (习惯)
(2)文献数据库加工、格式规范
n 文章索引标准化 - standardized terminology
n 受控词表
n Controlled Vocabularies / Controlled Terms
n 如:主题词表(subject headings)
n 叙词表 (Thesauri) – 以自己熟悉的词为起点
n 词之间的关系
n 缩小、扩大概念范围
n 相关词汇
n 受控词表
n Controlled Vocabularies / Controlled Terms
n 如:主题词表(subject headings)
举例:
n 叙词表 (Thesauri): Fibres
n Scope Note: Natural or man-made fibres for spinning
n Used for: Fibers, Man made fibres, Natural fibres
n Broader Terms: Textile products
n Narrower Terms: Cotton, Flax(亚麻), Jute (黄麻), Wool
n Related Terms: Yarn (纱线)
(二)Web信息检索 - 全文检索
Ø 主要检索工具:搜索引擎 检索– 全文检索
Ø 可检索词 – 文档中的所有词 (every word)
Ø 文档未经过人工加工 (文献数据库 – 人加工)
Ø 计算机 – 文本规范性处理à建索引
Ø 停用词过滤 (a, the, we, chemistry?)
Ø 词干归一化(stemming)
Ø 检索结果的打分、排序
Ø 例如:词频统计
Ø 检索结果 – 太多
Ø 高级检索 – 检索策略
Ø 可检索词 – 文档中的所有词 (every word)
Ø 文档未经过人工加工 (文献数据库 – 人加工)
Ø 应用
Ø Word Processor – MS WORD, Adobe Acrobat Reader (PDF)
Ø Internet通用搜索引擎
Ø Google
Ø 百度 – 中文分词 (分词方法决定建立索引的粒度)
Ø 中文字(word)之间没有分割符
(三)化学数据库 – 化学结构检索
n 化学结构 (1D, 2D, 3D)
n 1D – SMILES, InChI (New): 检索途径
n 2D – MOL, RDF, … : 检索途径
n 3D – MOL, PDB, CIF… (几何优化)
n 应用:3D构象搜索、优化 - 药物设计、分子模拟
n 目前国际化学数据库发展趋势:2D结构的检索
n 全结构(exact match) – 唯一
n 子结构 (substructure)
n 相似性检索 – 基于fingerprint
n 举例:我们的化合物搜索引擎
(四)基于自然语言的检索 (未成熟)
LSI – 一种自然语言检索方法
n LSI (隐含语义检索)
n 文档向量模型
n 降维: SVD分解
n 检索输入 – 一段话
四、信息检索结果评价 – 估计
n 相关文档 (Rel) – 应该得到的
Rel
n 检索结果 (Retr) – 所得到的
n 查全率 (Recall)
n 查准率 (Precision)
Rel
Retr
五、影响信息检索结果的因素
n 检索者 - 检索步骤
n 数据源
n 原作者 – 用词习惯
n 文献数据库 – 规范程度(检索功能)
第二部分 化学化工的文献摘要数据库
n 在线系统STN、Dialog、Questel·Orbit
n 联机系统(online service)
(一)Dialog与Orbit
1. Orbit
n 目前特色 – 知识产权信息
n 最早的库: CA(化学文摘)库àOrbit (父奖子的佳话)
2. Dialog
n 1972 Dialog开始商业运作
n 三个数据库
n ERIC (Educational Resources Information Center)
n NTIS (National Technical information Center)
n PANDEX (类似于引文索引, Dick Kollin)
n 用户寥寥:Half a dozen customers (<10)
n Dialog today - 2004
n 900个数据库
n 每月:70万次检索、1700万page views
(二)STN – 面向科学技术的在线数据库
n FIZ (FachInformationsZentrum Karlsruhe, Europe)
n JST (formerly JICST, Asia)
n CAS (North America and elsewhere)
n 200个库
(三)文献数据库发展趋势
界面友好 - 功能受限 à功能完善
(四)摘要数据库 (索引)
n 摘要数据库
n 可用的摘要库
n 检索策略
n 索引表(可检索字段)、主题词表
n 检索结果的保存 – 文献管理工具
n 文摘数据库 (各有特色、互有重叠)
n CA (Chemical Abstracts)
n EI (Engineering Village 2)
n Current Contents - ISI Web of Knowledge
n CSA (剑桥科学文摘)
n BIOSIS
n PubMed
n 重庆维普《中文科技期刊全文数据库》, CNKI, NSTL
n 其他
n 文摘数据库
n 会议录ISTP - ISI Web of Knowledge
n PQDD.B学位论文数据库
n Dewent世界专利索引 - ISI Web of Knowledge
n 专利(美国专利、欧洲专利等)
n 美国科技报告检索
n 其他
1.美国化学文摘CA
n CA on CD (光盘版)
n CAplus (STN, SciFinder)
n SciFinder (网络版)
n 1907 -
n 8000种期刊
n 专利:29个国家/专利机构
n Updated weekly
【CA可提供的数据库内容】
n 摘要 +
n 化合物登录
n 化学反应
n 可购买化学品
n 专利
n 法规
2.工程索引EI
(1)检索策略
n 快速检索、专家检索
n 多种限制条件
n 索引+叙词表
n 检索历史
n 保存检索策略
n 组合 – 不同检索结果
(2)检索结果
n 下载、e-mail
n 导入到文献管理工具
n 快速检索 – 检索词组合+选择限制条件
n 专家检索 – 自己书写命令组合
((({fuel cell}) WN TI) AND ((CENEAR) WN CN))
n 同一次检索策略的优化
n 检索功能
n 大小写不敏感
n 精确检索: {fuel cell} 或 “fuel cell”
n 连接词 (and, or, not, near) - Stop Words
n 特殊字符被忽略(0-9, A-Z, ?, *, #,(),{}以外)
n 布尔运算符(AND, OR, NOT)
n 截词 (Truncation) – 右截断 *
n 取词根stemming, $X - X的所有词根形式 (确省)
n 限制条件
n 文章类型 (DT) – 出版来源 (会议,期刊?)
n 处理分类 (TR) – 内容特点 (实验,理论?)
n 语种
n 时间
n 最新更新
n 当不选择Autostemming off时 (缺省),((nanotechnology) WN TI)是包括单、复数
n 下面则找出仅为复数的情形
n 利用索引 – 可检索字段的值 (Quick Search)
n 作者名索引
n 受控词索引 (Ei controlled term)
n 作者单位名称索引 (书写变化、缩写、改名)
n 出版物名称 (Series title)
n 出版商索引
n 文章索引标准化 - standardized terminology
n 受控词表
n Controlled Vocabularies / Controlled Terms
n 如:主题词表(subject headings)
n 叙词表 (Thesauri – 2010无)
n 词之间的关系
n 缩小、扩大概念范围
n 相关词汇
n Browse Indexes - 受控词表 (Controlled Terms)
n 按字母排,不表示词和词之间的关系
n 每一篇文章都被赋予CV (观察一篇文章)
n 叙词表 (Thesauri) – 概念树结构 (2010无)
n 缩小、扩大概念范围
n 相关关键词
n 组合检索
n Search – 查看叙词表是否有某词
n Exact Term – 已知受控词、获得相关词
n Browse – 浏览字母序叙词表
n 专家检索 – 组合检索
n 推荐方法
n 选择Expert Search
n Browse Indexes – 生成一个检索子句、子句连接关系(AND、OR)
n 修改检索字段名称代码
运算优先顺序:括号(里>外) ; NOT>AND>OR
n 布尔代数组合各检索子句
检索碳纳米管、实验内容、会议文章
结果太多, 如何refine?
将CV à TI
n 保存检索策略
n 保存当前的检索策略:
n 1. Search History
n 2. Save (必须事先在服务器注册)
n 调出保存好的检索策略:
n Saved Searches
n 点击检索策略,重新检索一次
n 整理检索结果 (每一次)
n 浏览、任意指定
n Select range - Go
n View Selection
n Selected Records
n 整理检索结果 (多次检索 - 一个结果)
n Save to folder (3个folder, 且< 50)
n 将结果保存的远方服务器
n 前提:已经注册过
n Select range - Go
n View Selection
n Save to folder
n My folder (管理自己的folder)
n 下载检索结果Download
n 选择结果格式
n Citation (缺省)
n Detailed record
n 选择下载方式
n Update Folder (暂存到EI服务器)
n 打印
n E-mail
n 下载 - 文献管理工具
文献管理工具
n EndNote
n Reference Manager
n ProCite
n Thomson ResearchSoft
Niles Software
Research Information Systems (RIS)
n 导入 – 参考文献信息
n 手工
n 检索结果文件 - 自动导入
n 联机检索 - 直接自动导入
n EI Information Village
n ISI Current Contents
n 期刊全文检索工具
n 图书馆在线目录
n
n 导出 – 参考文献插入与格式自动生成
n EndNote - WORD (论文写作)
n 批量导入
n 检索结果 - 文件格式
n 选择/编辑 - 导入模板
n 建立目标enl
导出 – 参考文献插入与格式自动生成
n 导出参考文献格式模板
n 下载结果到自己的计算机
n E-mail
n 计算机文件
n 文献管理工具EndNote
n 文件格式:RIS
第三部分基于Web的摘要数据库 (索引)
n ISI Web of Knowledge (内容)
n ISI Current Contents Connect (摘要)
n Web of Science (WOS, 引文)
n ISI Proceedings (ISTP, 会议录,2009并入WOS)
n Derwent Innovations Index (专利, 始于1963-)
n 创始人Monty Hyams逝于2013-10-10, 享年95岁
n ISI Journal Citation Reports (期刊评价)
n 引文索引(Citation Index)的思想
n 如果文章A引用文章B, 那么两篇文章有一定的、共同的部分;
n 由文章A的参考文献,可回溯找到文章B;
n 引文索引可以将被引文献文章B作为检索输入,以找到引用它的文章A。
展开阅读全文