中国植物DNA条形码数据库及管理系统需求调研报告.docx

资源描述

中国植物DNA条形码数据库及管理系统需求倜研报告昆明植物研究所科技信息中心 2012-3-6 软件需求操作系统：Linux操作系统；数据库：大型数据库。 Web应用：Java、PHP等开源实现，支持主流浏览器。良好的国际化支持。功能需求Web 门户作为植物DNA条形码数据管理系统的公众入口，界面设计要求简洁大方，功能明确，反映专业特点，不需要花哨的显示效果，不用Gash,尽量降低网络带宽开销，支持手机等智能终端设备。提供数据浏览、数据查询、用户管理、软件和资料下载、在线帮助文档、分析计算、科普和文献资讯等服务入口，具体执行由后端应用服务器、文件服务器、数据库服务器、计算服务器完成。 3・用户管理提供用户的注册、登录、权限控制功能。权限控制采用“用户+组”的控制策略，用户可以隶属于一个或多个组，用户对自己的数据有读写权限，对同组的其他用户的数据有读权限。特殊组public 表示所有用户都可读，包括匿名用户（非注册用户），这是用户的缺省组设置（鼓励开放）。用户可以随时更改自己的组设置，并可以申请创立新组。每个注册用户在主系统有一个独立的空间，空间里包括用户提交的数据备份和详细操作日志，便于用户进行跟踪和数据同步。用户注册和登录过程需要通过加密连接进行，保证密码等私密信息不能以明文形式在网络上传输。 3.3,2.3数据管理用户通过子系统提交的数据，首先进入主系统的受理队列，然后进入用户的个人空间，经审核和校验（人工或自动）后，合并到主系统库里。用户可以浏览有读权限的所有数据，以多种导航视图浏览：工程列表一采集编号一具体信息，科一种一采集编号一具体信息，地域一采集编号一具体信息，卒华系统要提供完备的查询界面，方便用户快速的以各种关键字进行检索，结果要与检索条件相匹配，并符合用户的权限。用户可以根据需要自由下载有读权限的数据，可以单个下载，也可批量下载（为防止系统负载太重，可设定数量限制）。软件和资料下载提供子系统软件和相关文档资料的下载。软件包括子系统二进制安装包，平安补丁等，保存各个历史版本。文档资料包括系统使用手册，标准规范，FAQ,软件Changlog等，文档版本必须与软件版本相匹配。文档以PDF格式和HTML格式提供。 3.325分析计算对于不依赖生物计算的统计分析功能，由应用服务器访问数据库服务器，获得统计结果。对于一些实时性要求不高的分析统计，可以缓存结果，以一定的时间间隔更新，以降低系统负载。对于需要计算服务器参与的计算请求，由应用服务器转发到计算服务器，等待计算服务器进行计算，完毕返回结果。鉴于有些计算耗时很长，除了正常的请求一等待一响应的同步通讯模式外，同时提供邮件通知等形式的异步响应模式，防止用户端的长期阻塞，计算结果可以在服务器上保存一段时间，等待用户有空时来获取。计算服务器本身没有数据，所需数据来自数据库服务器和文件服务器，由于数据量巨大，不可能每次计算都随时获取数据，可以在计算服务器上保存一份数据，通过一定的数据同步机制进行更新。同时，计算服务的软件多种多样，除了常用的序列比对、序列搜索软件，后续还会不断部署新软件，所以，计算服务的接口设计必须通用，以应对未来新的软件需求。 3・3,2.6科普和文献资讯与图书情报局部合作，不定期的更新一些最新研究成果和资讯，供用户参考。 3.3,2.7其他功能配置功能，日志功能等。 4数据说明样本信息 Specimen Info 样本信息由样本编号、样本保藏信息、样本采集信息、样本详细信息、样本分类信息构成。 4.1.1 样本编号 Sample ID 样本在数据库系统中的编号。样本编号在整个数据库系统中必须是唯一的。 4.1.2 样本保藏信息Voucher Info 内容英文说明野外采集原始编号 Field ID 样本的野外采集编号博物馆/标本库内部编号 Museum voucher ID 样本在博物馆/标本库的内部编号博物馆/标本库名称 Institution Storing 存放样本的博物馆/标本库名称样本捐赠者 Sample Donors 如果是捐赠样本，那么填写捐赠者的姓名捐赠者邮箱 Donor Email 如果是捐赠样本，那么填写捐赠者的电子邮箱样本采集信息 Collection Info 内容英文说明采集编号 Collection ID 样本的采集编号采集者 Collectors 样本采集者的名称采集日期 Collection Date 样本的采集日期大洲/海洋 Continent/Ocean 采集地点所在的大洲或大洋国家/地区 Country 采集地点所在的国家或地区省/自治区/直辖市 State/Province 采集地点所在的省级行政区划市/地区/州 Region 采集地点所在的地级行政区划区/县 Sector 采集地点所在的县级行政区划具体地点/小地名 Exact Site 采集地点所在的具体地理描述纬度 Latitude 采集地点所在的地理纬度经度 Longitude 采集地点所在的地理经度海拔 Elevation 采集地点所在的海拔高度生境 Habitat 采集样本的生境信息样本详细信息 Specimen Details 内容英文说明繁殖方式 Reproduction 样本植株的繁殖方式植物习性 Plant Habit 样本植株的生长习性采集部位 Tissue Type 样本包括的植物部位植株高度 Plant Height 植株的高度附加信息 Extra Info 关于样本的附加信息备注 Notes 备注信息 4.1.3 样本分类信息Taxonomy info 内容英文说明门 Phylum 样本的分类学信息纲 Class 目 Order 科 Family 亚科 Subfamily 属 Genus 种 Species 科中文名 FamilyChinese Name 样本的科中文名种中文名 SpeciesChinese Name 样本的种中文名鉴定者 Identifiers 样本鉴定者的姓名鉴定人邮箱 Identifier Email 样本鉴定者的电子邮箱鉴定单位 Identifier Institution 样本鉴定者所属的单位/机构的名称鉴定日期 Identifying Date 样本鉴定的日期 4.2 序列信息 Sequence Info 序列信息处理样本和序列之间的对应关系。样本的每种遗传标记只能有一个序列文件。内容英文说明序列文件 Sequence File 序列文件的文件名遗传标记 Marker 序列的遗传标记名称缩写测序中心 Run Site 处理序列的实验室或机构名称样本编号 Sample ID 序列对应的样本编号 GenBank 编号 GenBank Accession No 序列在GenBank中的对应编号测序图谱信息Trace Info 测序图谱信息处理样本和Trace文件之间的对应关系。样本的每种遗传标记可以有至多10个Trace文件，但这些文件彼此不能相同。内容英文说明测序图谱文件 Trace File Trace文件的文件名遗传标记 Marker Trace文件的遗传标记名称缩写测序方向 Read Direction 读码方向。填写Forward或 Reverse 之一。样本编号 Sample ID Trace文件对应的样本编号测序质量文件 Trace Score File 测序图质量文件的文件名 PCR正向引物 PCR Primer Fwd PC R扩增时用的正向引物名称 PCR反向引物 PCR Primer Rev PCR扩增时用的反向引物名称测序引物 Sequencing Primer 测序引物的名称处理文件信息Handle files info 处理文件信息处理样本和处理文件之间的对应关系。样本的每种处理文件最多有一个。内容英文说明样本编号 Sample ID 样本编号操作人 Handlers 样本操作人的姓名 DNA电泳图文件 Electrophoresis DNA File DNA电泳图文件的文件名 DNA光谱图文件 Spectrum DNA File DNA光谱图文件的文件名 PCR电泳图文件 Electrophoresis PCR File PCR电泳图文件的文件名 PCR光谱图文件 Spectrum PCR File PCR光谱图文件的文件名图片信息Image Info 图片信息处理样本和采集照片文件之间的对应关系。每个样本可以有至多 10个照片文件。一般每个样本会拍摄3~5张记录鉴定特征的照片，如“生境”、 “植株”、“花”、“果”等。内容英文说明图片文件 Image File 图片文件的文件名是否原始标本 Original Specimen 图片内容是否为原始标本图片说明 Caption 图片内容的简要说明样本编号 Sample ID 图片文件对应的样本编号摄影师 Photographer 进行图片拍摄和处理的人或机构的名称 License 图片的使用类型联系方式 License Contact 拥有者的联系方式目录 1 工程背景错误!未定义书签。 2 业务需求错误!未定义书签。 2.1 BOLD Systems错误!未定义书签。 2.2 种质资源库错误!未定义书签。 2.2.1 实验流程错误!未定义书签。 2.2.2 数据内容错误!未定义书签。 2.2.3 业务流程错误!未定义书签。 3 技术需求错误!未定义书签。 3.1 总体架构错误!未定义书签。 3.2 子系统错误!未定义书签。 3.2.1 软件需求错误!未定义书签。 3.2.2 功能需求错误!未定义书签。 3.3 主系统错误!未定义书签。 3.3.1 软件需求错误!未定义书签。 3.3.2 功能需求错误!未定义书签。 4 数据说明错误!未定义书签。 4.1 样本信息Specimen Info错误!未定义书签。 4.1.1 样本编号Sample ID错误!未定义书签。 4.1.2 样本保藏信息Voucher Info错误!未定义书签。 4.1.3 样本采集信息Collection Info错误!未定义书签。 4.1.4 样本详细信息Specimen Details错误!未定义书签。 4.1.5 样本分类信息Taxonomy info错误!未定义书签。 4.2 序列信息Sequence Info错误!未定义书签。 4.3 测序图谱信息Trace Info错误!未定义书签。 4.4 处理文件信息Handle files info错误!未定义书签。 4.5 图片信息Image Info错误!未定义书签。 1工程背景 DNA条形码概念自2003年由加拿大分类学家Paul Hebert首次提出后就在世界范围内得到了广泛关注和积极响应，有关DNA条形码技术(DNA barcoding) 的研究成为近年来生物分类学的研究热点。DNA条形码技术是利用标准的、有足够变异的、易扩增且相对较短的DNA片段自身在物种种内的特异性和种间的多样性而创立的一种新的生物身份识别系统，它可以对物种进行快速的自动鉴定。DNA条形码技术可以弥补传统分类方法的缺乏，是日渐萎缩的传统形态分类学强有力的补充，该技术将是今后生物物种鉴定开展的必然趋势。随着研究的进展，大量的生物DNA条形码数据平台相继建立，如生命条形码数据系统BOLD Systems＞国际生命条形码网站iBOL、鱼类条形码网站 FISHBOL、鸟类条形码网站ABBL等等。我国有着丰富的生物多样性资源，中国学者多年来积极参与了 DNA条形码领域的研究工作。在这样的背景下，构建自己的生物DNA条形码数据管理系统, 一方面保存现有的研究成果，另一方面支撑未来的科学研究，就显得非常必要。中国植物DNA条形码数据库及管理系统将由中国科学院昆明植物研究所和中国科学院计算机网络信息中心联合承建。 2业务需求原始需求信息主要来自： 1 .参考BOLDSyslems等国际知名DNA条形码数据库及信息系统；.听取国内相关领域专家的需求，以中国西南野生生物种质资源库分子生物学实验中心的老师和实验人员为主。 1.1 BOLD Systems BOLD系统主页: 文档信息： 1.2 种质资源库实验流程种质资源库测定植物DNA条形码的实验工作及数据整理流程如下所示: 数据内容植物DNA条形码数据由采集信息和序列信息两局部组成。采集信息主要包含研究人员的野外采集记录、标本信息、鉴定信息、照片信息等。野外采集记录包括：采集编号、采集者、采集日期、采集地点（大洲、国家 /地区、省/自治区/直辖市、地区/市/州、区/县、具体地点/小地名）、经纬度坐标、海拔、生境等。标本信息包括：植物习性、采集部位、植株高度、标本数、标本号、标本存放地、样本捐赠者、捐赠者联系方式等。鉴定信息包括：中文科名、拉丁科名、中文种名、拉丁种名、鉴定日期、鉴定人、鉴定人联系方式等。序列信息以文件的形式存储，包括原始Trace文件，拼接后的序列等。 1.2.1 业务流程用户初步设想： • 构建样品、实验原始结果数据以及相关的管理、角色相关的数据库系统;拥有在线数据查询筛选的交互界面； • 拥有在线数据的录入界面（类Excel方式）；形成离线批量数据整理的Excel模板：定义相关的数据格式和规范，并尽量通过手段控制、容错，方便录入； • 实现批量数据的录入和更新（Excel格式）； • 预留相关数据的分析接口。系统的业务流程如下所示: 单项录入、批量录入、质量控制单项录入、批量导入、文件上传、质量控制关键字查询、标签生成、分析与可视化接口预留数据整合查询（分析）样品采集 —◎ 样品信息录入 Barcoding信息录入系统使用时，匿名用户可以浏览和查询所有公开的信息，注册用户除了匿名用户的权限外，还可以查看和修改自己提交的数据。 3技术需求总体架构系统建设采用“主系统+子系统”的双系统模式，逻辑结构如下所示: 子系统部署在每个用户的本地计算机上，为用户提供一个统一的数据管理方案，方便用户对自己的DNA条形码数据进行管理。用户在离线状态下可以对本地数据进行处理，在联网状态下可以与主系统进行数据交换，并获得分析计算服务。系统设计成“绿色”型软件，不需求复杂的安装配置就可以运行，优先提供 Windows平台下的实现，最终需要跨平台的开源实现。用户对子系统中的个人数据有全部自主权，并可以自愿将自己的局部或全部数据提交到主系统中。但数据提交到主系统后，用户将不再拥有该局部数据的控制权，用户可以向主系统提交增删改等处理要求，但如何响应由主系统决定。主系统是整个系统的核心局部，也是面向公众的Web门户，提供DNA条形码数据的浏览、查询、下载、分析、计算等服务。主系统中的数据由各个用户子系统提交的数据汇总而成。除常规的DNA条形码数据外，后续可以与图书情报部门合作，增加科普和文献资讯等信息。 3.1 子系统建设子系统的目的是方便用户对自己的DNA条形码数据进行管理，防止网络依赖，在初始阶段就统一数据管理模式，为后续数据管理打下良好的基础。 3.1.1 软件需求采用图形GUI界面； “绿色”安装配置，方便升级；优先Windows实现，最终跨平台开源实现；良好的国际化支持。 3.1.2 功能需求3.221本地数据管理 DNA条形码数据包括采集数据和序列数据，采集数据中的采集信息存储在本地文件型数据库里，采集数据中的图像信息和序列数据以文件形式按照一定层次组织后存放在一个仓库目录下，两者的关联信息也存储在数据库里。同一份采集数据允许有多个版本的相同片段原始峰图序列存在，但拼接后的序列只有一份。系统提供数据的增加、删除、修改和查找功能，方便和鼓励用户直接使用系统处理数据。为了兼容，同时也支持从Excel表格导入全部或局部数据，导入过程需要详细的日志记录。假设Excel表格的模式与数据库表结构不完全对应，字段的对应关系可由用户指定。此外，系统也支持从数据库导出数据生成合乎规范的 Excel/XML文件功能。 322.2远程数据交换子系统与主系统的数据交换包括两个方面，提交和下载。用户可以选择将自己的全部或局部数据提交到主系统中。正常情况下，与提交数据相关的所有内容（采集信息、图像信息和序列信息）需要作为一个整体全部提交，如果有局部缺失那么需要注明。提交指令包括新增、修改、删除等。子系统按照一定的数据格式和通讯协议上传到主系统中，用户在主系统上的个人空间里可以跟踪到整个提交处理过程。同时.，用户可以从主系统下载自己提交过的最新版本的数据，这在某些场合很有必要，如用户本地数据丧失，新换环境等。也就是说，主系统上必须保存用户曾经提交过的数据的一个完整备份，以便用户可以下载同步到本地。 3・分析计算子系统中提供本地数据的简单统计分析功能，不提供计算功能。全局的的统计分析和计算服务需要与主系统交互获得，该局部功能也可不通过子系统，直接从主系统的Web门户获得。 3.224其他功能系统的参数通过配置文件的形式进行设置.，配置文件采用文本形式。配置文件分为系统配置文件和用户配置文件，用户可以通过用户配置文件覆盖系统配置文件中的一些缺省参数。系统配置文件和用户配置文件分开存放，系统升级时不会覆盖用户配置文件。系统需要提供日志功能，详细记录所有操作步骤和状态，以文本的形式进行存储。由于子系统部署在用户计算机上，难以进行远程支持和维护，所以详细的日志记录是进行诊断的必要条件。系统升级时不清除日志，相应的日志维护功能, 如轮转、备份等也同时提供。系统的修补和升级不可防止，升级要求能平滑进行，并保证向下兼容。升级时不影响用户配置和用户数据。如果是纯绿色实现，可以通过覆盖的方式直接进行软件升级。对本地子系统的程序和数据进行备份，并能根据备份将系统恢复到备份时的状态。备份可以保存在本地计算机上，也可保存在专门的备份服务器上。 3.3主系统主系统是整个植物DNA条形码数据管理系统的核心，由Web服务器、应用服务器、文件服务器、数据库服务器、计算服务器组成。

展开阅读全文