1、中国植物DNA条形码数据库及管理系统需求倜研报告昆明植物研究所科技信息中心2012-3-6软件需求操作系统:Linux操作系统;数据库:大型数据库。Web应用:Java、PHP等开源实现,支持主流浏览器。良好的国际化支持。功能需求Web 门户作为植物DNA条形码数据管理系统的公众入口,界面设计要求简洁大方, 功能明确,反映专业特点,不需要花哨的显示效果,不用Gash,尽量降低网络 带宽开销,支持手机等智能终端设备。提供数据浏览、数据查询、用户管理、软件和资料下载、在线帮助文档、分 析计算、科普和文献资讯等服务入口,具体执行由后端应用服务器、文件服务器、 数据库服务器、计算服务器完成。3用户管理
2、提供用户的注册、登录、权限控制功能。权限控制采用“用户+组”的控制策略,用户可以隶属于一个或多个组,用 户对自己的数据有读写权限,对同组的其他用户的数据有读权限。特殊组public 表示所有用户都可读,包括匿名用户(非注册用户),这是用户的缺省组设置(鼓 励开放)。用户可以随时更改自己的组设置,并可以申请创立新组。每个注册用户在主系统有一个独立的空间,空间里包括用户提交的数据备份 和详细操作日志,便于用户进行跟踪和数据同步。用户注册和登录过程需要通过加密连接进行,保证密码等私密信息不能以明 文形式在网络上传输。3.3,2.3数据管理用户通过子系统提交的数据,首先进入主系统的受理队列,然后进入用
3、户的 个人空间,经审核和校验(人工或自动)后,合并到主系统库里。用户可以浏览有读权限的所有数据,以多种导航视图浏览:工程列表一采集 编号一具体信息,科一种一采集编号一具体信息,地域一采集编号一具体信息, 卒华系统要提供完备的查询界面,方便用户快速的以各种关键字进行检索,结果 要与检索条件相匹配,并符合用户的权限。用户可以根据需要自由下载有读权限的数据,可以单个下载,也可批量下载 (为防止系统负载太重,可设定数量限制)。软件和资料下载提供子系统软件和相关文档资料的下载。软件包括子系统二进制安装包,平安补丁等,保存各个历史版本。文档资料包括系统使用手册,标准规范,FAQ,软件Changlog等,文
4、档版 本必须与软件版本相匹配。文档以PDF格式和HTML格式提供。3.325分析计算对于不依赖生物计算的统计分析功能,由应用服务器访问数据库服务器,获 得统计结果。对于一些实时性要求不高的分析统计,可以缓存结果,以一定的时 间间隔更新,以降低系统负载。对于需要计算服务器参与的计算请求,由应用服务器转发到计算服务器,等 待计算服务器进行计算,完毕返回结果。鉴于有些计算耗时很长,除了正常的请 求一等待一响应的同步通讯模式外,同时提供邮件通知等形式的异步响应模式, 防止用户端的长期阻塞,计算结果可以在服务器上保存一段时间,等待用户有空 时来获取。计算服务器本身没有数据,所需数据来自数据库服务器和文件
5、服务器,由于 数据量巨大,不可能每次计算都随时获取数据,可以在计算服务器上保存一份数 据,通过一定的数据同步机制进行更新。同时,计算服务的软件多种多样,除了常用的序列比对、序列搜索软件,后 续还会不断部署新软件,所以,计算服务的接口设计必须通用,以应对未来新的 软件需求。33,2.6科普和文献资讯与图书情报局部合作,不定期的更新一些最新研究成果和资讯,供用户参考。3.3,2.7其他功能配置功能,日志功能等。4数据说明样本信息 Specimen Info样本信息由样本编号、样本保藏信息、样本采集信息、样本详细信息、样本 分类信息构成。4.1.1 样本编号 Sample ID样本在数据库系统中的编
6、号。样本编号在整个数据库系统中必须是唯一的。4.1.2 样本保藏信息Voucher Info内容英文说明野外采集原始编号Field ID样本的野外采集编号博物馆/标本库内部编号Museum voucher ID样本在博物馆/标本库的内部编号博物馆/标本库名称Institution Storing存放样本的博物馆/标本库名 称样本捐赠者Sample Donors如果是捐赠样本,那么填写捐赠者的姓名捐赠者邮箱Donor Email如果是捐赠样本,那么填写捐赠 者的电子邮箱样本采集信息 Collection Info内容英文说明采集编号Collection ID样本的采集编号采集者Collector
7、s样本采集者的名称采集日期Collection Date样本的采集日期大洲/海洋Continent/Ocean采集地点所在的大洲或大洋国家/地区Country采集地点所在的国家或地区省/自治区/直辖市State/Province采集地点所在的省级行政区划市/地区/州Region采集地点所在的地级行政区划区/县Sector采集地点所在的县级行政区划具体地点/小地名Exact Site采集地点所在的具体地理描述纬度Latitude采集地点所在的地理纬度经度Longitude采集地点所在的地理经度海拔Elevation采集地点所在的海拔高度生境Habitat采集样本的生境信息样本详细信息 Speci
8、men Details内容英文说明繁殖方式Reproduction样本植株的繁殖方式植物习性Plant Habit样本植株的生长习性采集部位Tissue Type样本包括的植物部位植株高度Plant Height植株的高度附加信息Extra Info关于样本的附加信息备注Notes备注信息4.1.3 样本分类信息Taxonomy info内容英文说明门Phylum样本的分类学信息纲Class目Order科Family亚科Subfamily属Genus种Species科中文名FamilyChineseName样本的科中文名种中文名SpeciesChineseName样本的种中文名鉴定者Ident
9、ifiers样本鉴定者的姓名鉴定人邮箱Identifier Email样本鉴定者的电子邮箱鉴定单位Identifier Institution样本鉴定者所属的单位/机构 的名称鉴定日期Identifying Date样本鉴定的日期4.2 序列信息 Sequence Info序列信息处理样本和序列之间的对应关系。样本的每种遗传标记只能有一个 序列文件。内容英文说明序列文件Sequence File序列文件的文件名遗传标记Marker序列的遗传标记名称缩写测序中心Run Site处理序列的实验室或机构名称样本编号Sample ID序列对应的样本编号GenBank 编号GenBank Accessi
10、onNo序列在GenBank中的对应编号测序图谱信息Trace Info测序图谱信息处理样本和Trace文件之间的对应关系。样本的每种遗传标记 可以有至多10个Trace文件,但这些文件彼此不能相同。内容英文说明测序图谱文件Trace FileTrace文件的文件名遗传标记MarkerTrace文件的遗传标记名称缩 写测序方向Read Direction读码方向。填写Forward或Reverse 之一。样本编号Sample IDTrace文件对应的样本编号测序质量文件Trace Score File测序图质量文件的文件名PCR正向引物PCR Primer FwdPC R扩增时用的正向引物名称
11、PCR反向引物PCR Primer RevPCR扩增时用的反向引物名称测序引物Sequencing Primer测序引物的名称处理文件信息Handle files info处理文件信息处理样本和处理文件之间的对应关系。样本的每种处理文件最 多有一个。内容英文说明样本编号Sample ID样本编号操作人Handlers样本操作人的姓名DNA电泳图文件Electrophoresis DNAFileDNA电泳图文件的文件名DNA光谱图文件Spectrum DNA FileDNA光谱图文件的文件名PCR电泳图文件Electrophoresis PCRFilePCR电泳图文件的文件名PCR光谱图文件Sp
12、ectrum PCR FilePCR光谱图文件的文件名图片信息Image Info图片信息处理样本和采集照片文件之间的对应关系。每个样本可以有至多 10个照片文件。一般每个样本会拍摄35张记录鉴定特征的照片,如“生境”、 “植株”、“花”、“果”等。内容英文说明图片文件Image File图片文件的文件名是否原始标本Original Specimen图片内容是否为原始标本图片说明Caption图片内容的简要说明样本编号Sample ID图片文件对应的样本编号摄影师Photographer进行图片拍摄和处理的人或机 构的名称License图片的使用类型联系方式License Contact拥有者
13、的联系方式目录1 工程背景错误!未定义书签。2 业务需求错误!未定义书签。2.1 BOLD Systems错误!未定义书签。2.2 种质资源库错误!未定义书签。2.2.1 实验流程错误!未定义书签。2.2.2 数据内容错误!未定义书签。2.2.3 业务流程错误!未定义书签。3 技术需求错误!未定义书签。3.1 总体架构错误!未定义书签。3.2 子系统错误!未定义书签。3.2.1 软件需求错误!未定义书签。3.2.2 功能需求错误!未定义书签。3.3 主系统错误!未定义书签。3.3.1 软件需求错误!未定义书签。3.3.2 功能需求错误!未定义书签。4 数据说明错误!未定义书签。4.1 样本信息
14、Specimen Info错误!未定义书签。4.1.1 样本编号Sample ID错误!未定义书签。4.1.2 样本保藏信息Voucher Info错误!未定义书签。4.1.3 样本采集信息Collection Info错误!未定义书签。4.1.4 样本详细信息Specimen Details错误!未定义书签。4.1.5 样本分类信息Taxonomy info错误!未定义书签。4.2 序列信息Sequence Info错误!未定义书签。4.3 测序图谱信息Trace Info错误!未定义书签。4.4 处理文件信息Handle files info错误!未定义书签。4.5 图片信息Image I
15、nfo错误!未定义书签。1工程背景DNA条形码概念自2003年由加拿大分类学家Paul Hebert首次提出后就在 世界范围内得到了广泛关注和积极响应,有关DNA条形码技术(DNA barcoding) 的研究成为近年来生物分类学的研究热点。DNA条形码技术是利用标准的、有 足够变异的、易扩增且相对较短的DNA片段自身在物种种内的特异性和种间的 多样性而创立的一种新的生物身份识别系统,它可以对物种进行快速的自动鉴 定。DNA条形码技术可以弥补传统分类方法的缺乏,是日渐萎缩的传统形态分 类学强有力的补充,该技术将是今后生物物种鉴定开展的必然趋势。随着研究的进展,大量的生物DNA条形码数据平台相继
16、建立,如生命条形 码数据系统BOLD Systems国际生命条形码网站iBOL、鱼类条形码网站 FISHBOL、鸟类条形码网站ABBL等等。我国有着丰富的生物多样性资源,中国学者多年来积极参与了 DNA条形码 领域的研究工作。在这样的背景下,构建自己的生物DNA条形码数据管理系统, 一方面保存现有的研究成果,另一方面支撑未来的科学研究,就显得非常必要。中国植物DNA条形码数据库及管理系统将由中国科学院昆明植物研究所和 中国科学院计算机网络信息中心联合承建。2业务需求原始需求信息主要来自:1 .参考BOLDSyslems等国际知名DNA条形码数据库及信息系统;.听取国内相关领域专家的需求,以中国
17、西南野生生物种质资源库分子生 物学实验中心的老师和实验人员为主。1.1 BOLD SystemsBOLD系统主页:文档信息:1.2 种质资源库实验流程种质资源库测定植物DNA条形码的实验工作及数据整理流程如下所示:数据内容植物DNA条形码数据由采集信息和序列信息两局部组成。采集信息主要包含研究人员的野外采集记录、标本信息、鉴定信息、照片信 息等。野外采集记录包括:采集编号、采集者、采集日期、采集地点(大洲、国家 /地区、省/自治区/直辖市、地区/市/州、区/县、具体地点/小地名)、经纬度坐标、 海拔、生境等。标本信息包括:植物习性、采集部位、植株高度、标本数、标本号、标本存 放地、样本捐赠者、
18、捐赠者联系方式等。鉴定信息包括:中文科名、拉丁科名、中文种名、拉丁种名、鉴定日期、鉴 定人、鉴定人联系方式等。序列信息以文件的形式存储,包括原始Trace文件,拼接后的序列等。1.2.1 业务流程用户初步设想: 构建样品、实验原始结果数据以及相关的管理、角色相关的数据库系统;拥有在线数据查询筛选的交互界面; 拥有在线数据的录入界面(类Excel方式);形成离线批量数据整理的Excel模板:定义相关的数据格式和规范,并 尽量通过手段控制、容错,方便录入; 实现批量数据的录入和更新(Excel格式); 预留相关数据的分析接口。系统的业务流程如下所示:单项录入、批量录入、质量控制单项录入、批量导入、
19、文件上传、质量控制关键字查询、标签生成、分析与可视化接口预留数据整合查询(分析)样品采集样品信息录入Barcoding信息录入系统使用时,匿名用户可以浏览和查询所有公开的信息,注册用户除了匿名 用户的权限外,还可以查看和修改自己提交的数据。3技术需求总体架构系统建设采用“主系统+子系统”的双系统模式,逻辑结构如下所示:子系统部署在每个用户的本地计算机上,为用户提供一个统一的数据管理方 案,方便用户对自己的DNA条形码数据进行管理。用户在离线状态下可以对本 地数据进行处理,在联网状态下可以与主系统进行数据交换,并获得分析计算服 务。系统设计成“绿色”型软件,不需求复杂的安装配置就可以运行,优先提
20、供 Windows平台下的实现,最终需要跨平台的开源实现。用户对子系统中的个人数据有全部自主权,并可以自愿将自己的局部或全部 数据提交到主系统中。但数据提交到主系统后,用户将不再拥有该局部数据的控 制权,用户可以向主系统提交增删改等处理要求,但如何响应由主系统决定。主系统是整个系统的核心局部,也是面向公众的Web门户,提供DNA条形 码数据的浏览、查询、下载、分析、计算等服务。主系统中的数据由各个用户子 系统提交的数据汇总而成。除常规的DNA条形码数据外,后续可以与图书情报 部门合作,增加科普和文献资讯等信息。3.1 子系统建设子系统的目的是方便用户对自己的DNA条形码数据进行管理,防止网络依
21、赖,在初始阶段就统一数据管理模式,为后续数据管理打下良好的基础。3.1.1 软件需求采用图形GUI界面;“绿色”安装配置,方便升级;优先Windows实现,最终跨平台开源实现;良好的国际化支持。3.1.2 功能需求3.221本地数据管理DNA条形码数据包括采集数据和序列数据,采集数据中的采集信息存储在 本地文件型数据库里,采集数据中的图像信息和序列数据以文件形式按照一定层 次组织后存放在一个仓库目录下,两者的关联信息也存储在数据库里。同一份采 集数据允许有多个版本的相同片段原始峰图序列存在,但拼接后的序列只有一 份。系统提供数据的增加、删除、修改和查找功能,方便和鼓励用户直接使用系 统处理数据
22、。为了兼容,同时也支持从Excel表格导入全部或局部数据,导入过 程需要详细的日志记录。假设Excel表格的模式与数据库表结构不完全对应,字段 的对应关系可由用户指定。此外,系统也支持从数据库导出数据生成合乎规范的 Excel/XML文件功能。322.2远程数据交换子系统与主系统的数据交换包括两个方面,提交和下载。用户可以选择将自己的全部或局部数据提交到主系统中。正常情况下,与提 交数据相关的所有内容(采集信息、图像信息和序列信息)需要作为一个整体全 部提交,如果有局部缺失那么需要注明。提交指令包括新增、修改、删除等。子系 统按照一定的数据格式和通讯协议上传到主系统中,用户在主系统上的个人空间
23、 里可以跟踪到整个提交处理过程。同时.,用户可以从主系统下载自己提交过的最新版本的数据,这在某些场合 很有必要,如用户本地数据丧失,新换环境等。也就是说,主系统上必须保存用 户曾经提交过的数据的一个完整备份,以便用户可以下载同步到本地。3分析计算子系统中提供本地数据的简单统计分析功能,不提供计算功能。全局的的统 计分析和计算服务需要与主系统交互获得,该局部功能也可不通过子系统,直接 从主系统的Web门户获得。3.224其他功能系统的参数通过配置文件的形式进行设置.,配置文件采用文本形式。配置文 件分为系统配置文件和用户配置文件,用户可以通过用户配置文件覆盖系统配置 文件中的一些缺省参数。系统配
24、置文件和用户配置文件分开存放,系统升级时不 会覆盖用户配置文件。系统需要提供日志功能,详细记录所有操作步骤和状态,以文本的形式进行 存储。由于子系统部署在用户计算机上,难以进行远程支持和维护,所以详细的 日志记录是进行诊断的必要条件。系统升级时不清除日志,相应的日志维护功能, 如轮转、备份等也同时提供。系统的修补和升级不可防止,升级要求能平滑进行,并保证向下兼容。升级 时不影响用户配置和用户数据。如果是纯绿色实现,可以通过覆盖的方式直接进 行软件升级。对本地子系统的程序和数据进行备份,并能根据备份将系统恢复到备份时的 状态。备份可以保存在本地计算机上,也可保存在专门的备份服务器上。3.3主系统主系统是整个植物DNA条形码数据管理系统的核心,由Web服务器、应用 服务器、文件服务器、数据库服务器、计算服务器组成。