1、
2025年大学生物信息学(生物信息技巧)试题及答案
(考试时间:90分钟 满分100分)
班级______ 姓名______
第I卷(选择题 共30分)
答题要求:每题只有一个正确答案,请将正确答案的序号填在括号内。(总共10题,每题3分)
1. 以下哪种数据库常用于存储蛋白质序列信息?( )
A. GenBank B. Swiss-Prot C. RefSeq D. dbSNP
2. 用于序列比对的常用算法是( )
A. BLAST B. ClustalW C. PhyML D. MEGA
3. 生物信息学中,下列哪个指标
2、用于衡量序列相似性?( )
A. E值 B. P值 C. 得分矩阵 D. 空位罚分
4. 以下哪种文件格式常用于存储蛋白质结构信息?( )
A. FASTA B. PDB C. GFF D. SAM
5. 构建进化树时,常用的距离法是( )
A. 最大简约法 B. 最大似然法 C. 邻接法 D. 贝叶斯法
6. 下列哪个工具可用于基因预测?( )
A. BWA B. GATK C. Augustus D. Picard
7. 生物信息学中,KEGG数据库主要用于( )
A. 代谢通路分析 B. 蛋白质结构预测
C. 基因表达数据分析
3、D. 序列比对
8. 以下哪种技术可用于检测基因表达水平?( )
A. RNA-seq B. ChIP-seq C. ATAC-seq D. WES
9. 用于分析蛋白质相互作用的数据库是( )
A. STRING B. UniProt C. InterPro D. Pfam
10. 生物信息学中,下列哪个软件常用于序列可视化?( )
A. Jalview B. R C. Python D. Matlab
第II卷(非选择题 共70分)
二、填空题(每题2分,共10分)
1. 生物信息学的核心任务是对______进行获取、存储、分析和解释。
4、
2. NCBI的主要数据库包括______、______等。
3. 序列比对中,常用的得分矩阵有______和______。
4. 蛋白质结构预测的方法主要有______和______。
5. 基因芯片技术可用于检测大量基因的______。
三、简答题(每题10分,共3分)
1. 简述BLAST算法的基本原理。
2. 什么是基因注释?基因注释包括哪些内容?
3. 请说明构建进化树的一般步骤。
四、分析题(每题15分,共30分)
材料:现有一段DNA序列:ATGCTAGCTAGCTAGCTA,以及一个已知的基因序列数据库。
1. 请描述如何使用生物信息学方法在该数
5、据库中查找与给定DNA序列相似的基因。
2. 若找到了相似基因,如何进一步分析其功能和生物学意义?
材料:通过RNA-seq技术对某肿瘤组织和正常组织进行基因表达分析,得到了差异表达基因列表。
1. 请说明如何对这些差异表达基因进行功能富集分析?
2. 功能富集分析的结果能为研究肿瘤发生发展提供哪些信息?
五、综合题(10分)
请设计一个生物信息学分析流程,用于研究某一特定疾病相关基因。要求包括数据获取、数据分析方法及预期结果等方面的内容。
答案:
一、选择题
1. B
2. A
3. A
4. B
5. C
6. C
7. A
8. A
9. A
6、
10. A
二、填空题
1. 生物数据
2. GenBank、RefSeq
3. PAM、BLOSUM
4. 同源建模、从头预测
5. 表达水平
三、简答题
1. BLAST算法基本原理:将查询序列与数据库中的序列进行比对,通过计算得分矩阵来评估相似性,利用启发式搜索策略快速找到最优比对结果。
2. 基因注释是指对基因组中基因的位置、结构和功能等信息进行标注。包括基因编码区、非编码区、调控元件等的确定和功能描述。
3. 构建进化树一般步骤:多序列比对、计算距离矩阵、选择建树方法、构建进化树、评估进化树可靠性及可视化。
四、分析题
1. 首先使用BLAST
7、工具将给定DNA序列与数据库进行比对,找到相似性高的序列。然后对相似序列进行进一步分析,如查看其在数据库中的注释信息,与已知功能基因进行比较等。
2. 可通过查找相似功能基因、分析基因所在代谢通路、研究基因表达模式等进一步分析其功能和生物学意义。
1. 利用在线功能富集分析工具,如DAVID等,将差异表达基因列表输入,选择合适的数据库进行富集分析。
2. 结果可提示肿瘤相关的生物学过程、信号通路等异常,有助于了解肿瘤发生发展机制,发现潜在治疗靶点等。
五、综合题
数据获取:从公共数据库或实验中获取疾病相关样本的基因表达数据、SNP数据等。数据分析方法:用聚类分析研究基因表达模式,用关联分析找与疾病关联的SNP。预期结果:找到疾病相关关键基因,明确其表达变化及与疾病关系,为疾病诊断、治疗和研究提供依据。