生物信息学——精选推荐

阅读: 评论:0

《生物信息学》复习参考
一、名词解释
1.生物信息学:对生物信息的获取、加工、储存、分析和解释等,并综合运用数学、计算机科学和生物学的各种工具,来阐明大量生物学数据所包含的生物学意义的学科称之为生物信息学。
2.基因组学:以基因组分析为手段,研究基因组的结构组成、时序表达模式和功能,并提供有关生物物种及其细胞功能的进化信息。
3.数据库搜索:通过特定的序列相似性比对算法,出核酸或蛋白质序列数据库中与检测序列具有一定程度相似性的序列。
4.序列的相似性和同源性:相似性只反映序列类似,并不包含任何与进化相关的暗示;同源性指与共同祖先序列的相似性。
5.单核苷酸多态性:是基因组水平上单个核苷酸变异所引起的DNA序列多态性
6.蛋白质组:是指一个基因组中每个基因编码产生的蛋白质的总体,即一个基因组的全部蛋白产物及其表达情况。
7.数据库查询:对序列、结构以及各种二次数据库中的注释信息进行关键词匹配查。
8.功能基因组学:利用结构基因组学研究所得的各种来源的信息,建立与发展各种技术和实验模型来测定基因及基因组非编码序列的生物学功能。
9.比较基因组学:通过模式生物基因组之间或模式生物基因组与人类基因组之间的比较与鉴别的学科。
10.二次数据库:根据不同研究领域的实际需求,对一次数据库以及文献等数据进行分析、整理、归纳、注释,构建具有特殊生物学意义和专门用途的二次数据库,是数据库开发的有效途径。
11.数据库查询:对序列、结构以及各种二次数据库中的注释信息进行关键词匹配查。
12.检测序列:新测定的、希望通过数据库搜索确定其性质或功能的序列。
13.目标序列:通过数据库搜索得到的和检测序列具有一定相似性的序列。
14.记分矩阵:描述比对字符(氨基酸或碱基)在比对中出现的概率值所构成的矩阵。
15.矩阵元素:比对中的一对字符(氨基酸或碱基)随机发生的概率(每个氨基酸出现的独立概率)与有意义出现的概率之比。
16.开放读框:一个由能翻译成氨基酸序列的三联体构成的阅读框。
17.中性理论:(1)进化过程中的核苷酸置换绝大部分是中性或者接近中性的突变随机固定的结果,而不是正向达尔文选择的结果。(2)许多蛋白质多态性必须在选择上为中性或者接近中性,并在体中由突变维持平衡。
18.分子钟:分子水平的恒速变异,或分子进化速率在不同种系中恒定。
19.选择论:一个突变的等位基因在物种内扩散,必需具有某些在选择上的优势。
20.中性论:一些突变在没有任何选择优势的情况下也能自身在体中扩散。
21.人类基因组计划(HGP):HGP是由美国能源部和美国国立卫生研究院(NIH)提出并资助,其目标是提供公开、完全、高质量的人类基因组全序列。
22.比较基因组学:将全部基因按照功能和系统发生分为若干类,包括与复制、转录、翻译、分子伴侣、能量产生、离子运转、各种代谢相关的基因,并在基因组图谱和序列分析的基础上,对已知基因和基因的结构进行比较,了解基因的功能,表达调控机制和物种进化过程的学科。
23.蛋白质组学:指应用各种技术手段来研究蛋白质组的一门新兴科学,其目的是从整体的角度分析细
胞内动态变化的蛋白质组成成份、表达水平与修饰状态,了解蛋白质之间的相互作用与联系,揭示蛋白质功能与细胞生命活动规律。
24.非确定读码(URF):是指DNA序列中识别出的一个可读框,但其生物学功能尚不明确。
25.同源蛋白质:从一个祖先进化而来,往往具有相关功能,并采取相似的三维结构。
26.类似蛋白质:采用相似的三维结构,但序列的相似性较低。
27.核磁共振(NMR):某些原子核具有磁性而发生的现象。
28.相似性:是指序列比对过程中,检测序列和目标序列之间相同碱基或氨基酸残基序列所占比例的高低。
29.表达序列标签:EST是从一个随机选择的cDNA克隆进行5’端和3’端单一次测序获得的短的cDNA 部分序列,代表一个完整基因的一小部分,长度大约300~500bp。
30.翻译后修饰:几乎所有的蛋白质在合成过程中或者合成后都要经过某些形式的修饰,有的是肽链骨架的
剪接,有的是特异氨基酸侧链的化学修饰,这种现象称为翻译后修饰(PTM)。
二、填空题
1、三大核酸数据库分别为:DDBJ、EMBL、GenBank。
2、列举两个蛋白质序列数据库:PIR、NRDB。
3、列举两个蛋白质结构分类数据库SCOP和CATH。
4、列举三个常用的蛋白质结构二次数据库:Kabat、PKinase、DSSP。
5、列举两个常用的数据库查询系统Entrez和SRS。
6、列举两个常用的引物设计软件:Primer Premier 5.0 和。
7、遗传连锁图的图距单位是厘摩。
8、基因组比较学的研究方法:系统发育概形法﹑Rosetta Stone 法﹑基因邻居法。
9、系统树可划分为:有根树和无根树、标度树枝和非标度树枝。
10、距离矩阵法包括两种方法:非加权组平均法(UPGMA)和邻接法。
11、对核酸序列进行电子基因定位(即基因的染体定位)有三种策略:利用STS(sequence tagged site)数据库、利用UniGene数据库、直接利用基因组序列进行电子基因定位。
12、系统树构建方法主要有:简约法、相容法、距离矩阵法和最大似然法等。
13、蛋白质组分析的关键技术主要有双向凝胶电泳(2D-gels)和蛋白质鉴定方法(多肽图谱、氨基酸组成分析和质谱分析等)。
14、核苷酸序列应使用Blastn,若输入蛋白质序列则应使用blastp,若输入新序列的dna则应使用blastx
15、序列递交工具:A、Sequin B、BankIt C、TBL2ASN
16、下列程序中可用于查开放阅读框的是:A、Generunner B、ORF finder
17、大规模蛋白质组分析过程主要包括:样品制备、图像分析、蛋白质成分的分析与鉴定等。
18、基因组序列中编码区/内含子结构分析最好的软件是GRAIL,可用的软件还有IDB,ExInt,Gene Finder,Sim4。
18、蛋白质鉴定技术:图像分析,微量测序,质谱技术,肽质指纹与肽段部分测序,氨基酸组分分析。
19、双向凝胶电泳技术的关键步骤还包括:样品制备和蛋白溶解,高分辨率和重复性,分离后的斑点检测。
20、解析蛋白质结构的技术:X射线晶体学,核磁共振。
21、蛋白质三维结构的预测方法通常包括:同源性建模法和从头开始的预测方法。
22、蛋白质二级结构预测方法通常分为:单序列预测和多序列列线预测的方法。
23、蛋白组学研究中涉及较多的三种修饰形式:磷酸化、糖基化和泛素化。
四、简答题
1.生物信息学研究的主要内容有哪些?
答:把基因组DNA序列信息分析作为源头,到基因组中代表蛋白质和RNA基因的编码区,阐明非编码区的信息实质,破译隐藏在DNA序列中的语文规律;同时,归纳、整理与基因组遗传语文信息释放及其调控相关的转录谱和蛋白质谱数据,从而认识代谢、发育、分化、进化的规律。
2.分子生物信息数据库的种类?
答:分子生物信息学数据库分为一次数据库和二次数据库。
一次数据库:基因组数据库,核酸和蛋白质一级结构(序列)数据库,生物大分子(主要是蛋白质)空间结构数据库;二次数据库之中又包含以核酸数据库为基础,以蛋白质序列数据库为基础,以具有特殊功能的蛋白质为基础,以三维结构原子坐标为基础等的数据库.
3.简述核酸序列分析的一般流程?
答:1核酸序列的检索2核酸序列的同源性分析3核酸序列的电子延伸4核酸序列的开放阅读框架分析5基因的电子表达谱分析6核酸序列的电子基因定位分析7cDNA的基因组序列分析8基因组序列的初步分析9核酸序列的注册10待分析序列所对应的已知克隆的获取。
4.BLAST的中英文含义分别是什么?其基本思路是什么?
答:BLAST 是常用的数据库搜索程序,它是Basic Local Alignment Search Tool的缩写,意为基本局部相似性比对搜索工具。BLAST算法的基本思路是首先出检测序列和目标序列之间相似性最高的片段,并作为核心向两端延伸,以出尽可能长的相似序列片段。
5.基因组分析的主要任务是什么?
答:是根据各种生物基因组作图和测序的资料与数据,应用数学与统计学、计算机科学、遗传学与分子生物学等多种研究手段和工具,综合分析处理基因组图谱、DNA序列和蛋白质序列等信息,阐明这些资料和
数据所包含的生物学意义。
6.核酸序列分析的意义是什么?
遗传信息大部分以基因的形式储存在DNA分子中,如果核苷酸的排列顺序发生改变,那么它的生物学含义也将发生改变。建立快速、准确的核苷酸序列分析方法,对研究基因的结构和功能、揭示生命奥秘有十分重要的意义。
7.边界序列有两个重要特征?
①内含子的两端序列之间没有广泛的同源性,因此内含子两端序列不能互补,这说明在剪接加工之前,内含子上游序列和下游序列不可能通过碱基配对形成发卡式二级结构。②外显子-内含子连接区序列虽短,但却是高度保序的序列。这一序列与剪接机制有关,它是RNA剪接的信号序列。
8.绵羊QM基因的电子克隆?
1、考虑到物种间进化上的亲缘性,采用牛的QM基因为探针进行绵羊该基因的克隆。
2、进行BLAST,输入探针序列,选择绵羊dbEST进行blastn。截至2007年9月,绵羊EST数据库有186 678条序列。设定期望值E为0.0l,Description和Alignment为500。将检索到的匹配结果E值小于0.01的绵羊mRNA 序列全部下载到本地计算机,建立一个本地绵羊dbEST数据库。
3、用CAP3序列组装程序将序列组装成重叠(contigs),以获得的重叠为被检序列,重复进行BLAST检索与序列组装,延伸重叠样系列,重复以上过程,直到没有更多的重叠EST检出或者说重叠序列不能继续延伸,即获得绵羊QM基因cDNA 全长的基因编码序列。
9.猪CAPN2基因的电子克隆?
1、在GenBank中检索到人钙蛋白酶I基因CAPN2的cDNA序列,以此序列为信息探针,通过程序在“EST-others”数据库中进行核酸序列同源性检索分析,寻猪的同源EST序列。
2、用DNAStar软件中的Seqman程序对所获得的EST片段进行序列拼接,从而构建出重叠,得到一致性序列。
10.核酸序列信息分析的基本思路?
编码区序列(简称CDS)与EST数据比较→寻感兴趣ESTS (标准:长度≥100bp,相似性介于50%-85%之间)→所选ESTs与GenBank数据库比较→出未克隆ESTs→再与dbEST、dsSTS、dbH
TGs、MGD 及UniGene数据库比较搜寻重叠Contigs→设计引物进行PCR扩增或筛选cDNA文库或索取cDNA克隆号进行电子拼接获取全长cDNA→基因定位、表达、结构、功能检测分析等
11. 基因组分析的主要任务是什么?
确定基因在染体上的位量,提供遗传信息,并探讨基因之间以及基因与经典遗传学、医学(包括基因、跟踪自发突变和X连锁疾病等)诸多方面之间的联系。
12.原核生物与真核生物基因组的差异?
①细胞中有无细胞核结构。②基因组组成大不相同,并且基因在染体上的分布以及编码区与非编码区的相对频率也不相同。(细菌基因组中少有非编码DNA,而真核生物的染体通常很大且数目众多,而且大部分是非编码DNA;真核生物的基因经常被割裂成不连续的外显子等等。)
13.人类基因组计划中遗传图和物理图的区别、联系?
a物理作图利用了现有的序列信息,并把显微镜数据和遗传连锁图以及这些标记或基因周围的DNA序列相结合。最终的物理图将是基因组或是染体的完整、连续的DNA序列。b由于遗传连锁图是根据染体的重组活动来度量标记间距离的,物理图和遗传连锁图上的标记间的相对距离就会大不相同。c分辨率反映了染体上的遗传信息。基因组在染体上的分隔就是染体核型。染体标记被连接在
一起构成遗传连锁图。基因的相对位置可以通过物理图和遗传连锁图来确定。
14.生物信息学的应用与发展研究?
(1) 与疾病相关的基因信息及相关算法和软件的开发:了解人类全部基因在染体上的位置、它们的序列特征、表达规律和产物→有效地判断各种疾患的分子机制,发展合适的诊断和手段。(2)建立与动、植物良种繁育相关的基因组数据库,发展分子标记辅助育种技术:到与经济性状相关的基因→认识这些基因表达的途径和机制→利用分子遗传标记,加快育种速度。(3)研究与发展药物设计软件和基于生物信息的分子生物学技术:候选基因分子生物学技术。
15.引物设计的原理是什么?
引物的设计和分析并不是DNA序列分析的一个基本方法,但是在分子生物学研究中常常需要用到。我们主要介绍针对PCR的引物设计。人们总结出来的引物设计的标准有:引物的长度通常为20-30个碱基引物避免有发卡结构引物避免有彼此之间的互补配对两个引物之间避免有类似序列引物与核酸序列数据库的其他序列无明显类似引物5’端能加上合适的酶切位点引物组成均匀,避免含有相同碱基的多聚体,两
个引物的G+C%含量近似。
16.实际引物设计采用的几条原则?
引物长度20-30个,最好不要超过30个;Tm=(A+T)X 2+(G+C)X 4,退火温度为Tm-7 G+C%=40-60% 5’、3’引物退火温度最好相等;四个相同的碱基相连最好不要出现;引物的最后一个避免为T。
17.为什么需要蛋白质组学?
(1)DNA序列信息的局限性:(2)mRNA水平的测定不准确:mRNA水平的测量并不能完全揭示细胞的调节,而蛋白质的样品较mRNA稳定;蛋白质和mRNA之间的相关系数仅为0.4~0.5,还存在转录后的加工、翻译调节以及翻译后加工等问题。(3)结构基因组学分析的局限(4)难以确定基因表达的时序和程度(5)基因及其产物之间的关系。
18.DNA序列信息的局限性有哪些?
①基因表达产物是否或何时被翻译;②基因产物的相应含量;③翻译后修饰的程度;④基因剔除或过表达的影响;⑤遗留的小基因或长度小于300bp的可读框;⑥多基因现象的表型。
19.同源建模基本包括几个步骤?
1.使用未知序列搜索已知蛋白质结构。2.产生未知序列和模板序列最可能的完整比对。3.以模板结构骨架为模型,建立蛋白质骨架模型。4.在靶序列或者模板序列的有空位区域,使用环建模过程代替合适长度的片段。5.给骨架模型加上侧链。6.优化侧链的位置。7.使用能量最小和已知的优化知识来优化结构。
法。PHD被认为是二级结构预测的标准。
20.蛋白质二级结构预测的用途有哪些?
a蛋白质或其突变体的设计b确定蛋白质间结构和功能的关系c建立正确的序列比对关系d三级结构预测的基础e有助于晶体结构的解析
21.数据库查询系统SRS的特点?
1统一的用户界面2高效的查询功能3方便的程序接口4开放的管理模式5同一的开发平台6灵活的指针链接。

本文发布于:2023-05-07 14:11:43,感谢您对本站的认可!

本文链接:https://patent.en369.cn/patent/4/90930.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:序列   基因   蛋白质   分析   基因组   数据库   结构
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2022 Comsenz Inc.Powered by © 369专利查询检索平台 豫ICP备2021025688号-20 网站地图