基本相关概念
1、生物信息学:生物分子信息的获取、存贮、分析和利用;以数学为基础,应用计算机技术,研究生物学数据的科学。 2、相似性(similarity):相似性是指序列比对过程中用来描述检测序列和目标序列之间相同DNA碱基或氨基酸残基顺序所占比例的高低。 3、同源性(homolo gy):生物进化过程中源于同一祖先的分支之间的关系。
4、BLAST(Basic Local Alignment Search Tool):基本局部比对搜索工具,用于相似性搜索的工具,对需要进行检索的序列与数据库中的每个序列做相似性比较。 5、一级数据库:一级数据库中的数据直接来源于实验获得的原始数据,只经过简单的归类整理和注释(投稿文章首先要将核苷酸序列或蛋白质序列提交到相应的数据库中)
6、二级数据库:对原始生物分子数据进行整理、分类的结果,是在一级数据库、实验数据和理论分析的基础上针对特定的应用目标而建立的。
7、GenBank:是具有目录和生物学注释的核酸序列综合公共数据库,由NCBI构建和维护。
8、EMBL:EMBL实验室:欧洲分子生物学实验室。EMBL数据库:是非盈利性学术组织EMBL建立的综合性数据库,EMBL核酸数据库是欧洲最重要的核酸序列数据库,它定期地与美国的GenBank、日本的DDBJ数据库中的数据进行交换,并同步更新。
9、DDBJ:日本核酸序列数据库,是亚洲唯一的核酸序列数据库。
10、Entrez:是由NCBI主持的一个数据库检索系统,它包括核酸,蛋白以及Medline文摘数据库,在这三个数据库中建立了非常完善的联系。
11、GEO:基因表达精选集是一个储存高通量功能基因组学数据的数据库。 12、RefSeq:是一个收录注释过的非冗余转录本、蛋白质和基因组序列的数据库。
13、开放阅读框ORF:开放阅读框,位于DNA或RNA上起始密码子与终止密码子之间的序列。
14、打分矩阵(scoring matrix):在相似性检索中对序列两两比对的质量评估方法。包括基于理论(如考虑核酸和氨基酸之间的类似性)和实际进化距离(如PAM)两类方法。
15、FASTA序列格式:是将DNA或者蛋白质序列表示为一个带有一些标记的核苷酸或者氨基酸字符串,大于号(>)表示一个新文件的开始,其他无特殊要求。
16、genbank序列格式:是GenBank数据库的基本信息单位,是最为广泛的生物信息学序列格式之一。该文件格式按域划分为4个部分:第一部分包含整个记录的信息(描述符);第二部分包含注释;第三部分是引文区,提供了这个记录的科学依据;第四部分是核苷酸序列本身,以“//”结尾。
17、空位(gap):在序列比对时,由于序列长度不同,需要插入一个或几个位点以取得最佳比对结果,这样在其中一序列上产生中断现象,这些中断的位点称为空位。P29
18、空位罚分:空位罚分是为了补偿插入和缺失对序列相似性的影响,序列中的空位的引入不代表真正的进化事件,所以要对其进行罚分,空位罚分的多少直接影响对比的结果。P37 19、E值:衡量序列之间相似性是否显著的期望值。E值大小说明了可以到与查询序列(query)相匹配的随机或无关序列的概率,E值越接近零,越不可能到其他匹配序列,E值越小意味着序列的相似性偶然发生的机会越小,也即相似性越能反映真实的生物学意义。P95 20、多序列比对:通过序列的相似性检索得到许多相似性序列,将这些序列做一个总体的比对,以观察它们在结构上的异同,来回答大量的生物学问题。
简答题
1、生物信息学的发展经历了哪几个阶段?
生物信息学的发展经历了3个阶段。
第一个阶段是前基因组时代。这一阶段主要是以各种算法法则的建立、生物数据库的建立以及DNA和蛋白质序列分析为主要工作;
第二阶段是基因组时代。这一阶段以各种基因组计划测序、网络数据库系统的建立和基因寻为主要工作。
第三阶段是后基因组时代。这一阶段的主要工作是进行大规模基因组分析、蛋白质组分析以及其他各种基因组学研究。
2、生物信息学的主要研究任务是什么,目前生物信息学的主要研究内容是什么?
任务:
①收集和管理生物分子数据;
②数据分析和挖掘;
③开发分析工具和实用软件:生物分子序列比较工具、基因识别工具、生物分子结构预测工具、基因表达数据分析工具。
内容:
(1)序列比对;(2)基因预测;(3)药物设计;(4)蛋白质结构预测;
(5)基因调控网络的预测;(6)蛋白质相互作用预测;(7)分子进化分析
3、简述一下医药信息学在药物研发方面的应用???
①阐明疾病分子机制:利用文本挖掘方法来解释基因列表,并评估它们在通路、细胞类型和
疾病上的功能。
②确定药物作用靶点:在药物发现中,文本挖掘已经是成型的技术,可以在文献中自动地发
现基因如何与疾病联系以及这些基因如何参与到药物作用中的信息。
③建立生物活性筛选模型
④建立专门数据库
⑤计算机虚拟筛选
14、生物信息学数据库的组成包括哪些部分,数据库有哪些类型?
生物信息学数据库的组成包括一级数据库和二级数据库。数据库的类型包括核酸和蛋白质一级结构序列数据库、基因组数据库、生物大分子三维空间结构数据库。
以上述3类数据库和文献资料为基础构建二级数据库。
4、什么是一级数据库,哪些数据库属于一级数据库,它与二级数据库有什么区别?
一级数据库:数据库中的数据直接来源于实验获得的原始数据,只经过简单的归类整理和注释。
国际上著名的一级核酸数据库有Genbank数据库、EMBL核酸库和DDBJ库等;蛋白质序列数据库有SWISS-PROT、PIR等;蛋白质结构库有PDB等。
一级数据库的数据量大、更新速度快、用户面广,但存在过多的冗余数据;二级数据库的容量比较小,更新速度没有一级数据库快,但经过帅选后,避免了过多的冗余数据,其中与蛋白质相关的二级数据库较多。
17.简述国际上三大核酸数据库。
日本国立遗传研究所(NIG)维护的DDBJ数据库、
欧洲生物信息学研究所(EBI)维护的EMBL数据库、
美国国家生物技术信息中心(NCBI)维护的GeneBank数据库。
5、列举5项DNA序列分析的内容及代表性分析工具?
(1)核酸序列组成成分分析:BioEdit、DNAMAN
(2)基因结构分析:NCBI-ORF finder、CpGPlot、PromoterScan、POLYAH
(3)重复序列分析:Repeat Masker
(4)序列同源性:Blast
(5)限制性内切酶酶切位点分析:Bioedit、DNASTAR
6、关于GO概念,简述一下基本内容(含义,结构等)
概念:
GO是基因本体联合会所建立的数据库,旨在建立一个适用于各种物种的,对基因和蛋
白质功能进行限定和描述的,并能随着研究不断深入而更新的语义词汇标准。
结构:
GO的结构包括三个方面:
分子功能:基因或蛋白的分子功能;(我是谁)
生物学途径:参与的生物学过程;(我做了什么)
细胞组件:该基因或蛋白发挥作用的分子元件;(我在哪)
GO常用检索方式:
输入基因列表(gene lists)
输入单个基因(individual genes)
输入GO术语(GO term)
GO工具:
GoMiner
Onto-Express
GO Term Finder
15、举例说明GO分析在发现某疾病相关基因中的应用。???
以鉴定口腔癌相关候选基因为例:
应用氧化石墨烯对口腔癌基因进行富集分析。在两种列表模式下,目标为口腔癌基因(465),背景为癌基因(6023)。GO富集分析得到903个富集的GO项)。然而,这是一个很大的数字,可能会导致预测大量的基因,其中许多可能是假阳性。因此,需要一个准则来减少GO terms的总数以提高预测能力。
7、什么是生物电子等排体原理?
生物电子等排不仅应具有相同总数外层电子,还应在分子大小、形状(键角、杂化度)、构象、电子分布(极化度、诱导效应、共轭效应、电荷、偶极等)、脂水分布系数、pKa、化学反应性(代谢相
似性)和氢键形成能力等方面存在相似性。如等疏水性电子等排体;等电性电子等排体;等立体性电子等排体;等构象性电子等排体等。
经典生物电子等排体原子和基团
非经典的电子等排体:
指原子或基团不一定相同,但空间效应、电性及其他性质与母体化合物是相似的:
(1)环与非环结构;(2)可交换的基团;(3)基团反转。
8、简述NCBI中Entrez系统的功能。
答:高级检索系统;查核酸、蛋白、文献、结构、基因组序列、大分子三维结构、突变数据、探针序列、单核苷酸多态性等数据。
9、什么叫计算机虚拟筛选?
利用现代计算机强大的计算能力,根据某个靶标的相关信息,利用三维药效团搜索或分子对接来筛选商业化的化合物样品库,在化合物数据库中寻可能的活性化合物,发现潜在活性分子之后,可以向公司或相关机构订购,然后进行药理测试。
与传统的高通量筛选相比不存在样品限制,成本低。
10、简述先导化合物概念,来源,优化手段,以及优化的目的
(1)概念
先导化合物指通过生物测定,从众多的候选化合物中发现和选定的具有某种药物活性的新化合物,一般具有新颖的化学结构,并有衍生化和改变结构发展潜力,可用作研究模型,经过结构优化,开发出受专利保护的新药品种。
(2)先导化合物的发现途径:
①天然生物活性物质
②以生物化学为基础发现先导化合物
③基于临床副作用发现先导化合物
④基于药物代谢发现先导化合物
⑤幸运发现先导化合物
⑥药物合成中间体发现先导化合物
⑦基于虚拟筛选发现先导化合物
(3)优化手段:
①生物电子等排置换
②做成前体药物
③做成软药或硬药
④做成孪药
⑤定量构效关系研究
(4)优化目的:
①使其具有更理想的理化性质,
②使其具有更良好的药代动力学性质,
③提高生物利用度,
④增强选择性并降低毒副作用。
11、简述老药新用的概念并举例文本挖掘在老药新用中的应用。
(1)概念
“老药”是指被投放到市场用于临床的时间较久,已经为广大医药人员或者社会人所了解的药品,而“新用”则是说这些药品在临床的实践过程中有发现了新的用途。
(2)举例文本挖掘在老药新用中的应用
传统的老药新用如解热镇痛药阿司匹林有抗凝血的副作用,利用其对于血小板聚集有很好的抑制作用,用于外科手术后预防血栓形成;当下,利用文本挖掘手段,可以在文献中自动地发现与老药的作用靶点相关的疾病联系,大大缩短了时间和资源成本。
12、举例说明小分子化合物收集时的具体分类?
按照维数可以将小分子化合物分为3大类,
一维是分子量,描述符等,
二维是苯环数,氢键数;
三维是空间信息,例如双键位置。
13、全局比对与局部比对的比较及生物学意义
全局比对:对序列的全部字符进行比对,试图使尽可能多的字符实现匹配。其主要用于序列相似度很高且序列长度相近的序列比对,用于进化的研究和结构的预测。
局部比对:寻序列间相似度最高的区域,也就是匹配密度最高的部分。其主要应用于某些部位相似度较高而其他部位差异较大的序列的比对,用于寻保守的核苷酸及蛋白质序列中氨基酸模式。
16、序列的相似性与同源性有什么区别与联系?
(1)相似性是指序列之间相关的一种统计学的量度,两序列的的相似性可以基于序列的一致性和相似度的百分比,也可以用相应的分数来衡量这种相似;而同源性是指序列所代表的物种具有共同的祖先,强调进化上的亲缘关系,不能用相应的数字去量化这种关系,我们只能说序列具有高的一致性的百分比的可能是同源的。
(2)相似的不一定是同源的,同源的则表现出一定的相似性。因为在进化中来源于不同的基因或序列由于不同的独立突变而趋同的并不罕见。
相反同源序列由于来源于共通过祖先则表现出一定的相似性。
18.什么是基于受体结构的药物分子设计?其研究内容有哪些?
基于受体结构的药物设计是指一般应用由X-射线衍射、磁共振或分子模拟(同源建模法等)提供的蛋白质结构信息,来辅助设计具有生物活性的化合物的过程。
研究内容:同源建模法;序列比对;折叠识别;
从头预测;活性中心分析等。
19.生物信息学的含义是什么,举一个例子说明你对生物信息学的哪方面感兴趣。
生物信息学的含义:生物分子信息的获取、存贮、分析和利用;以数学为基础,应用计算机技术,研究生物学数据的科学。