数据挖掘技术在DNA数据中应用论文

阅读: 评论:0

数据挖掘技术在DNA数据分析中的应用
通过使用数据挖掘技术对已经被提取和记录的多个基因片段进行修整、比较、分析、寻某个(多个)突变位置,并确定该突变位置与其所有者身患的疾病之间的关系。
关键词 数据挖掘 基因序列 生物信息学 遗传疾病 患病家族连锁分析
在生物信息学的成果的理论基础之上,通过统计的方法查未知的生物化学功能的疾病基因的位置。这个方法预先通过患病家族连锁分析,再推断包含这些基因的染体区域片段,然后检查该区域来寻基因[1]。
数据挖掘在dna数据分析的发展状况
现今所采用的是分子生物学与微电子技术相结合的核酸分析检测技术[2]。dna芯片技术的基本原理是将cdna或寡核昔酸探针以105106位点/cm2>/sup>的密度结合在固相支持物(即芯片)上,每个位点上的cdna或寡核昔酸探针的顺序是已知的,将该探针与荧光标记的待测样品dnarnacdna在芯片上进行杂交,然后用激光共聚焦显微镜对芯片进行扫描,并配合计算机系统对杂交信号做出比较和检测,从而迅速得出所需的信息。
基因数据挖掘常用的方法:①核酸与蛋白质比较的预测分析:蛋白质序列之间或核酸序列之间的两两比对,通过比较两个序列之间的相似区域和保守性位点,寻二者可能的分子进化关系。进一步的比对是将多个蛋白质或核酸同时进行比较,寻这些有进化关系的序列之间共同的保守区域、位点和profile,从而探索导致它们产生共同功能的序列模式。此外,还可以把蛋白质序列与核酸序列相比来探索核酸序列可能的表达框架;把蛋白质序列与具有三维结构信息的蛋白质相比,从而获得蛋白质折叠类型的信息。②针对核酸序列的预测方法:针对核酸序列的预测就是在核酸序列中寻基因,出基因的位置和功能位点的位置,以及标记已知的序列模式等过程。在此过程中,确认一段dna序列是一个基因需要有多个证据的支持。一般而言,在重复片段频繁出现的区域里,基因编码区和调控区不太可能出现;如果某段dna片段的假想产物与某个已知的蛋白质或其他基因的产物具有较高序列相似性的话,那么这个dna片段就非常可能属于外显子片段;在一段dna序列上出现统计上的规律性,即所谓的“密码子偏好性”,也是说明这段dna是蛋白质编码区的有力证据;其他的证据包括与“模板”序列的模式相匹配、简单序列模式如tata box等相匹配等。

本文发布于:2023-05-10 02:55:58,感谢您对本站的认可!

本文链接:https://patent.en369.cn/patent/4/93978.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:序列   基因   核酸   蛋白质   位置   分析   寻找
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2022 Comsenz Inc.Powered by © 369专利查询检索平台 豫ICP备2021025688号-20 网站地图