一种个体化突变位点引物设计的方法及系统与流程

阅读: 评论:0



1.本发明涉及生物信息学技术领域,具体涉及一种个体化突变位点引物设计的方法及系统。


背景技术:



2.伴随着现代医学的快速发展,聚合酶链式反应(pcr)已经成为高通量测序中必不可少的一环,而引物作为pcr扩增中引导dna自然复制的关键因素,决定着pcr扩增的成功率;引物的目标特异性、熔点、长度、错配率都决定了是否能够扩增出理想的dna目标区域。
3.目前引物设计的思路都是对指定产物序列标记snp位点,然后应用一些现有软件和算法得到合适的引物,最后再对于得到的引物进行评估,如果有多个结果则从中选择一个引物。这一方法有以下几个方面的弊端:
4.(1)snp位点具有地区特异性,如果单纯的指定一个人频率数据库,有可能并不适用于当地snp位点出现的情况,甚至有可能会因为标记了过多的snp位点,导致无法设计出合适的引物。(2)没有考虑个体的突变位点,如果在指定的引物扩增区域中出现多个个体的突变位点,可能会由于错配率过高而导致扩增失败或者引物错误地扩增到其它区域。
5.因此,研究人员迫切需要一种新的技术方案,能够有效精确地根据实验需求,设计出具有个体化特异性的引物。


技术实现要素:



6.本发明目的在于提供一种个体化突变位点引物设计的方法及系统,灵活选择符合当地人特点的数据库,同时引入个体突变的情况进行引物设计,充分提高引物设计的成功率和实验室pcr扩增的成功率。
7.为达成上述目的,本发明提出如下技术方案:一种个体化突变位点引物设计的方法,包括:
8.获取验证位点,确定引物扩增的目标区域;
9.结合人类参考基因组数据、dbsnp数据、人频率数据库和本地人频率库以及个体基因组突变数据,对目标区域进行检索、定位和标记,获得个体样本突变位点标记后的目标序列;
10.根据目标序列,设计个体化突变位点引物;
11.根据预设质控标准,评估设计的个体化突变位点引物是否合格,并输出质控合格的个体化突变位点引物。
12.进一步的,所述确定引物扩增目标区域的具体过程为:
13.基于hg37版本的人类基因组数据或者是hg38版本的人类基因组数据指定验证位点;
14.指定验证位点扩增的上下游区间和目标区域;或,评估验证位点上下游区域的gc含量选择目标区域。
15.进一步的,所述获得个体样本突变位点标记后目标序列的具体过程为:
16.在人类参考基因组数据中检索目标区域,获得引物扩增序列;其中,人类参考基因组数据为人类基因组计划的hg37数据或hg38数据的fasta文件;
17.结合dbsnp数据、人频率数据库或本地人频率库,根据iupac规则标记所述引物扩增序列中的snp位点;
18.根据个体基因组突变数据和目标区域截取突变位点信息,标记个体样本突变位点至已标记snp位点的引物扩增序列中,获得目标序列;其中,个体基因组突变数据为基于全基因组、全外显子或panel测序得到的vcf文件。
19.进一步的,所述预设质控标准的判定维度包括引物长度、gc含量、引物间距、退火温度和错配率。
20.进一步的,还包括评估个体样本突变位点对个体化突变位点引物的影响,确定引物是否合格;具体的,当个体化突变位点引物符合预设质控标准,且其上个体样本突变位点的占比不超过预设阈值,确定该引物合格;当个体化突变位点引物符合预设质控标准,且其上个体样本突变位点的占比超过预设阈值,确定该引物不合格。
21.本发明另一技术方案在于公开一种个体化突变位点引物设计的系统,该系统包括:
22.第一获取模块,用于获取验证位点,确定引物扩增的目标区域;
23.第二获取模块,用于结合人类参考基因组数据、dbsnp数据、人频率数据库和本地人频率库以及个体基因组突变数据,对目标区域进行检索、定位和标记,获得个体样本突变位点标记后的目标序列;
24.设计模块,用于根据目标序列,设计个体化突变位点引物;
25.第一评估模块,用于根据预设质控标准,评估设计的个体化突变位点引物是否合格;
26.输出模块,输出质控合格的个体化突变位点引物。
27.进一步的,所述第一获取模块确定引物扩增目标区域的执行单元包括:
28.指定单元,用于基于hg37版本的人类基因组数据或者是hg38版本的人类基因组数据指定验证位点;
29.指定选择单元,用于指定验证位点扩增的上下游区间和目标区域,或用于评估验证位点上下游区域的gc含量选择目标区域。
30.进一步的,所述第二获取模块获得个体样本突变位点标记后目标序列的执行单元包括:
31.检索单元,用于在人类参考基因组数据中检索目标区域,获得引物扩增序列;其中,人类参考基因组数据为人类基因组计划的hg37数据或hg38数据的fasta文件;
32.第一标记单元,用于结合dbsnp数据、人频率数据库或本地人频率库,根据iupac规则标记所述引物扩增序列中的snp位点;
33.第二标记单元,用于根据个体基因组突变数据和目标区域截取突变位点信息,标记个体样本突变位点至已标记snp位点的引物扩增序列中,获得目标序列;其中,个体基因组突变数据为基于全基因组、全外显子或panel测序得到的vcf文件。
34.进一步的,所述评估模块评估依据的预设质控标准的判定维度包括引物长度、gc
含量、引物间距、退火温度和错配率。
35.进一步的,该系统还包括:
36.第二评估模块,用于评估个体样本突变位点对个体化突变位点引物的影响,确定引物是否合格;具体的,当个体化突变位点引物符合预设质控标准,且其上个体样本突变位点的占比不超过预设阈值,确定该引物合格;当个体化突变位点引物符合预设质控标准,且其上个体样本突变位点的占比超过预设阈值,确定该引物不合格。
37.由以上技术方案可知,本发明的技术方案获得了如下有益效果:
38.1)本方案在引物扩增序列中标记snp位点时,灵活应用多种数据库,如dbsnp数据、人频率数据库,有助于提高引物设计的成功率和准确性。
39.2)本方案将本地人频率库应用到引物设计中,更有区域特点,有助于设计出更有针对性的引物。
40.3)本方案引入个体样本检测后的突变位点到引物设计中,有助于提高引物设计的成功率,减少错配率,进而提高实验室pcr扩增的成功率。
41.应当理解,前述构思以及在下面更加详细地描述的额外构思的所有组合只要在这样的构思不相互矛盾的情况下都可以被视为本公开的发明主题的一部分。
42.结合附图从下面的描述中可以更加全面地理解本发明教导的前述和其他方面、实施例和特征。本发明的其他附加方面例如示例性实施方式的特征和/或有益效果将在下面的描述中显见,或通过根据本发明教导的具体实施方式的实践中得知。
附图说明
43.附图不表示按照真实参照物比例绘制。在附图中,在各个图中示出的每个相同或近似相同的组成部分可以用相同的标号表示。为了清晰起见,在每个图中,并非每个组成部分均被标记。现在,将通过例子并参考附图来描述本发明的各个方面的实施例,其中:
44.图1为本发明引物设计方法的整体流程图;
45.图2为本发明引物设计前期目标区域获取流程图;
46.图3为本发明引物设计前期目标序列获取流程图;
47.图4为本发明引物设计流程图;
48.图5为本发明引物设计后合格评估流程图。
具体实施方式
49.为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例的附图,对本发明实施例的技术方案进行清楚、完整地描述。显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于所描述的本发明的实施例,本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。除非另作定义,此处使用的技术术语或者科学术语应当为本发明所属领域内具有一般技能的人士所理解的通常意义。
50.本发明专利申请说明书以及权利要求书中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。同样,除非上下文清楚地指明其它情况,否则单数形式的“一个”“一”或者“该”等类似词语也不表示数量限
制,而是表示存在至少一个。“包括”或者“包含”等类似的词语意指出现在“包括”或者“包含”前面的元件或者物件涵盖出现在“包括”或者“包含”后面列举的特征、整体、步骤、操作、元素和/或组件,并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。“上”“下”“左”“右”等仅用于表示相对位置关系,当被描述对象的绝对位置改变后,则该相对位置关系也可能相应地改变。
51.基于现有的引物设计的思路,即先指定产物序列标记snp位点,然后应用现有软件和算法得到合适的引物,再对得到的引物进行评估,从多个结果择一选用,存在无法根据snp地区特异性的特点标记snp位点、未考虑多个个体突变位点在引物上出现导致引物设计不合适的缺点;本发明提出一种个体化突变位点引物设计的方法及系统,充分解决上述缺点,有效提高引物设计的成功率和实验室pcr扩增的成功率。
52.下面结合附图及具体实施例,对本发明公开的个体化突变位点引物设计的方法及系统作进一步具体介绍。
53.结合图1所示,本发明公开的个体化突变位点引物设计的方法,包含如下步骤:
54.1)获取验证位点,确定引物扩增的目标区域;具体如图2所示,基于hg37版本的人类基因组数据或者是hg38版本的人类基因组数据指定验证位点,验证位点一般格式为染体、开始坐标、结束坐标;然后,指定验证位点扩增的上下游区间和目标区域;或,评估验证位点上下游区域的gc含量选择目标区域。
55.2)结合人类参考基因组数据、dbsnp数据、人频率数据库和本地人频率库以及个体基因组突变数据,对目标区域进行检索、定位和标记,获得个体样本突变位点标记后的目标序列;具体为,根据目标区域在序列中标记snp位点和个体突变位点。
56.3)根据目标序列,设计个体化突变位点引物;实施例中,使用primer3软件设计引物;
57.4)根据预设质控标准,评估设计的个体化突变位点引物是否合格,并输出质控合格的个体化突变位点引物;其中,预设质控标准的判定维度包括引物长度、gc含量、引物间距、退火温度和错配率,通过判断个体化突变位点引物的这些指标是否在正常范围内判断引物是否合格;若评估不合格,则需要重新指定引入扩增范围或者更换频率数据库和筛选频率再次进行引物设计。
58.上述的步骤1)中对于目标区域可以任意指定,但依据现有的标准和经验,扩增的上下游区间不建议超过1000bp。如果不指定目标区域,则会每次自动扩增一定的区域(如100bp),并计算gc含量(一般要求在40%-60%),直到到合适的目标区域(最大扩增区域不超过1000bp);最终确定并推荐该目标区域。
59.结合图3所示,上述步骤2)的具体过程为:在人类参考基因组数据中检索目标区域,获得引物扩增序列;其中,人类参考基因组数据为人类基因组计划的hg37数据或hg38数据的fasta文件;结合dbsnp数据、exac数据、1000g数据、人频率数据库或本地人频率库,根据iupac规则标记所述引物扩增序列中的snp位点;根据个体基因组突变数据和目标区域截取突变位点信息,标记个体样本突变位点至已标记snp位点的引物扩增序列中,获得目标序列;其中,个体基因组突变数据为基于全基因组、全外显子或panel测序得到的vcf文件。当然,如果没有个体基因序列检测出的突变位点数据,也可以跳过该步骤。
60.作为一可选的实施方式,本方法实施时还包括评估个体样本突变位点对个体化突
变位点引物的影响,确定引物是否合格;具体的,当个体化突变位点引物符合预设质控标准,且其上个体样本突变位点的占比不超过预设阈值,确定该引物合格;当个体化突变位点引物符合预设质控标准,且其上个体样本突变位点的占比超过预设阈值,确定该引物不合格。
61.对于个体样本突变位点出现在引物上的情况,如果是单个的突变位点,对于后续的pcr实验影响不是很大,一般认为引物设计合格。但是对于大片段的个体突变位点出现在设计出的引物上的情况,考虑到个体突变位点检出时的误差,会提示用户该引物可能会失败,建议在后续pcr实验中重点关注该组引物的情况。必然的,当个体样本突变位点在引物上的占比过多,直接影响后续的pcr实验,可以直接认为引物设计不合格。
62.实施例1
63.将本发明公开的个体化突变位点引物设计的方法按照其步骤划分为四个部分,依次说明各部分的执行过程如下。
64.第一部分:根据指定验证位点,评估其上下游区间,得到目标区域。或者由用户指定验证位点的上、下游区间。
65.输入:指定验证位点(和指定上下游区间);
66.输出:目标区域;
67.过程为:
68.(1)先获取指定的验证位点,如chr10:122584921-122592945,指定上下游区间扩增50bp,得到引物扩增区域chr10:122584871-122592995。
69.(2)如果没有指定,则先对上下游扩增50bp,对该区域计算gc含量,本例中gc含量在52.4%,是符合评估标准的。通常,每次上下游同时扩增50bp,共扩增100bp;计算gc含量,如果gc含量在40-60%则达到评估标准,停止扩增;最大对上游和下游扩增到500bp为止。所以,本例子中推荐的引物扩增区域为chr10:122584871-122592995。
70.第二部分:从上一步的引物扩增区域,结合人类参考基因组使用samtool软件检索,得到引物扩增序列,然后结合dbsnp数据或者人频率数据库或者本地人频率库利用iupac规则来标记序列中的snp位点。
71.为了使引物具有更高的特异性和准确性,还引入了个体的突变位点(包含纯合和杂合)。例如,本来一个位点在人类参考基因组中为a,但是检测出该位点突变为g(包含纯合和杂合),则在引物扩增序列中该位置变为g。
72.输入:目标区域和人类参考基因组(hg37或者hg38)、dbsnp数据或者指定的人频率数据库(比如1000g数据库的中国南方数据chs)或者本地人频率库以及该个体的个体基因组突变数据(如果没有可以跳过),其中,本地人频率库通常为实验室根据本地人样本的变异位点统计而得;
73.输出:个体样本突变位点标记后目标序列;
74.过程为:
75.(1)使用samtool软件,对于给定的目标区域,即引物扩增区域在人类参考基因组中检索,得到该区域对应的序列;比如,序列chr10:122584871-122592995在人类参考基因组hg38中检索后会得到序列:
76.taaatatttctggtgcctccacttactgggaaacttgatacccctttggtcagctccttg
77.gtttccctaacgttttagctcgagctagtagagtgtcagcaatggtgttagatgtacccg
78.……
79.(2)使用tabix软件,截取人频率数据库或dbsnp中相应区域中的位点信息并筛选位点(根据用户指定突变位点出现频率,只适用于人频率数据),然后利用iupac标准在序列中标记,得到snp位点标记后的引物扩增序列;
80.比如,对于(1)中序列chr10:122584871-122592995,如果利用dbsnp数据库使用iupac标准标记snp位点后会得到序列如下:
81.yaaatatttctgktgcctccacttactrgsaaamttgataccccbwtsgtcagctcsttg
82.gtttccytwwyrttttasctygagctagyagastgtcarcratgkyrtyagatgtamcbr
83.……
84.(3)根据个体基因组突变数据和目标区域截取突变位点信息,并把突变后的位点标记到上一步得到的序列;
85.如果在chr10:122584871-122592995中发现chr10:122584871杂合突变,且为t突变为a,则得到个体样本突变位点标记后的引物扩增序列为
86.aaaatatttctgktgcctccacttactrgsaaamttgataccccbwtsgtcagctcsttg
87.gtttccytwwyrttttasctygagctagyagastgtcarcratgkyrtyagatgtamcbr
88.……
89.(4)最终得到个体突变位点标记后的目标序列。
90.第三部分:引物设计。
91.根据个体突变位点标记后的目标序列来设计引物,有很多现成的软件和算法可以使用。如果出现引物设计失败的情况,通常采用更改第一部分中的引物设计范围和第二部分中的人频率数据库及变异频率筛选标准再次设计。
92.输入:个体样本突变位点标记后的目标序列;
93.输出:个体化突变位点引物;
94.过程如图4所示,为:
95.(1)根据目标序列设计引物;
96.(2)如果有结果,则输出引物设计结果,即图4中的待确定引物;比如对于chr10:122584871-122592995区间设计引物,则会得到左右引物acaggctggatttttgctgg和tccccacaaagatgctcctt;
97.(3)如果无结果,则重新设计引物。
98.第四部分:根据得到的个体化突变位点引物,计算引物长度、gc含量、引物间距、退火温度、错配率,并质控个体化突变位点引物。
99.对于个体化突变位点引物,有很多既定的质控标准,以保证后续的pcr实验能够成功。一般认为,引物的长度在18~24bp会比较理想,这样既能保证引物的特异性,又能保证引物和需要扩增的dna模板的结合。gc含量需要在40%~60%。引物间距根据实验的需求来定,对于常规的qpcr实验要求间距在100bp左右。引物退火温度一般实验室要求在50~60℃,同时左右引物的熔化温度相差在5℃以内,因为dna会在该温度下游离成单链。一般认为引物的错配率很少的情况下不会影响引物的效果,这里设定引物的错配率在50%以下为合格;同时,考虑个体样本突变位点在引物上的占比,进一步确定引物是否合格。
100.输入:个体化突变位点引物;
101.输出:质控合格的个体化突变位点引物;
102.过程如图5所示:
103.(1)对于图4中获得的待确定引物计算引物各项指标,比如对于引物acaggctggatttttgctgg和tccccacaaagatgctcctt,结合个体样本突变位点标记后的目标序列可以算出它们的位置为chr10:122590337-122590356和chr10:122590525-122590544,产物长度为189,左右引物熔化温度根据primer3反馈记录为59.029和58.924,gc含量为50%和50%。左引物的错配率为0%,而右引物的错配率为50%,合并的错配率为25%,符合指标要求,即为设计成功的引物。
104.(2)判断引物是否符合各项指标。
105.(3)整理结果,得到质控合格的个体化突变位点引物,如果质控不合格则重新设计引物。
106.假如设计出的引物为acaggctggatttttgctgg和tccccacaaagatgctcctt,此时左引物上的ctggatttttg的位置都显示为个体突变位点,则标记该引物,提示该组引物需要在后续的pcr实验中重点关注。
107.本发明公开的个体化突变位点引物设计的方法允许灵活的选择符合当地人特点的数据库,同时做到了灵活应对各种个体突变的情况。理论上,这种方法能够显著地提高引物设计的成功率和pcr实验室反应的成功率。
108.在本发明的实施例中,还提供一种电子设备,该设备包括处理器和存储器,存储器中存储有计算机程序,计算机程序由处理器加载并执行以实现上述的个体化突变位点引物设计的方法。
109.上述程序可以运行在处理器中,或者也可以存储在存储器中(或称为计算机可读存储介质),计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体,如调制的数据信号和载波。
110.这些计算机程序也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤,对应于不同的步骤可以通过不同的模块来实现。
111.在本实施例中,就提供了这样一种系统,该系统可以称为一种个体化突变位点引物设计的系统,该系统包括:第一获取模块,用于获取验证位点,确定引物扩增的目标区域;第二获取模块,用于结合人类参考基因组数据、dbsnp数据、人频率数据库和本地人频率库以及个体基因组突变数据,对目标区域进行检索、定位和标记,获得个体样本突变位点标记后的目标序列;设计模块,用于根据目标序列,设计个体化突变位点引物;第一评估模
块,用于根据预设质控标准,评估设计的个体化突变位点引物是否合格;其中,评估模块评估依据的预设质控标准的判定维度包括引物长度、gc含量、引物间距、退火温度和错配率;输出模块,输出质控合格的个体化突变位点引物。
112.该系统用于实现上述实施例中的个体化突变位点引物设计的方法步骤,已经进行说明的,在此不再赘述。
113.例如,第一获取模块确定引物扩增目标区域的执行单元包括:指定单元,用于基于hg37版本的人类基因组数据或者是hg38版本的人类基因组数据指定验证位点;指定选择单元,用于指定验证位点扩增的上下游区间和目标区域,或用于评估验证位点上下游区域的gc含量选择目标区域。
114.又例如,第二获取模块获得个体样本突变位点标记后目标序列的执行单元包括:检索单元,用于在人类参考基因组数据中检索目标区域,获得引物扩增序列;其中,人类参考基因组数据为人类基因组计划的hg37数据或hg38数据的fasta文件;第一标记单元,用于结合dbsnp数据、人频率数据库或本地人频率库,根据iupac规则标记所述引物扩增序列中的snp位点;第二标记单元,用于根据个体基因组突变数据和目标区域截取突变位点信息,标记个体样本突变位点至已标记snp位点的引物扩增序列中,获得目标序列;其中,个体基因组突变数据为基于全基因组、全外显子或panel测序得到的vcf文件。
115.又例如,该系统,还包括:第二评估模块,用于评估个体样本突变位点对个体化突变位点引物的影响,确定引物是否合格;具体的,当个体化突变位点引物符合预设质控标准,且其上个体样本突变位点的占比不超过预设阈值,确定该引物合格;当个体化突变位点引物符合预设质控标准,且其上个体样本突变位点的占比超过预设阈值,确定该引物不合格。
116.本发明的方法及系统一方面在引物扩增序列中标记snp位点时,灵活应用多种数据库,有效提高引物设计的成功率和准确性;另一方面,引入个体样本检测后的突变位点到引物中,减少错配率,进一步提高引物设计的成功率。
117.虽然本发明已以较佳实施例揭露如上,然其并非用以限定本发明。本发明所属技术领域中具有通常知识者,在不脱离本发明的精神和范围内,当可作各种的更动与润饰。因此,本发明的保护范围当视权利要求书所界定者为准。

技术特征:


1.一种个体化突变位点引物设计的方法,其特征在于,包括:获取验证位点,确定引物扩增的目标区域;结合人类参考基因组数据、dbsnp数据、人频率数据库和本地人频率库以及个体基因组突变数据,对目标区域进行检索、定位和标记,获得个体样本突变位点标记后的目标序列;根据目标序列,设计个体化突变位点引物;根据预设质控标准,评估设计的个体化突变位点引物是否合格,并输出质控合格的个体化突变位点引物。2.根据权利要求1所述的个体化突变位点引物设计的方法,其特征在于,所述确定引物扩增目标区域的具体过程为:基于hg37版本的人类基因组数据或者是hg38版本的人类基因组数据指定验证位点;指定验证位点扩增的上下游区间和目标区域;或,评估验证位点上下游区域的gc含量选择目标区域。3.根据权利要求1所述的个体化突变位点引物设计的方法,其特征在于,所述获得个体样本突变位点标记后目标序列的具体过程为:在人类参考基因组数据中检索目标区域,获得引物扩增序列;其中,人类参考基因组数据为人类基因组计划的hg37数据或hg38数据的fasta文件;结合dbsnp数据、人频率数据库或本地人频率库,根据iupac规则标记所述引物扩增序列中的snp位点;根据个体基因组突变数据和目标区域截取突变位点信息,标记个体样本突变位点至已标记snp位点的引物扩增序列中,获得个体样本突变位点标记后的目标序列;其中,个体基因组突变数据为基于全基因组、全外显子或panel测序得到的vcf文件。4.根据权利要求1所述的个体化突变位点引物设计的方法,其特征在于,所述预设质控标准的判定维度包括引物长度、gc含量、引物间距、退火温度和错配率。5.根据权利要求1所述的个体化突变位点引物设计的方法,其特征在于,还包括评估个体样本突变位点对个体化突变位点引物的影响,确定引物是否合格;具体的,当个体化突变位点引物符合预设质控标准,且其上个体样本突变位点的占比不超过预设阈值,确定该引物合格;当个体化突变位点引物符合预设质控标准,且其上个体样本突变位点的占比超过预设阈值,确定该引物不合格。6.一种个体化突变位点引物设计的系统,其特征在于,包括:第一获取模块,用于获取验证位点,确定引物扩增的目标区域;第二获取模块,用于结合人类参考基因组数据、dbsnp数据、人频率数据库和本地人频率库以及个体基因组突变数据,对目标区域进行检索、定位和标记,获得个体样本突变位点标记后的目标序列;设计模块,用于根据目标序列,设计个体化突变位点引物;第一评估模块,用于根据预设质控标准,评估设计的个体化突变位点引物是否合格;输出模块,输出质控合格的个体化突变位点引物。7.根据权利要求6所述的个体化突变位点引物设计的系统,其特征在于,所述第一获取模块确定引物扩增目标区域的执行单元包括:
指定单元,用于基于hg37版本的人类基因组数据或者是hg38版本的人类基因组数据指定验证位点;指定选择单元,用于指定验证位点扩增的上下游区间和目标区域,或用于评估验证位点上下游区域的gc含量选择目标区域。8.根据权利要求6所述的个体化突变位点引物设计的系统,其特征在于,所述第二获取模块获得个体样本突变位点标记后目标序列的执行单元包括:检索单元,用于在人类参考基因组数据中检索目标区域,获得引物扩增序列;其中,人类参考基因组数据为人类基因组计划的hg37数据或hg38数据的fasta文件;第一标记单元,用于结合dbsnp数据、人频率数据库或本地人频率库,根据iupac规则标记所述引物扩增序列中的snp位点;第二标记单元,用于根据个体基因组突变数据和目标区域截取突变位点信息,标记个体样本突变位点至已标记snp位点的引物扩增序列中,获得个体样本突变位点标记后的目标序列;其中,个体基因组突变数据为基于全基因组、全外显子或panel测序得到的vcf文件。9.根据权利要求6所述的个体化突变位点引物设计的系统,其特征在于,所述评估模块评估依据的预设质控标准的判定维度包括引物长度、gc含量、引物间距、退火温度和错配率。10.根据权利要求6所述的个体化突变位点引物设计的系统,其特征在于,还包括:第二评估模块,用于评估个体样本突变位点对个体化突变位点引物的影响,确定引物是否合格;具体的,当个体化突变位点引物符合预设质控标准,且其上个体样本突变位点的占比不超过预设阈值,确定该引物合格;当个体化突变位点引物符合预设质控标准,且其上个体样本突变位点的占比超过预设阈值,确定该引物不合格。

技术总结


本发明提供的个体化突变位点引物设计的方法及系统,涉及生物信息学技术领域;其方法包括:获取验证位点,确定引物扩增的目标区域;结合人类参考基因组数据、dbSNP数据、人频率数据库和本地人频率库以及个体基因组突变数据,对目标区域进行检索、定位和标记,获得个体样本突变位点标记后的目标序列;根据目标序列,设计个体化突变位点引物;根据预设质控标准,评估设计的个体化突变位点引物是否合格,并输出质控合格的个体化突变位点引物;质控不合格则更换目标区域或人频率数据库再设计引物。本发明引入个体样本突变设计引物,有效提高引物设计的成功率。提高引物设计的成功率。提高引物设计的成功率。


技术研发人员:

范夕昊 栗海波 余伟师 梁萌萌

受保护的技术使用者:

苏州赛美科基因科技有限公司

技术研发日:

2022.10.21

技术公布日:

2022/12/9

本文发布于:2022-12-12 07:16:04,感谢您对本站的认可!

本文链接:https://patent.en369.cn/patent/1/32159.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:引物   突变   位点   个体化
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2022 Comsenz Inc.Powered by © 369专利查询检索平台 豫ICP备2021025688号-20 网站地图