一种针对靶向测序检测基因拷贝数变异的方法及装置与流程

阅读: 评论:0



1.本发明涉及基因检测技术领域,尤其涉及一种针对靶向测序检测基因拷贝数变异的方法及装置。


背景技术:



2.针对拷贝数变异的检测,传统检测方法包括荧光原位杂交(fish)、多重连接依赖探针扩增(mlpa)、数字pcr(ddpcr)、染体微阵列(cma)等。fish基于序列特异性荧光标记探针的杂交,对给定的荧光信号进行显微检测,该信号能够指示特定目标dna序列的存在与否。ddpcr通过将模板dna稀释成数千个纳米级液滴,无需标准检测即可对目标拷贝数进行绝对定量。除传统检测方法以外,基于ngs测序的检测方法也得到广泛的应用。用于拷贝数变异检测的ngs测序包括靶向测序(target-ngs)、全外显子测序(wes)和全基因组测序(wgs)等。基于ngs测序的拷贝数变异检测依赖于测序深度的差异来识别发生拷贝数变异的基因或基因组区间,但不同测序方法所能够覆盖到的基因组区间存在差异,因此所采取的识别算法也存在一些差异。靶向测序覆盖较少的基因组区间,通常采用各个区间相对测序深度的差异来识别拷贝数变异,而全外显子测序和全基因组测序能够覆盖较大范围基因组,除直接基于深度差异识别以外,还可以结合神经网络、小波转换等进行拷贝数变异信号的识别。基于靶向测序的拷贝数检测能够对特定基因进行针对性设计,目的性强且成本低于wes和wgs,目前在相关的领域中得到较广泛的应用。基于靶向测序的拷贝数检测方法具体又可以分为基于配对样本的拷贝数变异检测、多背景样本池的拷贝数变异检测和无对照样本的拷贝数变异检测等。其中基于配对样本的拷贝数变异检测通过采集同一个体的正常组织或者血细胞作为对照来对其肿瘤组织进行拷贝数变异的检测,多背景样本池的检测方法是挑选多例正常样本混合构建一个背景样本池,而无对照样本的检测不依赖对照样本,直接基于样本本身的深度差异进行拷贝数变异的识别。
3.基于靶向测序的拷贝数变异检测方法中,基于配对样本的检测理论上是最优的方法。但其需要采集同一个体的正常样本,一方面正常样本在一些情况下无法获得,另一方面对配对样本进行测序使得整个方案的成本成倍增加。而多背景样本的检测方法在构建样本池时存在诸多问题,主要包括:以待测样本为基础进行背景样本挑选时缺乏对待测样本拷贝数变异情况的考虑、背景样本数量难以界定、样本池长期保持不变可能无法代表新样本的特征。无配对样本检测成本低,但仅能依赖人基因组特征(例如gc含量、重复序列分布等)对深度进行校正,无法对样本自身的特征进行校正。


技术实现要素:



4.针对现有技术中存在的问题,本发明实施例提供一种针对靶向测序检测基因拷贝数变异的方法及装置。
5.本发明实施例提供一种针对靶向测序检测基因拷贝数变异的方法,包括:
6.获取待检测样本,并根据所述待检测样本获取关联的阴性样本,根据所述待检测
样本及阴性样本建立样本库;
7.对所述样本库中的样本测序数据进行质量控制,并将质量控制后的样本测序数据与参考基因组进行比对,得到所述样本测序数据中各个序列片段的位置信息;
8.获取所述参考基因组的预设的靶向测序区域,并对所述靶向测序区域进行连续的区间划分,得到各个基因区间,并结合所述样本测序数据中各个序列片段的位置信息进行读序深度统计,得到各个基因区间的深度指标;
9.根据各个基因区间的深度指标,结合预设的拷贝数变异基因初筛方案,得到所述拷贝数变异基因初筛获得的基因集合;
10.根据所述拷贝数变异基因初筛获得的基因集合,对所述待检测样本及阴性样本中所述基因集合对应的基因区间进行去除,并对去除后的待检测样本及阴性样本进行深度指标的最值均一化,计算待测样本与阴性样本的距离,并根据所述距离选择最佳阴性样本;
11.基于所述最佳阴性样本计算所述待检测样本中各个基因区间的相对深度比,并根据所述相对深度比计算得到各个基因区间的调整相对拷贝数比值,并根据所述调整相对拷贝数比值计算得到基因水平拷贝数比值,基于基因水平拷贝数比值,计算得到待检测样本中的拷贝数变异基因。
12.在其中一个实施例中,所述方法还包括:
13.将所述待检测样本的基因区间按照深度指标进行排序,并按照排序逐一选择对应的目标基因进行基因初筛,所述基因初筛包括:计算排除目标基因以外的剩余基因对应区间的深度指标的标准差,并对比目标基因的区间深度与所述标准差;
14.根据所述基因初筛的对比结果,确定所述拷贝数变异基因初筛获得的基因集合。
15.在其中一个实施例中,所述方法还包括:
16.根据所述参考基因组的序列信息计算各个基因区间的gc比例;
17.对所述gc比例区间进行窗口划分,并计算所述待检测样本在每个窗口中深度指标占前5%的筛选基因区间;
18.逐一将各个区间与所述筛选基因区间进行比对,当目标基因满足≥60%的基因区间属于筛选基因区间时,则所述目标基因属于所述拷贝数变异基因初筛获得的基因集合。
19.在其中一个实施例中,所述方法还包括:
20.去除样本测序数据的接头序列、两端低质量序列及包含连续多个n碱基或者长度低于预设阈值的序列。
21.在其中一个实施例中,所述参考基因组,包括:
22.grch37、grch38。
23.本发明实施例提供一种针对靶向测序检测基因拷贝数变异的装置,包括:
24.获取模块,用于获取待检测样本,并根据所述待检测样本获取关联的阴性样本,根据所述待检测样本及阴性样本建立样本库;
25.质量控制模块,用于对所述样本库中的样本测序数据进行质量控制,并将质量控制后的样本测序数据与参考基因组进行比对,得到所述样本测序数据中各个序列片段的位置信息;
26.区间划分模块,用于获取所述参考基因组的预设的靶向测序区域,并对所述靶向测序区域进行连续的区间划分,得到各个基因区间,并结合所述样本测序数据中各个序列
片段的位置信息进行读序深度统计,得到各个基因区间的深度指标;
27.初筛模块,用于根据各个基因区间的深度指标,结合预设的拷贝数变异基因初筛方案,得到所述拷贝数变异基因初筛获得的基因集合;
28.选择模块,用于根据所述拷贝数变异基因初筛获得的基因集合,对所述待检测样本及阴性样本中所述基因集合对应的基因区间进行去除,并对去除后的待检测样本及阴性样本进行深度指标的最值均一化,计算待测样本与阴性样本的距离,并根据所述距离选择最佳阴性样本;
29.计算模块,用于基于所述最佳阴性样本计算所述待检测样本中各个基因区间的相对深度比,并根据所述相对深度比计算得到各个基因区间的调整相对拷贝数比值,并根据所述调整相对拷贝数比值计算得到基因水平拷贝数比值,基于基因水平拷贝数比值,计算得到待检测样本中的拷贝数变异基因。
30.在其中一个实施例中,所述装置还包括:
31.排序模块,用于将所述待检测样本的基因区间按照深度指标进行排序,并按照排序逐一选择对应的目标基因进行基因初筛,所述基因初筛包括:计算排除目标基因以外的剩余基因对应区间的深度指标的标准差,并对比目标基因的区间深度与所述标准差;
32.确定模块,用于根据所述基因初筛的对比结果,确定所述拷贝数变异基因初筛获得的基因集合。
33.在其中一个实施例中,所述装置还包括:
34.第二计算模块,用于根据所述参考基因组的序列信息计算各个基因区间的gc比例;
35.划分模块,用于对所述gc比例区间进行窗口划分,并计算所述待检测样本在每个窗口中深度指标占前5%的筛选基因区间;
36.比对模块,用于逐一将各个区间与所述筛选基因区间进行比对,当目标基因满足≥60%的基因区间属于筛选基因区间时,则所述目标基因属于所述拷贝数变异基因初筛获得的基因集合。
37.本发明实施例提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述针对靶向测序检测基因拷贝数变异的方法的步骤。
38.本发明实施例提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述针对靶向测序检测基因拷贝数变异的方法的步骤。
39.本发明实施例提供的一种针对靶向测序检测基因拷贝数变异的方法及装置,获取待检测样本,并根据所述待检测样本获取关联的阴性样本,根据所述待检测样本及阴性样本建立样本库;对样本库中的样本测序数据进行质量控制,并将质量控制后的样本测序数据与参考基因组进行比对,得到样本测序数据中各个序列片段的位置信息;获取参考基因组的预设的靶向测序区域,并对靶向测序区域进行连续的区间划分,得到各个基因区间,并结合样本测序数据中各个序列片段的位置信息进行读序深度统计,得到各个基因区间的深度指标;根据各个基因区间的深度指标,结合预设的拷贝数变异基因初筛方案,得到拷贝数变异基因初筛获得的基因集合;根据拷贝数变异基因初筛获得的基因集合,对待检测样本及阴性样本中基因集合对应的基因区间进行去除,并对去除后的待检测样本及阴性样本进
行深度指标的最值均一化,计算待测样本与阴性样本的距离,并根据距离选择最佳阴性样本;基于最佳阴性样本计算待检测样本中各个基因区间的相对深度比,并根据相对深度比计算得到各个基因区间的调整相对拷贝数比值,并根据调整相对拷贝数比值计算得到基因水平拷贝数比值,基于基因水平拷贝数比值,计算得到待检测样本中的拷贝数变异基因。这样能够去除待测样本中潜在的拷贝数变异,从背景样本池(阴性样本)中选择最近缘的正常样本作为对照来对待检测样本进行拷贝数变异的检测,降低检测成本、提高检测效果。
附图说明
40.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
41.图1为本发明实施例中一种针对靶向测序检测基因拷贝数变异的方法的流程图;
42.图2为本发明实施例中一种针对靶向测序检测基因拷贝数变异的装置的结构图;
43.图3为本发明实施例中电子设备结构示意图。
具体实施方式
44.为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
45.图1为本发明实施例提供的一种针对靶向测序检测基因拷贝数变异的方法的流程示意图,如图1所示,本发明实施例提供了一种针对靶向测序检测基因拷贝数变异的方法,包括:
46.步骤s101,获取待检测样本,并根据所述待检测样本获取关联的阴性样本,根据所述待检测样本及阴性样本建立样本库。
47.具体地,获取待检测样本,并根据待检测样本获取关联的阴性样本,比如待检测样本为肿瘤组织细胞时,关联的阴性样本的来源可以是同一个体、不同个体的拷贝数变异阴性的组织、血细胞样本、阴性企业参考品等等。另外,为保证阴性样本库的多样性,需挑选不同时间、不同批次、不同材料类型的多例(10例以上)阴性样本,然后根据待检测样本及阴性样本建立对应的样本库。
48.步骤s102,对所述样本库中的样本测序数据进行质量控制,并将质量控制后的样本测序数据与参考基因组进行比对,得到所述样本测序数据中各个序列片段的位置信息。
49.具体地,对样本库中的样本测序数据,包括待检测样本的测序数据及阴性样本的测序数据进行质量控制,其中,质量控制可以为:去除测序数据中的接头序列、两端低质量序列以及包含连续多个n碱基或者长度低于阈值的序列,然后利用序列比对软件将质量控制后的数据比对到参考基因组上获取各个位置的比对结果,得到样本测序数据中各个序列片段在参考基因组上的位置信息,其中人类参考基因组可以是grch37或者grch38,序列比对软件可以是bwa或者bowtie2。
50.步骤s103,获取所述参考基因组的预设的靶向测序区域,并对所述靶向测序区域进行连续的区间划分,得到各个基因区间,并结合所述样本测序数据中各个序列片段的位置信息进行读序深度统计,得到各个基因区间的深度指标。
51.具体地,获取参考基因组中的预设的靶向测序区域,并对靶向测序区域进行连续的区间划分,所述区间划分的大小可以为100-1000bp,得到各个基因区间,并结合样本测序数据中各个序列片段的位置信息进行读序深度统计,然后可以取各个区间的平均深度或中位深度作为该区间的深度指标。
52.步骤s104,根据各个基因区间的深度指标,结合预设的拷贝数变异基因初筛方案,得到所述拷贝数变异基因初筛获得的基因集合。
53.具体地,根据各个基因区间的深度指标,结合预设的拷贝数变异基因初筛方案,得到拷贝数变异基因初筛获得的基因集合,这样可以将一部分发生拷贝数变异的基因先行鉴定,特别是拷贝数比较显著的变异。而通过在后续步骤中去除识别出来的“异常”基因区间,使得最终选择出的最佳阴性对照样本与待检测样本有更高的相似性。
54.另外,预设的拷贝数变异基因初筛方案可以为:
55.将待检测样本的基因组区间按照读序深度由高到低进行排序。按照区间排序顺序逐一选择对应的目标基因,计算排除目标基因以外的剩余基因组区间深度平均值(μ)和标准差(σ)并判断该基因对应区间深度与剩余基因组区间的相对关系,如果目标基因满足下述条件则认定其发生拷贝数变异:目标基因50%以上的区间满足区间深度≥μ+2σ或者20%以上的区间满足区间深度≥μ+3σ。对认定发生拷贝数变异的基因,将其所对应的所有区间从剩余区间中予以排除,按照此方案逐一完成所有基因的初筛判断并获得所有发生拷贝数变异的基因及其基因组区间集合。判断公式如下:
[0056][0057]
其中regiondepth表示基因区间的深度,totalregion表示该基因包含的区间数目。
[0058]
另外,预设的拷贝数变异基因初筛方案还可以为:
[0059]
根据参考基因组序列信息计算获得各个区间的gc比例(gc_ratio),所述参考基因可以是grch37或grch38,需与基因组比对使用的参考基因组保持一致。考虑到gc含量过高/过低的区间测序深度会受到gc含量较大的影响,在拷贝数变异基因初筛时将gc_ratio《0.3或者gc_ratio》0.8的区间予以去除。对剩余gc_ratio范围(目标范围)[0.3-0.8]按照0.05的窗口长度进行窗口划分,计算获得待检测样本在每个gc窗口中测序深度占前5%的基因区间,记为gc_top5(筛选基因区间)。综合所有gc_ratio窗口的结果进行判断:当基因满足≥60%的区间属于gc_top5时,则认定该基因发生拷贝数变异。按照此方案逐一完成所有基因的初筛判断并获得所有发生拷贝数变异的基因集。
[0060]
步骤s105,根据所述拷贝数变异基因初筛获得的基因集合,对所述待检测样本及阴性样本中所述基因集合对应的基因区间进行去除,并对去除后的待检测样本及阴性样本进行深度指标的最值均一化,计算待测样本与阴性样本的距离,并根据所述距离选择最佳阴性样本。
[0061]
具体地,以拷贝数变异基因初筛获得的基因集合为基础,将待检测样本以及阴性样本中对应的基因区间予以去除,其后对待检测样本、阴性样本进行区间深度中深度指标的最值均一化(avedepth),以消除样本之间测序深度差异造成的影响,其中,均一化方法可以替换为其他种类型的均一化方法。基于avedepth逐一计算阴性样本库中的阴性样本与待测样本的欧氏距离,阴性样本库中与待测样本具有最小欧式距离(dist)的样本确定为待测样本的近缘对照样本(nearbycontrol),即最佳阴性样本,其中,欧式距离(dist)计算公式如下:
[0062][0063]
其中,n表示样本剩余区间总数,t表示待检测样本,n表示所比较的阴性样本。
[0064]
步骤s106,基于所述最佳阴性样本计算所述待检测样本中各个基因区间的相对深度比,并根据所述相对深度比计算得到各个基因区间的调整相对拷贝数比值,并根据所述调整相对拷贝数比值计算得到基因水平拷贝数比值,基于基因水平拷贝数比值,计算得到待检测样本中的拷贝数变异基因。
[0065]
具体地,利用上述确定的近缘对照样本(最佳阴性样本)以及各个区间的gc比例(gc_ratio)对待检测样本进行测序深度的校正并基于log2函数进行转换,获得待检测样本各个区间的相对深度比(rd),计算待检测样本中每个区间的相对深度比与所有区间相对深度比中位数(medianlog2)的差值,记为调整相对拷贝数比值(adjustratio),计算公式如下,其中,rd
all
表示所有区间的相对深度比:
[0066]
adjustratio=rd-median(rd
all
)
[0067]
基于adjustratio计算待检测样本指定基因的基因水平拷贝数比值,记为resratio,计算公式如下,其中,n表示该基因包含的区间数目:
[0068][0069]
基于基因水平拷贝数比值resratio,利用下述公式完成拷贝数计算,其中,resratio为基因水平拷贝数比值:
[0070][0071]
从而得到待检测样本中的拷贝数变异基因cn。
[0072]
本发明实施例提供的一种针对靶向测序检测基因拷贝数变异的方法,获取待检测样本,并根据所述待检测样本获取关联的阴性样本,根据所述待检测样本及阴性样本建立样本库;对样本库中的样本测序数据进行质量控制,并将质量控制后的样本测序数据与参考基因组进行比对,得到样本测序数据中各个序列片段的位置信息;获取参考基因组的预设的靶向测序区域,并对靶向测序区域进行连续的区间划分,得到各个基因区间,并结合样本测序数据中各个序列片段的位置信息进行读序深度统计,得到各个基因区间的深度指标;根据各个基因区间的深度指标,结合预设的拷贝数变异基因初筛方案,得到拷贝数变异基因初筛获得的基因集合;根据拷贝数变异基因初筛获得的基因集合,对待检测样本及阴
性样本中基因集合对应的基因区间进行去除,并对去除后的待检测样本及阴性样本进行深度指标的最值均一化,计算待测样本与阴性样本的距离,并根据距离选择最佳阴性样本;基于最佳阴性样本计算待检测样本中各个基因区间的相对深度比,并根据相对深度比计算得到各个基因区间的调整相对拷贝数比值,并根据调整相对拷贝数比值计算得到基因水平拷贝数比值,基于基因水平拷贝数比值,计算得到待检测样本中的拷贝数变异基因。这样能够去除待测样本中潜在的拷贝数变异,从背景样本池(阴性样本)中选择最近缘的正常样本作为对照来对待检测样本进行拷贝数变异的检测,降低检测成本、提高检测效果。
[0073]
在本发明的另一实施例中,对13例参考样本进行panel测序,拷贝数变异检测使用的方法包括:基于阴性样本池检测、随机选择一个阴性样本作为对照进行检测、无对照检测以及本发明的检测方法,各个检测方法除对照样本选择不同以外其余均保持一致,对13例参考样品4种检测方法的结果进行比较分析,该13例参考样本由一个包含11个基因的panel进行测序,已知这13例样本包含的拷贝数变异信息如下表:
[0074][0075]
对13例样本使用本发明的方法、基于阴性样本池(包含10例阴性样本)的检测方法、随机选择阴性样本作为对照检测、无对照样本检测四种方法进行拷贝数变异检测。结果表明所有四种方法均有效检出13例样本中存在的拷贝数变异基因,其中基于本发明的方法无假阳性检出;基于阴性样本池的检测方法存在4个假阳性检出,假阳性率3.1%;基于随机选定的阴性样本作对照的方法存在4个假阳性检出,假阳性率3.1%;无对照检测方法存在1个假阳性检出,假阳性率0.8%。
[0076]
上述结果表明,本实施例中,基于阴性样本池检测的检测方法能够达到较好的检出效果。
[0077]
图2为本发明实施例提供的一种针对靶向测序检测基因拷贝数变异的装置,包括:获取模块s201、质量控制模块s202、区间划分模块s203、初筛模块s204、选择模块s205、计算模块s206,其中:
[0078]
获取模块s201,用于获取待检测样本,并根据所述待检测样本获取关联的阴性样本,根据所述待检测样本及阴性样本建立样本库。
[0079]
质量控制模块s202,用于对所述样本库中的样本测序数据进行质量控制,并将质量控制后的样本测序数据与参考基因组进行比对,得到所述样本测序数据中各个序列片段的位置信息。
[0080]
区间划分模块s203,用于获取所述参考基因组的预设的靶向测序区域,并对所述
靶向测序区域进行连续的区间划分,得到各个基因区间,并结合所述样本测序数据中各个序列片段的位置信息进行读序深度统计,得到各个基因区间的深度指标。
[0081]
初筛模块s204,用于根据各个基因区间的深度指标,结合预设的拷贝数变异基因初筛方案,得到所述拷贝数变异基因初筛获得的基因集合。
[0082]
选择模块s205,用于根据所述拷贝数变异基因初筛获得的基因集合,对所述待检测样本及阴性样本中所述基因集合对应的基因区间进行去除,并对去除后的待检测样本及阴性样本进行深度指标的最值均一化,计算待测样本与阴性样本的距离,并根据所述距离选择最佳阴性样本。
[0083]
计算模块s206,用于基于所述最佳阴性样本计算所述待检测样本中各个基因区间的相对深度比,并根据所述相对深度比计算得到各个基因区间的调整相对拷贝数比值,并根据所述调整相对拷贝数比值计算得到基因水平拷贝数比值,基于基因水平拷贝数比值,计算得到待检测样本中的拷贝数变异基因。
[0084]
在一个实施例中,装置还可以包括:
[0085]
排序模块,用于将所述待检测样本的基因区间按照深度指标进行排序,并按照排序逐一选择对应的目标基因进行基因初筛,所述基因初筛包括:计算排除目标基因以外的剩余基因对应区间的深度指标的标准差,并对比目标基因的区间深度与所述标准差。
[0086]
确定模块,用于根据所述基因初筛的对比结果,确定所述拷贝数变异基因初筛获得的基因集合。
[0087]
在一个实施例中,装置还可以包括:
[0088]
第二计算模块,用于根据所述参考基因组的序列信息计算各个基因区间的gc比例。
[0089]
划分模块,用于对所述gc比例区间进行窗口划分,并计算所述待检测样本在每个窗口中深度指标占前5%的筛选基因区间。
[0090]
比对模块,用于逐一将各个区间与所述筛选基因区间进行比对,当目标基因满足≥60%的基因区间属于筛选基因区间时,则所述目标基因属于所述拷贝数变异基因初筛获得的基因集合。
[0091]
关于针对靶向测序检测基因拷贝数变异的装置的具体限定可以参见上文中对于针对靶向测序检测基因拷贝数变异的方法的限定,在此不再赘述。上述针对靶向测序检测基因拷贝数变异的装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
[0092]
图3示例了一种电子设备的实体结构示意图,如图3所示,该电子设备可以包括:处理器(processor)301、存储器(memory)302、通信接口(communications interface)303和通信总线304,其中,处理器301,存储器302,通信接口303通过通信总线304完成相互间的通信。处理器301可以调用存储器302中的逻辑指令,以执行如下方法:获取待检测样本,并根据所述待检测样本获取关联的阴性样本,根据所述待检测样本及阴性样本建立样本库;对样本库中的样本测序数据进行质量控制,并将质量控制后的样本测序数据与参考基因组进行比对,得到样本测序数据中各个序列片段的位置信息;获取参考基因组的预设的靶向测序区域,并对靶向测序区域进行连续的区间划分,得到各个基因区间,并结合样本测序数据
中各个序列片段的位置信息进行读序深度统计,得到各个基因区间的深度指标;根据各个基因区间的深度指标,结合预设的拷贝数变异基因初筛方案,得到拷贝数变异基因初筛获得的基因集合;根据拷贝数变异基因初筛获得的基因集合,对待检测样本及阴性样本中基因集合对应的基因区间进行去除,并对去除后的待检测样本及阴性样本进行深度指标的最值均一化,计算待测样本与阴性样本的距离,并根据距离选择最佳阴性样本;基于最佳阴性样本计算待检测样本中各个基因区间的相对深度比,并根据相对深度比计算得到各个基因区间的调整相对拷贝数比值,并根据调整相对拷贝数比值计算得到基因水平拷贝数比值,基于基因水平拷贝数比值,计算得到待检测样本中的拷贝数变异基因。
[0093]
此外,上述的存储器302中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0094]
另一方面,本发明实施例还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各实施例提供的传输方法,例如包括:获取待检测样本,并根据所述待检测样本获取关联的阴性样本,根据所述待检测样本及阴性样本建立样本库;对样本库中的样本测序数据进行质量控制,并将质量控制后的样本测序数据与参考基因组进行比对,得到样本测序数据中各个序列片段的位置信息;获取参考基因组的预设的靶向测序区域,并对靶向测序区域进行连续的区间划分,得到各个基因区间,并结合样本测序数据中各个序列片段的位置信息进行读序深度统计,得到各个基因区间的深度指标;根据各个基因区间的深度指标,结合预设的拷贝数变异基因初筛方案,得到拷贝数变异基因初筛获得的基因集合;根据拷贝数变异基因初筛获得的基因集合,对待检测样本及阴性样本中基因集合对应的基因区间进行去除,并对去除后的待检测样本及阴性样本进行深度指标的最值均一化,计算待测样本与阴性样本的距离,并根据距离选择最佳阴性样本;基于最佳阴性样本计算待检测样本中各个基因区间的相对深度比,并根据相对深度比计算得到各个基因区间的调整相对拷贝数比值,并根据调整相对拷贝数比值计算得到基因水平拷贝数比值,基于基因水平拷贝数比值,计算得到待检测样本中的拷贝数变异基因。
[0095]
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
[0096]
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该
计算机软件产品可以存储在计算机可读存储介质中,如rom/ram、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
[0097]
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

技术特征:


1.一种针对靶向测序检测基因拷贝数变异的方法,其特征在于,包括:获取待检测样本,并根据所述待检测样本获取关联的阴性样本,根据所述待检测样本及阴性样本建立样本库;对所述样本库中的样本测序数据进行质量控制,并将质量控制后的样本测序数据与参考基因组进行比对,得到所述样本测序数据中各个序列片段的位置信息;获取所述参考基因组的预设的靶向测序区域,并对所述靶向测序区域进行连续的区间划分,得到各个基因区间,并结合所述样本测序数据中各个序列片段的位置信息进行读序深度统计,得到各个基因区间的深度指标;根据各个基因区间的深度指标,结合预设的拷贝数变异基因初筛方案,得到所述拷贝数变异基因初筛获得的基因集合;根据所述拷贝数变异基因初筛获得的基因集合,对所述待检测样本及阴性样本中所述基因集合对应的基因区间进行去除,并对去除后的待检测样本及阴性样本进行深度指标的最值均一化,计算待测样本与阴性样本的距离,并根据所述距离选择最佳阴性样本;基于所述最佳阴性样本计算所述待检测样本中各个基因区间的相对深度比,并根据所述相对深度比计算得到各个基因区间的调整相对拷贝数比值,并根据所述调整相对拷贝数比值计算得到基因水平拷贝数比值,基于基因水平拷贝数比值,计算得到待检测样本中的拷贝数变异基因。2.根据权利要求1所述的针对靶向测序检测基因拷贝数变异的方法,其特征在于,所述根据各个基因区间的深度指标,结合预设的拷贝数变异基因初筛方案,得到所述拷贝数变异基因初筛获得的基因集合,还包括:将所述待检测样本的基因区间按照深度指标进行排序,并按照排序逐一选择对应的目标基因进行基因初筛,所述基因初筛包括:计算排除目标基因以外的剩余基因对应区间的深度指标的标准差,并对比目标基因的区间深度与所述标准差;根据所述基因初筛的对比结果,确定所述拷贝数变异基因初筛获得的基因集合。3.根据权利要求1所述的针对靶向测序检测基因拷贝数变异的方法,其特征在于,所述根据各个基因区间的深度指标,结合预设的拷贝数变异基因初筛方案,得到所述拷贝数变异基因初筛获得的基因集合,包括:根据所述参考基因组的序列信息计算各个基因区间的gc比例;对所述gc比例区间进行窗口划分,并计算所述待检测样本在每个窗口中深度指标占前5%的筛选基因区间;逐一将各个区间与所述筛选基因区间进行比对,当目标基因满足≥60%的基因区间属于筛选基因区间时,则所述目标基因属于所述拷贝数变异基因初筛获得的基因集合。4.根据权利要求1所述的针对靶向测序检测基因拷贝数变异的方法,其特征在于,所述对样本库中的样本测序数据进行质量控制,包括:去除样本测序数据的接头序列、两端低质量序列及包含连续多个n碱基或者长度低于预设阈值的序列。5.根据权利要求1所述的针对靶向测序检测基因拷贝数变异的方法,其特征在于,所述参考基因组,包括:grch37、grch38。
6.一种针对靶向测序检测基因拷贝数变异的装置,其特征在于,所述装置包括:获取模块,用于获取待检测样本,并根据所述待检测样本获取关联的阴性样本,根据所述待检测样本及阴性样本建立样本库;质量控制模块,用于对所述样本库中的样本测序数据进行质量控制,并将质量控制后的样本测序数据与参考基因组进行比对,得到所述样本测序数据中各个序列片段的位置信息;区间划分模块,用于获取所述参考基因组的预设的靶向测序区域,并对所述靶向测序区域进行连续的区间划分,得到各个基因区间,并结合所述样本测序数据中各个序列片段的位置信息进行读序深度统计,得到各个基因区间的深度指标;初筛模块,用于根据各个基因区间的深度指标,结合预设的拷贝数变异基因初筛方案,得到所述拷贝数变异基因初筛获得的基因集合;选择模块,用于根据所述拷贝数变异基因初筛获得的基因集合,对所述待检测样本及阴性样本中所述基因集合对应的基因区间进行去除,并对去除后的待检测样本及阴性样本进行深度指标的最值均一化,计算待测样本与阴性样本的距离,并根据所述距离选择最佳阴性样本;计算模块,用于基于所述最佳阴性样本计算所述待检测样本中各个基因区间的相对深度比,并根据所述相对深度比计算得到各个基因区间的调整相对拷贝数比值,并根据所述调整相对拷贝数比值计算得到基因水平拷贝数比值,基于基因水平拷贝数比值,计算得到待检测样本中的拷贝数变异基因。7.根据权利要求6中所述的针对靶向测序检测基因拷贝数变异的装置,其特征在于,所述装置还包括:排序模块,用于将所述待检测样本的基因区间按照深度指标进行排序,并按照排序逐一选择对应的目标基因进行基因初筛,所述基因初筛包括:计算排除目标基因以外的剩余基因对应区间的深度指标的标准差,并对比目标基因的区间深度与所述标准差;确定模块,用于根据所述基因初筛的对比结果,确定所述拷贝数变异基因初筛获得的基因集合。8.根据权利要求6中所述的针对靶向测序检测基因拷贝数变异的装置,其特征在于,所述装置还包括:第二计算模块,用于根据所述参考基因组的序列信息计算各个基因区间的gc比例;划分模块,用于对所述gc比例区间进行窗口划分,并计算所述待检测样本在每个窗口中深度指标占前5%的筛选基因区间;比对模块,用于逐一将各个区间与所述筛选基因区间进行比对,当目标基因满足≥60%的基因区间属于筛选基因区间时,则所述目标基因属于所述拷贝数变异基因初筛获得的基因集合。9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至5任一项所述针对靶向测序检测基因拷贝数变异的方法的步骤。10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1至5任一项所述针对靶向测序检测基因拷贝数变异
的方法的步骤。

技术总结


本发明实施例提供一种针对靶向测序检测基因拷贝数变异的方法及装置,所述方法包括:获取待检测样本及阴性样本;对样本测序数据质量控制,将质量控制后的样本测序数据与参考基因组进行比对,得到序列片段的位置信息;对靶向测序区域进行区间划分,结合序列片段的位置信息,得到深度指标;根据深度指标,结合预设方案,得到拷贝数变异基因初筛获得的基因集合;去除拷贝数变异基因初筛获得的基因集合,计算并选择最佳阴性样本;结合待检测样本,计算得到待检测样本中的拷贝数变异基因。采用本方法能够去除待测样本中潜在的拷贝数变异,从背景样本池中选择最近缘的正常样本作为对照对待测样本进行拷贝数变异的检测,降低检测成本、提高检测效果。提高检测效果。提高检测效果。


技术研发人员:

王涛 贾磊 肖姗姗

受保护的技术使用者:

杭州瑞普基因科技有限公司

技术研发日:

2022.08.30

技术公布日:

2022/12/19

本文发布于:2022-12-26 21:23:52,感谢您对本站的认可!

本文链接:https://patent.en369.cn/patent/2/46130.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:样本   基因   所述   区间
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2022 Comsenz Inc.Powered by © 369专利查询检索平台 豫ICP备2021025688号-20 网站地图