1.本发明涉及生物技术领域,具体涉及一种生物组学调控关系分析方法及装置、电子设备、介质。
背景技术:
2.生物组学主要包括基因组学、蛋白组学、代谢组学、转录组学、脂类组学、免疫组学、糖组学、rna组学等,生物组学
数据分析系通过对多个组学数据的分析研究发现各组学或生物分子之间的调控关系,从而进一步探寻疾病机理及疾病中的药物靶点。随着精细化的分析越来越普遍,现有的静态数据分析已经难以实现对复杂动态过程准确探究,因此有必要提供一种新的生物组学调控关系分析方法。
技术实现要素:
3.本发明的目的在于提供一种生物组学调控关系分析方法及装置、电子设备、介质,进而至少在一定程度上克服由于相关技术的限制和缺陷而导致的上述问题。
4.根据本发明的一个方面,提供一种生物组学调控关系分析方法,包括:
5.获取多个对象在特定时间的生物组学
特征数据,构建
所述多个对象与所述特定时间、所述特征数据的第一数据
矩阵;
6.通过混合线性模型获取所述第一数据矩阵中满足预设阈值的特征数据,得到第二数据矩阵;
7.通过重复采样滞后相关性模型确定第二数据矩阵中任意两个特征数据之间的相关性系数及置信度,以根据所述相关性系数和置信度确定所述生物组学特征数据之间的调控网络;其中,所述相关性系数的数值为所述两个特征数据之间的调控强度值,所述相关性系数的正负表示特征数据之间的激活或抑制调控性质。
8.在一示例性实施例中所述生物组学调控关系分析方法还包括:根据b-h方法对多个所述相关性系数对应的置信度进行筛选,得到存在调控关系的特征数据的第一相关性系数。
9.在一示例性实施例中所述生物组学至少包括基因组学、蛋白组学、代谢组学、转录组学、脂类组学、免疫组学、糖组学、rna组学之一。
10.再一示例性所述第一数据矩阵的列数据为时间参数,所述第一数据矩阵的行数据为所述对象的对象标识与所述特征数据。
11.在一示例性实施例中所述重复采样滞后相关性模型为在一示例性实施例中所述重复采样滞后相关性模型为
12.其中y
i,t+τ
为对象i在t+τ时刻的y特征数据,x
i,t
为对象i在t时刻的x特征数据,为对象i的x特征数据的算数平均值,samplei为对象i的对象标识,ε
i,t
为噪音系数,β为固定斜率。
13.在一示例性实施例中所述相关性系数rmlc为其中s s
x
为特征数据x的平方和,ss
error
为噪音平方和。
14.根据本发明的一个方面,提供一种生物组学调控关系分析装置,包括:
15.第一数据矩阵模块,用于获取多个对象在特定时间的特征数据并构建所述多个对象与所述特定时间、所述特征数据的第一数据矩阵;
16.第二数据矩阵模块,用于通过混合线性模型获取所述第一数据矩阵中满足预设阈值的特征数据得到第二数据矩阵;
17.相关性确定模块,用于通过重复采样滞后相关性模型确定第二数据矩阵中任意两个特征数据之间的相关性系数及置信度,以根据所述相关性系数和置信度确定所述生物组学特征数据之间的调控网络;其中,所述相关性系数的数值为所述两个特征数据之间的调控强度值,所述相关性系数的正负表示特征数据之间的激活或抑制调控性质。
18.在一示例性实施例中所述生物组学调控关系分析装置,还包括:筛选模块,用于根据b-h方法对多个所述相关性系数对应的置信度进行筛选,以得到存在调控关系的特征数据的第一相关性系数。
19.根据本发明的另一方面,提供一种电子设备,包括:
20.至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述方法。
21.根据本发明的另一方面,提供一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现上述方法。
22.本发明提供了一种生物组学调控关系分析方法及装置,一方面,所述方法通过以特定时间间隔采集的多个生物组学的特征数据构建数据矩阵,能够实现动态数据趋势下的生物组学调控关系分析,为生物体机能研究及病理机制探究提供有效的技术解决方案;另一方面,在所述方法中根据具体需求设置相应的参数并通过混合线性模型及重复采样滞后相关性模型对原始数据矩阵进行进一步筛选及分析处理,能够构建完善的生物组学调控网络,从而有效提升生物组学之间调控关系分析的准确度。
附图说明
23.图1是本发明一示例性实施例中一种生物组学调控关系分析方法的流程示意图;
24.图2是本发明一示例性实施例中一种矩阵模型示意图;
25.图3是本发明一示例性实施例中一种生物组学调控关系分析装置的结构示意图。
具体实施方式
26.为使本发明的目的、特征、优点能够更加的明显和易懂,下面将结合附图本发明实施方式及实施例中的技术方案进行清楚、完整地描述。然而,示例实施方式及实施例能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式及实施例使得本发明将更加全面和完整,并将示例实施方式及实施例的构思全面地传达给本领域的技术人员。本发明所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施
方式及实施例中。在下面的描述中,提供许多具体细节从而给出对本发明的实施方式及实施例的充分理解。然而,本领域技术人员将意识到,可以实践本发明的技术方案而省略所述特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知技术方案以避免喧宾夺主而使得本发明的各方面变得模糊。
27.此外,附图仅为本发明的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。尽管在附图中以特定顺序描述了本发明中方法的各个步骤,但是,这并非要求或者暗示必须按照该特定顺序来执行这些步骤,或是必须执行全部所示的步骤才能实现期望的结果。附图中所示的流程图仅是示例性说明,不是必须包括所有的步骤。例如,有的步骤还可以分解,而有的步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
28.生物组学主要包括基因组学、蛋白组学、代谢组学、转录组学、脂类组学、免疫组学、糖组学、rna组学等,生物组学数据分析系通过对多个组学数据的分析研究发现各组学或生物分子之间的调控关系,从而进一步探寻人体病理研究及疾病诊疗中的药物作用靶点等机制。常规的病理探究方式系针对生物组学大数据数据分析来进行机理探究或病原追溯,然而人体作为一个有机体其各生物组学之间时时刻刻存在着互相影响及调控等错综复杂的运行机制,通过静态数据分析技术的长期研究虽然解决了部分问题,但仍面临一些难以突破的障碍,这种静态数据分析方式显然也难以实现对人体分子复杂动态过程的准确探究,因此有必要提供一种能够实现生物组学之间动态调控关系分析的技术方法。
29.鉴于相关技术中存在的上述问题,本发明提供了一种生物组学调控关系分析方法及装置,所述方法通过在控制环境下等时间间隔的采集多个生物组学的特征数据进行分析,以实现动态数据趋势下的多组调控关系分析,并能够根据构建的多条件筛选机制,对目标研究方向预设筛选条件而获取相应的调控关系分析结果。所述生物组学调控关系分析方法及装置能够为研究疾病作用机理提供重要的病原追溯视角,为验证已有生物知识提供实验依据,并且通过以数据驱动的方法进行调控关系分析能够缩小实验验证的范围,提高数据处理的效率,大量减少实验资源及人工成本投入;此外所述方法还能够实现亿次级别的数据处理量,从而实现以数据驱动计算大规模生物网络来进行生物技术分析研究。
30.本发明示例性实施例提供了一种生物组学调控关系分析方法,图1是本发明一示例性实施例中一种生物组学调控关系分析方法的流程示意图;如图1所示,所述方法包括以下步骤:
31.步骤s11:获取多个对象在特定时间的生物组学特征数据,构建所述多个对象与所述特定时间、所述特征数据的第一数据矩阵;
32.生物体作为一个有机整体其各组学之间往往存在相互调控关系,不同的组学之间可能发生干扰、影响或互为因果关系,因此为实现对生物体的全面分析,在特征维度上需要针对每个对象收集多组不同生物组学的数据信息,在时间维度上则需要针对每个生物组学收集不同时间点的数据信息,通过对这些多维度的数据信息集合进行分析来获取生物组学之间的调控关系及变化趋势。在生物组学研究中由于采集的生物组学数据拥有数量庞大的
维度而很难进行分类、聚类和可视化等操作,因而需要通过特征选择和特征投影等方式分别进行数据处理且实现各自的优化目标;而由于不同优化目标的冲突往往导致原始数据结构相当程度的破环紊乱;例如在特征选择中因剔除了重要的特征而影响到下游的数据分类、聚类和可视化等工作,在特征投影中因将高维数据映射到低维潜在空间而致使数据结构缺乏可解释性及稀疏性,因而难以通过特征选择和特征投影实现生物组学数据的同步精确分析处理。
33.基于此,本方法在多组学数据分析过程无需对多维度的数据进行特征选择或特征投影处理,而是将所有数据都应用到数据矩阵的构建中,以保证原始数据的真实性及准确性。具体而言,可以根据对象标识、时间参数及特征数据三个属性构建二维矩阵模型,其中生物数据分析系通过大量数据处理来发现各组学之间的调控关系等规律,因此需要涉及到对多个对象的数据收集,且在时间上可设置等间隔的数据收集模式,例如每隔12h、24h或48h等间隔针对每个对象的每个生物组学特征进行一次数据采集;所述生物组学特征可以是生物数据分析中意图分析的目标数据,例如在多组学数据分析中特征可以根据需求从基因组学、蛋白组学、代谢组学、转录组学、脂类组学、免疫组学、糖组学、rna组学等特征中选取部分或全部进行数据矩阵构建。示例而言,根据对象标识、时间参数、特征数据构建的二维矩阵如图2所示,其中矩阵的列为等间隔的时间参数,矩阵的行为每特征下多个对象的数据集合。
34.步骤s13:通过混合线性模型获取所述第一数据矩阵中满足预设阈值的特征数据,得到第二数据矩阵;
35.混合线性模型(linear mixed effects model)系包含固定效应和随机效应的方差分析模型,广泛应用于物理、生物和社会科学等领域的内部聚集数据分析和重复测量数据分析;其中固定效应(fixed effect)指该因素的每个水平(level)已经穷举列出,不能或者不需要再做推广,固定效应影响的是响应变量或因变量的均值;随机效应(random effect)指该因素是从一个更大的总体中抽取出来的样本,研究结果需要推广到整个总体,随机效应影响的是响应变量的变异程度即方差。
36.在一示例性实施例中步骤s13系通过混合线性模型获取所述第一数据矩阵中在时间维度上变化达到预设阈值的特征数据,得到第二数据矩阵;本方法在于分析多生物组学之间的相互调控关系及调控关系随时间的变化趋势,因此需要在第一数据矩阵中剔除在时间维度上不具有显著变化的特征数据。详细而言通过混合线性模型对特征数据进行筛选包括:在混合线性模型中以对象标识作为混合线性模型截距(random effect),以时间参数作为固定斜率(fixed effect)针对两两数据之间的调控关系进行分析,当通过混合线性模型公式得到固定斜率为零的假设无法被拒绝时则从第一数据矩阵中剔除对应的特征数据。进一步地,对于固定斜率不为零的数据,当得到特征数据的固定斜率(fixed effect)的p值小于预设阈值时,选取该特征数据构建第二数据矩阵。示例而言,其p值的预设阈值可以设置为0.05,通过该阈值可以作为特征数据在时间维度上是否具有显著变化的判定标准,并以此作为构建第二矩阵的特征数据的筛选条件。可以理解,对于p值的阈值可以依据意图构建的第二矩阵中特征数据的变化程度来自行设置。
37.步骤s15:通过重复采样滞后相关性模型确定第二数据矩阵中任意两个特征数据之间的相关性系数及置信度,以根据所述相关性系数和置信度确定所述生物组学特征数据
discovery rate)α可以根据需求自行设定,示例而言,预测错误发现率α可设置为0.25。
47.本发明另一示例性实施例提供了一种生物组学调控关系分析装置,图3是本发明一示例性实施例中一种生物组学调控关系分析装置的结构示意图,如图3所示,所述装置包括:
48.第一数据矩阵模块30,用于获取多个对象在特定时间的特征数据并构建所述多个对象与所述特定时间、所述特征数据的第一数据矩阵;
49.第二数据矩阵模块32,用于通过混合线性模型获取所述第一数据矩阵中满足预设阈值的特征数据得到第二数据矩阵;
50.相关性确定模块34,用于通过重复采样滞后相关性模型确定第二数据矩阵中任意两个特征数据之间的相关性系数及置信度,以根据所述相关性系数和置信度确定所述生物组学特征数据之间的调控网络;其中,所述相关性系数的数值为所述两个特征数据之间的调控强度值,所述相关性系数的正负表示特征数据之间的激活或抑制调控性质。
51.上述装置中各模块/单元的具体细节已经在对应的方法部分进行了详细的描述,此处不再赘述。应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本发明的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
52.除上述方法和设备以外,本发明的实施例还可以是计算机程序产品,其包括计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本发明各种实施例的方法中的步骤。
53.所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本发明实施例操作的程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如java、c++等,还包括常规的过程式程序设计语言,诸如c语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。
54.本发明的另一实施方式提供了一种电子设备,可以用于执行本示例实施方式中所述方法全部或者部分步骤。所述装置包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本说明书上述“示例性方法”中描述的根据本发明各种实施例的方法中的步骤。
55.本发明的另一实施方式提供了一种计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”中描述的根据本发明各种实施例的方法中的步骤。
56.所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑盘
只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。
57.以上结合具体实施例描述了本发明的基本原理,但是,需要指出的是,在本发明中提及的优点、优势、效果等仅是示例而非限制,不能认为这些优点、优势、效果等是本发明的各个实施例必须具备的。另外,上述公开的具体细节仅是为了示例的作用和便于理解的作用,而非限制,上述细节并不限制本发明为必须采用上述具体的细节来实现。
58.本发明中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的,可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇,指“包括但不限于”,且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”,且可与其互换使用,除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“如但不限于”,且可与其互换使用。
59.本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本发明旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由下面的权利要求指出。
60.应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。
技术特征:
1.一种生物组学调控关系分析方法,其特征在于,包括:获取多个对象在特定时间的生物组学特征数据,构建所述多个对象与所述特定时间、所述特征数据的第一数据矩阵;通过混合线性模型获取所述第一数据矩阵中满足预设阈值的特征数据,得到第二数据矩阵;通过重复采样滞后相关性模型确定第二数据矩阵中任意两个特征数据之间的相关性系数及置信度,以根据所述相关性系数和置信度确定所述生物组学特征数据之间的调控网络;其中,所述相关性系数的数值为所述两个特征数据之间的调控强度值,所述相关性系数的正负表示特征数据之间的激活或抑制调控性质。2.根据权利要求1所述的生物组学调控关系分析方法,其特征在于,还包括:根据b-h方法对多个所述相关性系数对应的置信度进行筛选,得到存在调控关系的特征数据的第一相关性系数。3.根据权利要求1所述的生物组学调控关系分析方法,其特征在于,所述生物组学至少包括基因组学、蛋白组学、代谢组学、转录组学、脂类组学、免疫组学、糖组学、rna组学之一。4.根据权利要求1所述的生物组学调控关系分析方法,其特征在于,所述第一数据矩阵的列数据为时间参数,所述第一数据矩阵的行数据为所述对象的对象标识与所述特征数据。5.根据权利要求1所述的生物组学调控关系分析方法,其特征在于,所述重复采样滞后相关性模型为其中y
i,t+τ
为对象i在t+τ时刻的y特征数据,x
i,t
为对象i在t时刻的x特征数据,为对象i的x特征数据的算数平均值,sample
i
为对象i的对象标识,ε
i,
为噪音系数,β为固定斜率。6.根据权利要求1所述的生物组学调控关系分析方法,其特征在于,所述相关性系数rmlc为其中ss
x
为特征数据x的平方和,ss
error
为噪音平方和。7.一种生物组学调控关系分析装置,其特征在于,包括:第一数据矩阵模块,用于获取多个对象在特定时间的特征数据并构建所述多个对象与所述特定时间、所述特征数据的第一数据矩阵;第二数据矩阵模块,用于通过混合线性模型获取所述第一数据矩阵中满足预设阈值的特征数据得到第二数据矩阵;相关性确定模块,用于通过重复采样滞后相关性模型确定第二数据矩阵中任意两个特征数据之间的相关性系数及置信度,以根据所述相关性系数和置信度确定所述生物组学特征数据之间的调控网络;其中,所述相关性系数的数值为所述两个特征数据之间的调控强度值,所述相关性系数的正负表示特征数据之间的激活或抑制调控性质。8.根据权利要求7所述的生物组学调控关系分析装置,其特征在于,还包括:筛选模块,用于根据b-h方法对多个所述相关性系数对应的置信度进行筛选,以得到存在调控关系的特征数据的第一相关性系数。9.一种电子设备,其特征在于,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存
储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-7任一项所述的生物组学调控关系分析方法。10.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-7任一项所述的生物组学调控关系分析方法。
技术总结
本发明涉及生物技术领域,具体涉及一种生物组学调控关系分析方法及装置、电子设备、介质,所述方法包括:获取多个对象在特定时间的生物组学特征数据,构建所述多个对象与所述特定时间、所述特征数据的第一数据矩阵;通过混合线性模型获取所述第一数据矩阵中满足预设阈值的特征数据,得到第二数据矩阵;通过重复采样滞后相关性模型确定第二数据矩阵中任意两个特征数据之间的相关性系数及置信度。所述方法通过在控制环境下等时间间隔的采集多个生物组学的特征数据进行分析,以实现动态数据趋势下的多组调控关系分析,并能够根据构建的多条件筛选机制,对目标研究方向预设筛选条件而获取相应的调控关系分析结果。而获取相应的调控关系分析结果。而获取相应的调控关系分析结果。
技术研发人员:
刘超
受保护的技术使用者:
南京医基云医疗数据研究院有限公司
技术研发日:
2022.12.12
技术公布日:
2023/3/10