:
1.本发明涉及生物工程技术领域,具体涉及一种基于多种遗传
算法的一般
蛋白质设计方法。
背景技术:
2.蛋白质计算设计是指通过计算理性地确定蛋白质的氨基酸序列,实现预设的
结构和功能。蛋白质计算设计已逐渐形成了一套系统的方法,得到越来越多的实验验证。这些方法既可用于从头设计蛋白,也可以用于既有蛋白的理性改造,具有广泛应用前景,是合成生物学的重要使能技术之一。蛋白质是执行生物功能的主要生物大分子,也是用于构筑合成生物系统的主要元件。大多数蛋白质的功能取决于它们的特定三维空间结构和特异性分子间相互作用。氨基酸序列决定了蛋白质三维结构和相互作用,从而决定蛋白质功能。
3.20世纪90年代后期,随着分子力学能量函数、氨基酸侧链构象库、优化算法等的发展,dahiyat等首先实现了用自动优化的方法来设计氨基酸序列。在此类算法中,主链骨架是被事先给定的(如来源于天然蛋白质结构),且可被假设为固定不变。设计中需要通过计算来确定的未知量包括每个主链位置上的氨基酸残基类型以及其侧链构象。这些未知量的所有容许取值(即氨基酸侧链类型及其构象状态的可能组合)构成了氨基酸序列和侧链构象空间。定义在该空间上的能量函数则被用于评估特定序列和构象组合的好坏。定义了主链结构和能量函数后,设计者通过特殊的算法在序列和侧链构象的未知量空间中自动搜索,出能量尽可能低的解,得到设计结果。
4.蛋白质是生命系统中重要的大分子物质,蛋白质特有的结构特征是其功能形成与展现的根本物理基础。因此"探索蛋白质折叠机制"归纳蛋白质组成与结构之间的关系就成为蛋白质研究中的重要问题。蛋白质折叠结构在很大程度上决定了其生物学功能,而目前的实验手段能较容易地测出构成蛋白质链的氨基酸序列,却无法观测出蛋白质链的空间折叠结构。随着计算机科学技术的进步,人们开始寻求以理论计算的方法直接预测蛋白质的空间折叠结构。
5.研究折叠问题的目的是从蛋白质序列出发来预测结构,x射线晶体衍射方法和多维核磁共振技术是目前测定蛋白质结构的主要方法,但实验方法耗资耗时,且受实验条件的限制,因此利用数学和计算机技术预测蛋白质结构具有十分重要的意义。天然蛋白质与其所处的环境构成一个热力学系统,处于一定环境中的蛋白质的天然结构是整个系统最稳定时的结构,即系统能量最低时的结构,这个结构是唯一的。要在此理论基础上预测蛋白质结构,首先应建立一个能区别蛋白质天然结构和其它结构的能量函数,然后在蛋白质的结构空间寻能量函数的全局极小点。
6.沿着这一思路,人们开始转向纯粹计算的方法,通过蛋白质链的构成来对蛋白质结构进行预测。给定一个蛋白质氨基酸序列,人们假定蛋白质的天然结构即为按某种方式定义的“最低能量”构形。这样,按着某个确定的能量函数在所有可能的构形中出能量最低的构形即为蛋白质的真实折叠结构。于是,蛋白质结构预测问题就落实为一个满足一定
约束条件的最优化问题。尽管这一原理非常简单,但沿着这一思路想要彻底解决蛋白质结构预测问题却遇到了极大的挑战,因为此类问题往往被科学家们证实为np难度问题。当问题规模较大时,所有的方法都无法在可接受的时间内计算出最低能量状态。所以要想给出既完整又快速的求解算法是一件不可能的事情。启发式优化算法有可能在较短的时间内求解大规模的问题实例,并达到令人满意的优度。虽然启发式优化算法不能总是保证能到问题实例的最优解,但通过设计一些比较高效的启发式策略,往往可以在算法速度和优度之间达到一种很好的平衡。
技术实现要素:
7.为了克服现有技术的不足,本发明为解决蛋白质设计中的结构预测的数值计算的难点,改进现有蛋白质结构的
模型,提出一个更易于计算的连续模型,并提出求解此问题的遗传算法,有效得到问题最优解,预测效率较高,收敛性较好,弥补了现有方法的缺陷。
8.本发明的技术方案为,一种基于多种遗传算法的一般蛋白质设计方法,
9.所述蛋白质设计方法包括一个最优化模型p1,通过分析蛋白质联合残基力场,并采用能量项建立蛋白质结构预测模型,在联合残基力场模型中,氨基酸的侧链用一个椭球体来表示,氨基酸序列的主链被简化为一系列用虚键c
a-ca连接的a碳原子ca,每个a碳原子接一个联合侧链sc,肽单位用两个a碳原子之间的一个联合肽基p表示。其中只有sc和p为作用点,ca仅辅助确定作用点的几何位置。虚键c
0-c0键长固定不变,侧链键c
a-sc键长仅跟残基类型有关,自由变量为:虚键二面角γ、虚键键角θ和侧链键角α
sc
和β
sc
。
10.在蛋白质结构中,两个c0原子之间形成一个肽单元,一条多肽链由多个肽单元连接而成,联合残基力场模型用一个虚拟的肽基表示一个肽单元,肽基之间主要考虑静电相互作用,联合肽基之间的相互作用能。这个势能越小,对蛋白质结构的刻画越准确。
11.另外,对于所有的球状蛋白质,大多数疏水侧链埋藏在蛋白质内部,形成疏水内核,亲水侧链则主要分布在蛋白质表面,这是蛋白质空间结构的一个最显著的特点,侧链间相互作用主要表示侧链之间的疏水和亲水作用,同时,为了防止一个残基的侧链与另一个残基的主链靠得太近所造成的不合理结构,联合侧链sci与联合肽基pj之间的相互作用能不小于一定的标准;所述最优化模型p1为:
12.(p1)
13.其中,是决策变量,n为蛋白质序
列残基的个数;表示联合侧链sci与scj之间的相互作用能,包含了侧链间疏水/亲水作用的平均自由能。为了简便以下,i,j表示sci和scj,c
ij
为常实数,有
[0014][0015][0016]
其中ε
ij
和x
ij
都与侧链的类型、位置及方向有关的常数,
[0017][0018][0019][0020][0021][0022]
其中r
ij
为侧链中心的距离,σ
ij
由下式决定:
[0023][0024][0025][0026]
和为单位向量。其它参数都只与残基类型有关。
[0027]
(2)联合侧链sci与联合肽基pj之间的相互作用能表示为该项是为了防止一个残基的侧链与另一个残基的主链靠得太近所造成的不合理的结构而加入的惩罚项。对于相邻的两个残基,忽略不计。当第i个残基和第j个残基不相邻时,通过下式计算:
[0028][0029]
其中,r
ij
表示残基i和残基j之间的距离ε
scp
=0.3kcal/mol;
[0030]
(3)是联合肽基之间的相互作用能,具体表达式为
[0031][0032]
其中,α
ij
,β
ij
,γ
ij
是定义肽基pi,pj相对位置的角度,是常数,是定义肽基pi,pj之间的距离。
[0033]
模型转化
[0034]
从最优化模型p1中,不难发现(p1)中的约束非常多,这使得在求解最优化模型(p1)时的数值计算非常困难,但由于一部分约束是简单的盒子约束,一部分是非线性约束。因此,本发明将约束分为两部分,令
[0035][0036]
最优化模型(p1)重新表述为:
[0037][0038]
为提高算法的性能,本发明采用光滑惩罚技术,将带约束的最优化模型(p1)转化为具有简单约束的最优化模型(p2),具体形式如下:
[0039]
(p2)
[0040]
其中,m>0是罚参数。
[0041]
算法设计
[0042]
本发明主要针对最优化问题(p2)提出了一种新的遗传算法,可以有效处理高维的连续函数优化问题,并能快速地收敛到全局最优解。为了计算方便,本发明利用最优化模型(p2)的具有简单盒子约束的特点,将(p2)的决策变量规范化,并利用如下规则处理决策变量x的每个分量xr的边界(r是正整数):
[0043][0044]
经此式处理后,决策变量的任意一个分量的值都在规定的范围内,且分量值符号保持不变,并约定决策变量的维数为n。在最优化模型(p2)的基础上,采用多种遗传算法
来预测蛋白质三维结构。它结合了不同种的全局搜索和局部搜索能力,较好地克服了传统的遗传算法易陷入局部最优、收敛慢等缺点。
[0045]
多种遗传算法描述如下:
[0046]
第一步:随机产生n1个决策变量作为初始种,以高斯坐标为染体编码方式,并确定初始参数。(初始种规模对算法的影响很大,太小容易是算法未成熟收敛,从而陷入局部最优,过大则导致计算量太大,本发明采用初始种大小n1为染体长度的3倍。)
[0047]
第二步:计算每个构象(即染体)被选择进行遗传操作的概率,并约定依据这个概率进行随机选择。在选择时尽量将适应度高的个体进入下一代。首先按着适应度排序,计算个体之间的距离,选择距离最近的个体比较能量值,将能量值最低的个体删除,依次循环,直到选出前90%的个体。
[0048]
第三步:利用交叉算子和变异算子对选定的构象(即染体)进行交叉和变异操作,并产生新的种。为了增强种的多样性,采用簇间交叉和簇内交叉。簇间交叉时,将所有种簇的簇首进入交叉池,两两个体作为交叉父代进行交叉。簇内交叉时,在种中按着概率选择离簇首尽可能远的个体进入交叉池,将交叉池中个体与簇首进行交换信息。变异算子采用多点变异算子,从而更有利于寻求全局最优解。
[0049]
第四步:若不满足停止准则,则重复第二步到第三步。否则,输出种中能量值最小的构象。
[0050]
本发明有益效果
[0051]
本发明设计一种基于多种遗传算法的蛋白质设计方法,其有益效果如下:
[0052]
第一,对一般蛋白质预测建立了新的最优化模型,把一个具有多约束最优化问题,重构为简单约束最优化问题,简化了问题,更容易进行数值计算。第二,利用惩罚技术将问题转化为简单盒子约束的最优化问题。第三,本发明在最优化模型(p2)的基础上,采用多种遗传算法来预测蛋白质三维结构。它结合了不同种的全局搜索和局部搜索能力,较好地克服了传统的遗传算法易陷入局部最优、收敛慢等缺点。本发明利用盒子约束,对于产生新解边界值进行处理,给出一种新的方法,更快的产生全局最优解,解决的计算上的难点。
具体实施方式:
[0053]
本发明一种基于多种遗传算法的一般蛋白质设计方法,所述蛋白质设计方法包括一个最优化模型p1,通过分析蛋白质联合残基力场,并采用能量项建立蛋白质结构预测模型,在联合残基力场模型中,氨基酸的侧链用一个椭球体来表示,氨基酸序列的主链被简化为一系列用虚键c
a-ca连接的a碳原子ca,每个a碳原子接一个联合侧链sc,肽单位用两个a碳原子之间的一个联合肽基p表示。其中只有sc和p为作用点,ca仅辅助确定作用点的几何位置。虚键c
0-c0键长固定不变,侧链键c
a-sc键长仅跟残基类型有关,自由变量为:虚键二面角γ、虚键键角θ和侧链键角α
sc
和β
sc
。
[0054]
在蛋白质结构中,两个c0原子之间形成一个肽单元,一条多肽链由多个肽单元连接而成,联合残基力场模型用一个虚拟的肽基表示一个肽单元,肽基之间主要考虑静电相互作用,联合肽基之间的相互作用能。这个势能越小,对蛋白质结构的刻画越准确。
[0055]
另外,对于所有的球状蛋白质,大多数疏水侧链埋藏在蛋白质内部,形成疏水内核,亲水侧链则主要分布在蛋白质表面,这是蛋白质空间结构的一个最显著的特点,侧链间
相互作用主要表示侧链之间的疏水和亲水作用,同时,为了防止一个残基的侧链与另一个残基的主链靠得太近所造成的不合理结构,联合侧链sci与联合肽基pj之间的相互作用能不小于一定的标准;所述最优化模型p1为:
[0056]
(p1)
[0057]
其中,是决策变量,n为蛋白质序列残基的个数;表示联合侧链sci与scj之间的相互作用能,包含了侧链间疏水/亲水作用的平均自由能。为了简便以下,i,j表示sci和scj,c
ij
为常实数,有
[0058][0059][0060]
其中ε
ij
和x
ij
都与侧链的类型、位置及方向有关的常数,
[0061][0062][0063][0064][0065][0066]
其中r
ij
为侧链中心的距离,σ
ij
由下式决定:
[0067][0068][0069]
[0070]
和为单位向量。其它参数都只与残基类型有关。
[0071]
(2)联合侧链sci与联合肽基pj之间的相互作用能表示为该项是为了防止一个残基的侧链与另一个残基的主链靠得太近所造成的不合理的结构而加入的惩罚项。对于相邻的两个残基,忽略不计。当第i个残基和第j个残基不相邻时,通过下式计算:
[0072][0073]
其中,r
ij
表示残基i和残基j之间的距离ε
scp
=0.3kcal/mol;
[0074]
(3)是联合肽基之间的相互作用能,具体表达式为
[0075][0076]
其中,α
ij
,β
ij
,γ
ij
是定义肽基pi,pj相对位置的角度,是常数,是定义肽基pi,pj之间的距离。
[0077]
模型转化
[0078]
从最优化模型p1中,不难发现(p1)中的约束非常多,这使得在求解最优化模型(p1)时的数值计算非常困难,但由于一部分约束是简单的盒子约束,一部分是非线性约束。因此,本发明将约束分为两部分,令
[0079][0080]
最优化模型(p1)重新表述为:
[0081][0082]
为提高算法的性能,本发明采用光滑惩罚技术,将带约束的最优化模型(p1)转化为具有简单约束的最优化模型(p2),具体形式如下:
[0083]
(p2)
[0084]
其中,m>0是罚参数。
[0085]
算法设计
[0086]
本发明主要针对最优化问题(p2)提出了一种新的遗传算法,可以有效处理高维的连续函数优化问题,并能快速地收敛到全局最优解。为了计算方便,本发明利用最优化模型(p2)的具有简单盒子约束的特点,将(p2)的决策变量规范化,并利用如下规则处理决策变量x的每个分量xr的边界(r是正整数):
[0087][0088]
经此式处理后,决策变量的任意一个分量的值都在规定的范围内,且分量值符号保持不变,并约定决策变量的维数为n。在最优化模型(p2)的基础上,采用多种遗传算法来预测蛋白质三维结构。它结合了不同种的全局搜索和局部搜索能力,较好地克服了传统的遗传算法易陷入局部最优、收敛慢等缺点。
[0089]
多种遗传算法描述如下:
[0090]
第一步:随机产生n1个决策变量作为初始种,以高斯坐标为染体编码方式,并确定初始参数。(初始种规模对算法的影响很大,太小容易是算法未成熟收敛,从而陷入局部最优,过大则导致计算量太大,本发明采用初始种大小n1为染体长度的3倍。)
[0091]
第二步:计算每个构象(即染体)被选择进行遗传操作的概率,并约定依据这个概率进行随机选择。在选择时尽量将适应度高的个体进入下一代。首先按着适应度排序,计算个体之间的距离,选择距离最近的个体比较能量值,将能量值最低的个体删除,依次循环,直到选出前90%的个体。
[0092]
第三步:利用交叉算子和变异算子对选定的构象(即染体)进行交叉和变异操作,并产生新的种。为了增强种的多样性,采用簇间交叉和簇内交叉。簇间交叉时,将所有种簇的簇首进入交叉池,两两个体作为交叉父代进行交叉。簇内交叉时,在种中按着概率选择离簇首尽可能远的个体进入交叉池,将交叉池中个体与簇首进行交换信息。变异算子采用多点变异算子,从而更有利于寻求全局最优解。
[0093]
第四步:若不满足停止准则,则重复第二步到第三步。否则,输出种中能量值最小的构象。
技术特征:
1.一种基于多种遗传算法的一般蛋白质设计方法,所述蛋白质设计方法包括一个最优化模型p1,通过分析蛋白质联合残基力场,并采用能量项建立蛋白质结构预测模型,在联合残基力场模型中,氨基酸的侧链用一个椭球体来表示,氨基酸序列的主链被简化为一系列用虚键c
a-c
a
连接的a碳原子c
a
,每个a碳原子接一个联合侧链sc,肽单位用两个a碳原子之间的一个联合肽基p表示;其中只有sc和p为作用点,c
a
仅辅助确定作用点的几何位置;虚键c
0-c0键长固定不变,侧链键c
a-sc键长仅跟残基类型有关,自由变量为:虚键二面角γ、虚键键角θ和侧链键角α
sc
和β
sc
,在蛋白质结构中,两个c0原子之间形成一个肽单元,一条多肽链由多个肽单元连接而成,联合残基力场模型用一个虚拟的肽基表示一个肽单元,肽基之间主要考虑静电相互作用,联合肽基之间的相互作用能;这个势能越小,对蛋白质结构的刻画越准确,对于所有的球状蛋白质,大多数疏水侧链埋藏在蛋白质内部,形成疏水内核,亲水侧链则主要分布在蛋白质表面,这是蛋白质空间结构的一个最显著的特点,侧链间相互作用主要表示侧链之间的疏水和亲水作用,同时,为了防止一个残基的侧链与另一个残基的主链靠得太近所造成的不合理结构,联合侧链sc
i
与联合肽基p
j
之间的相互作用能不小于一定的标准;其特征是:所述最优化模型p1为:(p1)其中,是决策变量,n为蛋白质序列残基的个数;表示联合侧链sc
i
与sc
j
之间的相互作用能,包含了侧链间疏水/亲水作用的平均自由能,用i,j分别表示sc
i
和sc
j
,c
ij
为常实数,有为常实数,有其中ε
ij
和x
ij
都与侧链的类型、位置及方向有关的常数,都与侧链的类型、位置及方向有关的常数,都与侧链的类型、位置及方向有关的常数,
其中r
ij
为侧链中心的距离,σ
ij
由下式决定:由下式决定:由下式决定:由下式决定:和为单位向量,其它参数都只与残基类型有关。2.根据权利要求1所述的基于多种遗传算法的一般蛋白质设计方法,其特征是:联合侧链sc
i
与联合肽基p
j
之间的相互作用能表示为该项是为了防止一个残基的侧链与另一个残基的主链靠得太近所造成的不合理的结构而加入的惩罚项;对于相邻的两个残基,忽略不计,当第i个残基和第j个残基不相邻时,通过下式计算:其中,r
ij
表示残基i和残基j之间的距离ε
scp
=0.3kcal/mol;3.根据权利要求1所述的基于多种遗传算法的一般蛋白质设计方法,其特征是:是联合肽基之间的相互作用能,具体表达式为其中,α
ij
,β
ij
,γ
ij
是定义肽基p
i
,p
j
相对位置的角度,相对位置的角度,是常数,是定义肽基p
i
,p
j
之间的距离。4.根据权利要求2或3所述的基于多种遗传算法的一般蛋白质设计方法,其特征是:将约束分为两部分,令所述最优化模型p1重新表述为:
采用光滑惩罚技术,将改进后的所述最优化模型p1转化为具有简单约束的最优化模型p2,具体形式如下:(p2)其中,m>0是罚参数。5.根据权利要求4所述的基于多种遗传算法的一般蛋白质设计方法,其特征是:针对所述最优化问题p2提出了一种新的遗传算法,可以有效处理高维的连续函数优化问题,并能快速地收敛到全局最优解,将所述最优化问题p2的决策变量规范化,并利用如下规则处理决策变量x的每个分量x
r
的边界,r是正整数:经此式处理后,决策变量的任意一个分量的值都在规定的范围内,且分量值符号保持不变,并约定决策变量的维数为n;在所述最优化模型p2的基础上,采用一个多种遗传算法来预测蛋白质三维结构,所述多种遗传算法描述如下:第一步:随机产生n1个决策变量作为初始种,以高斯坐标为染体编码方式,并确定初始参数;第二步:计算每个构象,即,染体,被选择进行遗传操作的概率,并约定依据这个概率进行随机选择;在选择时尽量将适应度高的个体进入下一代;首先按着适应度排序,计算个体之间的距离,选择距离最近的个体比较能量值,将能量值最低的个体删除,依次循环,直到选出前90%的个体;第三步:利用交叉算子和变异算子对选定的所述构象进行交叉和变异操作,并产生新的种,采用簇间交叉和簇内交叉,簇间交叉时,将所有种簇的簇首进入交叉池,两两个体作为交叉父代进行交叉,簇内交叉时,在种中按着概率选择离簇首尽可能远的个体进入交叉池,将交叉池中个体与簇首进行交换信息;变异算子采用多点变异算子,从而更有利于寻求全局最优解;第四步:若不满足停止准则,则重复第二步到第三步;否则,输出种中能量值最小的构象。
技术总结
本发明涉及一种基于多种遗传算法的一般蛋白质设计方法,所述蛋白质设计方法包括一个最优化模型P1,通过分析蛋白质联合残基力场,并采用能量项建立蛋白质结构预测模型。本发明对一般蛋白质预测建立了新的最优化模型,把一个具有多约束最优化问题,重构为简单约束最优化问题,简化了问题,更容易进行数值计算;利用惩罚技术将问题转化为简单盒子约束的最优化问题。本发明在最优化模型P2的基础上,采用多种遗传算法来预测蛋白质三维结构。用多种遗传算法来预测蛋白质三维结构。
技术研发人员:
广红 王威丹 宋加磊
受保护的技术使用者:
青岛超蓝生物信息科技有限公司
技术研发日:
2022.07.11
技术公布日:
2022/11/25