金鑫亮;王一休;薛清凯;薛伟杰;宫之奇;牛兆建;朱呈瞻
【摘 要】目的 利用生物信息学分析方法寻结直肠癌(CRC)肝转移生物标志物。方法 在公共基因芯片数据库(GEO)下载CRC数据,获得2个数据集共261个样本,其中包含167个非转移样本和94个转移样本,对两批样本混合后随机拆分成训练集195个样本(75%)和验证集66个样本(25%)。对两批数据芯片中提供的原始数据进行Robust Multi-chip Average (RMA)归一化处理,然后利用R-package Combat去除批次效应。筛选在转移组和非转移组 t 检验 P <0.05的基因(426个基因)进行CRC转移相关标志物筛选。结果 利用Lasso回归算法对426个基因进行重要性排序,按重要性排序筛选出了CD163L1、FAM210B、LGR5、LRRC16A、PIK3R3、PLEKHA6、PROSER2、RBBP9、SEMA6D、STOM、THBS1、ZNF544前12个基因作为潜在的CRC转移相关标志物。结论 通过生物信息学对基因芯片数据的分析,筛选出了CRC肝转移的相关生物标志物,可为后续研究提供参考。 【期刊名称】《精准医学杂志》
【年(卷),期】2018(033)006
【总页数】5页(P546-549)
【关键词】计算生物学;数据库,遗传学;结直肠肿瘤;肿瘤转移;肝肿瘤;生物标记,肿瘤
【作 者】金鑫亮;王一休;薛清凯;薛伟杰;宫之奇;牛兆建;朱呈瞻
【作者单位】[1]青岛大学附属医院胃肠外科,山东青岛266003;[1]青岛大学附属医院胃肠外科,山东青岛266003;[1]青岛大学附属医院胃肠外科,山东青岛266003;[1]青岛大学附属医院胃肠外科,山东青岛266003;[1]青岛大学附属医院胃肠外科,山东青岛266003;[1]青岛大学附属医院胃肠外科,山东青岛266003;[1]青岛大学附属医院胃肠外科,山东青岛266003;
【正文语种】中 文
【中图分类】R735.3
结直肠癌(CRC)作为最常见的消化道肿瘤之一,近年来在发展中国家的发病率快速增高[1]。我国CRC的发病率、死亡率近几年也在逐步上升,已成为巨大的公共健康问题。为了控制这种增长趋势,通过加强人筛选来预防和早期发现高危病人显得尤为重要,对于我
国东部地区以及60岁以上的高危人需要更加有效的预防和措施[2]。全世界每年约有120万例新发CRC病人被确诊,其中约50%的病人发生肝转移,未经的肝转移病人12个月内生存率约为零[3]。2005—2014年,美国的CRC的发病率每年下降约2%~3%,可能与新的筛选方案有关,也可能与病人较高的根治性切除率相关[4]。CRC的方法包括手术、放疗、化疗和靶向,当CRC局限于肠道时可通过手术治愈;然而,对于已经扩散的CRC或者术后复发的病人通常是无法治愈的[5]。CRCⅠ期病人的10年生存率为90%,但对于无法手术的Ⅳ期疾病病人,目前生存率只有5%[6]。对于肝转移病人,只有少数早期的病人适合外科手术切除[7]。美国癌症联合委员会将越来越多的分子标志物用于癌症精准的风险分层,从而更好地评估患者的方案和预后情况[8]。因此,开发有效的生物标记物进行特异的靶向是极其必要的。生物标志物能够早期提示CRC肝转移的情况,进而提高CRC的预后预测水平。本研究利用生物信息学分析方法从公共基因芯片数据库(GEO)中获取有关CRC肝转移的芯片,分析不同阶段组织的差异表达基因,从而为CRC肝转移的防治提供新的生物标志物和靶点。现将结果报告如下。
1 资料与方法
1.1 基因芯片数据的获取
在GEO数据库中检索与CRC转移密切相关的AFFY U133 PLUS2.0芯片数据,选取其中样本组织分期比较接近,同时数据量比较大的数据集作为分析数据集。其中GSE81980是早期(Ⅰ/Ⅱ)CRC样本集,主要包含150个样本信息(100个非转移样本和50个转移样本),GSE18105主要是Ⅱ/Ⅲ期肿瘤样本,包含111个样本(67个非转移和44个转移样本)。考虑到两批样本肿瘤时期分布不一样,将两批样本混合后随机拆分为训练集195个样本(75%)和验证集66个样本(25%)。
1.2 方法
1.2.1 数据预处理 利用Transcriptome Analysis Console软件对数据芯片中提供的原始数据(CEL)进行Robust multi-chip average (RMA)归一化处理,然后利用R-package Combat去除批次效应。根据AFFY U133 PLUS2.0的基因注释文件对探针进行过滤,去除同时注释到多个基因的探针,筛选平均信号值最高的探针信号值作为基因的表达值。然后筛选Average Exp≥6且Max Exp≥7的基因进行后续分析。
1.2.2 生物标志物的筛选 转移组与非转移组间比较采用t检验进行统计学分析,以P<0.05作为筛选条件。对筛选基因进行Lasso回归算法分析,根据Lasso算法的分值进行重要性排序,
筛选重要性排序前12个基因作为潜在的生物标志物。
1.2.3 模型的建立 运用逻辑回归算法,根据上述12个基因的表达情况进行机器学习分类。其中训练集195个样本,验证集66个样本(表1)。参数设置:最大迭代次数300,采用L2正则化,正则化系数λ设置为0.1。
表1 训练集和验证集模型构建样本类型训练集转移样本非转移样本验证集转移样本非转移样本转移样本TP:51FN:17TP:18FN:8非转移样本FP:30TN:97FP:6TN:34
TP:真阳性, FN:假阴性,FP:假阳性,TN:真阴性。
1.2.4 GSEA分析 采用GSEA 3.0版本进行分析。将GSE81980、GSE18105数据集中所有样品纳入GSEA,选择C2 CGP基因集进行分析。
1.2.5 预后分析 使用在线Surv Express(:8080/Biomatec/SurvivaX.jsp)对筛选出的12个生物标志物在CRC病人中的表达与预后的关系进行分析。
2 结 果
2.1 显著差异基因筛选
转移组和非转移组通过t检验分析,按照P<0.05作为筛选条件筛选到426个基因。用Lasso回归算法对426个筛选基因进行重要性排序,选重要性排序前12个基因作为潜在的生物标志物,分别为CD163L1、FAM210B、LGR5、LRRC16A、PIK3R3、PLEKHA6、PROSER2、RBBP9、SEMA6D、STOM、THBS1、ZNF544。见表2。
2.2 ROC曲线结果
根据受试者工作特征曲线(ROC曲线),同时兼顾灵敏度和特异度,ROC曲线下面积(AUC)>0.5的情况下,越接近于1,说明诊断效果越好,AUC<0.5时,说明无诊断价值。本研究中训练集AUC=0.87,验证集AUC=0.84(图1),其AUC>0.5,说明两数据集诊断效果非常好。
表2 重要性排序前12个基因基因描述RBBP9retinoblastoma binding protein 9FAM210Bfamily with sequence similarity 210 member BPROSER2proline and serine rich 2ZNF544zinc finger protein 544PLEKHA6pleckstrin homology domain containing A6
PIK3R3phosphoinositide-3-kinase regulatory subunit 3[Source: EntrezGene; Acc: 8503]LRRC16Aleucine rich repeat containing 16ASEMA6Dsema domain, transmembrane domain (TM), andcytoplasmic domain, (semaphorin) 6DCD163L1CD163 molecule like 1THBS1thrombospondin 1LGR5leucine-rich repeat containing G protein-coupledreceptor 5STOMstomatin
2.3 GSEA分析结果
将所有的样本数据进行GSEA富集分析,选择C2 CGP基因集进行分析。研究结果显示,非转移组394/2737基因集上调,转移组2343/2737基因集上调,其中多个转移相关的基因在转移组中表达上调。筛选GSEA显著性基因组时,多个转移相关基因集上调,以圆圈大小代表基因集的基因数目(图3)。肿瘤肝转移基因集:
ROESSLER_LIVER_CANCER_METASTASIS_DN NOM P值=0.002016129,
SWEET_KRAS_TARGETS_DN P值=0.004032258,
LOCKWOOD_AMPLIFIED_IN_LUNG_CANCER P值=0.0186722,
NIKOLSKY_BREAST_CANCER_15Q26_AMPLICON P值=0.018108651(见图2)。
2.4 预后分析
通过Surv Express网站对与CRC转移相关的CD163L1、FAM210B、LGR5、LRRC16A、PIK3R3、PLEKHA6、PROSER2、RBBP9、SEMA6D、STOM、THBS1、ZNF544等基因在CRC中的表达与预后的关系进行分析。结果表明上述基因高表达的CRC病人预后差。
图1 训练集和验证集AUC
A:Roessler_Liver_Cancer_Metastasis_Dnnom(P=0.002,FDR=1.0,ES=0.512);B:Sweet_Kras_TarGets_Dn(P=0.004,FDR=1.0,ES=0.544);C:Lockwood_Amplified_In_Lung_Cancer(P=0.018,FDR=1.0,ES=0.450);D:Nikolsky_Breast_Cancer_15q26_Amplicon(P=0.018,FDR=1.0,ES=0.743)。富集基因集的显著性以P<0.05判断。FDR:错误发现率。ES:富集分数。