电子基因表达谱分析平台的建立及其应用

阅读: 评论:0

第40卷第2期2006年2月
浙 江 大 学 学 报(工学版)
Journal of Zhejiang University (Engineering Science )
Vol.40No.2
Feb.2006
收稿日期:20050511.浙江大学学报(工学版)网址:www.journals./eng
基金项目:国家自然科学基金资助项目(30371605,30370636).
作者简介:徐静(1979-),女,浙江杭州人,硕士生,主要从事肿瘤分子病理学及生物信息学研究.E 2mail :X_J _
通讯联系人:来茂德,男,教授,博导.E 2mail :lmp @
电子基因表达谱分析平台的建立及其应用
徐 静1,吕炳建1,张 昊2,陈 俭1,朱益民1,谷雪梅1,来茂德1
(1.浙江大学病理学与病理生理学系,浙江杭州310031;2.浙江大学计算机科学与工程学系,浙江杭州310027)
摘 要:建立了利用美国国立生物技术信息中心(NCBI )序列表达标签(EST )数据库(dbEST )电子EST 构建特定组织电子基因表达谱的生物信息学分析平台,并利用该平台构建了人正常结直肠组织电子基因表达谱.从dbEST 获取人正常结直肠电子EST 20370条,利用自行开发的G etUni 程序包,与下载于本地的人类同一基因转录子
(Uni Gene )数据库匹配,获得了含有4196个非冗余基因的正常结直肠组织电子基因表达谱.经在线基因组分析工具(Webgestalt )证实,表达谱中97%的基因在结直肠组织中表达,除涉及细胞生长、发育、分化、凋亡等基因外,还包括人正常结直肠功能特异性基因;3%未得到Webgestalt 证实的基因经手工回溯查,确证其EST 均来自人正常结直肠.G etUni 程序包是一个高效准确的高通量电子EST 数据分析平台,构建的人正常结直肠组织基因表达谱将为结直肠特异性标志物的筛选提供大量数据.
关键词:dbEST ;Uni G ene ;结直肠;基因表达谱;生物信息学;Perl 5.0;G etUni 程序包
中图分类号:TP317;TP319;Q343.1    文献标识码:A     文章编号:1008973X (2006)02018606
Construction and utilization of analysis platform for
digital expression prof ile
XU Jing 1,L V Bing 2jian 1,ZHAN G Hao 2,C H EN Jian 1,ZHU Y i 2min 1,
GU Xue 2mei 1,L A I Mao 2de 1
(1.De partment of Patholog y and Pathophysiology ,Zhej iang Universit y ,H angz hou 310031,Chi na;
2.De partment of Com puter Science and Technology ,Zhej iang Universit y ,Hangz hou 310027,China )
Abstract :A bioinformatic analysis platform for specific expression profiles based o n expressed sequence tag (EST )database (db EST )of National Center for Biotechnology Informatio n (NCB I )was const ructed.Based on t he platform ,a human normal colorectal exp ression profile was obtained.20370normal colorec 2tal ESTs were downloaded f rom t he db EST and an exp ressio n profile including 4196non 2redundant genes was obtained via an in 2house software package.97%of all t he genes in t he expression p rofile were con 2firmed to be exp ressed in human normal colorect um by WEB 2based gene set analysis toolkit (Webgestalt )analysis.The profile contains growt h ,dev
elop ment ,p roliferation and apoptosis related genes and specific f unctional genes of colorect um .The remaining 3%genes were also confirmed to be exp ressed in normal colorect um by manual search in db EST.Therefore t he Get Uni software package is a reliable and powerf ul met hod for specific gene expression profiles based on electronic EST analysis.The expression profile of colorect um here will be of great significance in highlighting t he colorect um specific molecular markers.K ey w ords :db EST ;Uni Gene ;colorect um ;gene exp ression p rofile ;bioinformatics ;Perl    5.0;Get Uni software package
  序列表达标签(exp ressed sequence tag,EST)是一个基因的部分转录片段,通过构建EST文库可以较大规模地获得基因表达信息,因此EST策略是各物种基因组研究的主要方法,广泛应用于基因的预测、表达图谱的构建、芯片及表达差异的研究[122].但是通过生物学实验方法获取EST费时费力,不仅受到通量和规模上的限制,更受到特定样本的制约,故难以全面反映相应组织或疾病基因表达的整体情况.与此相比,美国国立生物技术信息中心(NCB I)数据库db EST中收录的电子EST,涉及了全身各组织及器官、不同生理或病理状态以及不同发育阶段,为研究提供了庞大而相对可靠的数据.NCBI Uni Gene则是一个将dbEST的序列进行聚类的数据库,代表同一基因的不同EST被归入同一Uni2 Gene,故一个U ni Gene可以近似代表一个基因①. Uni Gene数据库中包含了对基因的描述、基因代码、染体定位等注释信息,为大规模地研究基因表达提供了支持[3].对这些数据库的整理和挖掘,将为生物医
学的研究带来新思路、新信息[4].本实验室利用Perl5.0程序语言开发了Get U ni程序包,建立了利用电子EST构建基因表达谱的生物信息学分析平台,并利用该平台获得了人正常结直肠组织基因表达谱.
1 材料与方法
1.1 数据获取
登陆NCBI db EST数据库(2005203208)②以关键词“(homo sapiens OR human)AND(colon OR rectal OR colorectal OR large bowel)AND nor2 mal”查人正常结直肠组织电子EST,以FASTA 格式(图1)保存于本地计算机.登陆NCBI U ni Gene 数据库F TP(2005203211)③下载Hs.data文件格式(U ni Gene Build#181),保存于本地计算机(见图2).
1.2 数据处理
1)利用Perl5.0程序语言于Linux(Red Hat 9.0)操作系统下编写Get U ni程序包,包含GetAc2 cNo.pl、Get Uni.pl、rep_Get Uni.pl共3个子程序该软件包已获得软件登记,源代码未公开,如有需要,可E2mail与作者联系.)
2)利用GetAccNo.pl子程序获取EST的序列号.
3)利用Get U ni.pl子程序获取该EST所属Uni Gene的信息:Uni Gene号码、基因名称、基因缩
略符、染体定位、EST序列数量.以该子程序为例,简要概括其算法如下:将获得的EST序列号(图1中“gb”引导的号码)放入哈希表中,然后根据自行设置的规则查Uni Gene Hs.data文件中“ACC”、“ID”、“TITL E”、“EXPRESS”等关键字后的信息,见图2,当查到符合规则的信息后遍历哈希表表内
>gi|23258975|gb|BU585010.1|BU5850107931109H1 COL NDIS02Homo sapiens cDNA clone79311095’,mRNA sequence GACT GA GTCTCT GAA GACCACA GGGACA GGT CTCT T TAA TA GCAA GTCTCACCA T TCCCT T T T T TA GA GAAAA GGTA T T GTA GCCCACCCTCCACCCCGCT GT T
T T TCT TAAA T T T GCA GAACT TCAAA T T GGCTA T TCC TCT T GCAAA T GAACCCT TAAA GTACA GT GT TA T T TA A GAA TCT TCCA GA GGCA GTCAACA GACT TA TACACT AA GGGCA T T T T T GGT T T T TA GCT T GT TCAAAAACA G A GGCCA GCACA GA T GACA T T T TA GA TACACTCTAAA T T GA GAA T GGT GTCTA GT GGAACA T GT T TA T T TAA G CCA GTA GA T TCCT TA TCTA GAAA GCA GGT GA GCTA G CCCT TA GA GAA GGCT GTCCCGGGGCCCGCA GA GGT G CCCT TACT GA GGT GACA GCCTCAC
图1 FASTA格式文件格式
Fig.1 Format of FASTA document
ID     Hs.458445
TITL E LOC351981
GEN E na
C YTOBAND5q13.2
LOCUSL IN K351981
EXPRESS pooled;placenta;lung;Pooled human
melanocyte,fetal heart,and pregnant uterus
;prostate
PRO TSIM OR G=Caenorhabditis elegans;PRO T GI=
17556871;PRO TID=ref:N P_498687.1;
PCT=37;AL N=96
PRO TSIM OR G=Drosophila melanogaster;PRO T GI=
17647365;PRO TID=ref:N P_523446.1;
PCT=38;AL N=97
SCOUN T20
SEQU ENCE ACC=XM_305306.1;N ID=g3*******;
PID=g3*******;SEQ T YPE=Model
SEQU ENCE ACC=AI183681.1;N ID=g3734319;
CLON E=IMA GE:1739036;END=3’;L ID
=415;SEQ T YPE=EST
SEQU ENCE ACC=AI130706.1;N ID=g3600722;
CLON E=IMA GE:1709387;END=3’;L ID
=424;SEQ T YPE=EST
图2 U niG ene H s.d ata文件格式
Fig.2 Format of Uni G ene Hs.data document
781
第2期徐静,等:电子基因表达谱分析平台的建立及其应用
②③bi.v/entrez/query.fcgi?DB=
unigene.
bi.v/dbEST
ftp://ncbi.v
的信息,如果哈希表中存在符合规则的EST序列号,则输出这组信息.否则跳过.图2中,“ID”后为Uni Gene编号;“TITL E”为基因描述;“EXPRESS”表示该基因的组织分布;“SCOUN T”后为该Uni Gene含有的EST序列量).
4)利用rep_Get Uni.pl子程序记录U ni Gene 信息的冗余度,即频数,并保留非冗余信息.
上述各步均可在Linux操作系统或安装有Perl 解释器的Windows操作系统下运行,最终生成的文件以Excel格式保存(具体实验流程见图3,Get U ni 程序包的功能及命令见表1)
.
图3 实验流程图
Fig.3 Experiment flow chart 表1 G et U ni程序包各子程序功能及命令列表
Tab.1 Functions and commands of subprograms in GetUni software package 子程序名功能具体命令
GetAccNo.pl 获取FASTA格式文件中电子EST的序列号,
生成相应EST序列号文件
perl get_AccNum.pl〈FASTA格式文件文件
名〉〈EST序列号文件文件名〉
G etUni.pl 利用EST序列号从Hs.data文件中获取相应
Uni G ene的信息,生成相应文件
perl getUni G ene_noJ.pl〈EST序列号文件文
件名〉〈Hs.data文件文件名〉〈Uni Gene信息文
件文件名〉
rep_GetUni.pl 记录Uni G ene信息中重复信息的频数,生成非
冗余Uni G ene信息文件
perl rep_Uni Gene.pl〈Uni Gene信息文件文件
名〉〈非冗余Uni Gene信息文件文件名〉
1.3 数据分析
利用基因代码进行Webgestalt①在线分析.
2 实验结果
2.1 G et U ni程序包处理结果
从NCB I db EST共下载20370条人正常结直肠电子EST,经Get Uni程序包各子程序处理后,其中104
58条得到Uni Gene聚类,纪录各U ni Gene 的频数后,获得4375个非冗余Uni Gene,去除相同基因代码后获得4196个非冗余基因.非冗余基因信息输出界面见表2.2.2 结直肠基因表达图谱的分析
4196个非冗余基因构成了人正常结直肠组织的基因表达谱,对其进行Webgestalt在线分析,获得了基因的组织分布图(见图4,其中n为表达基因的数目).表达谱中4075个(97%)基因被证实在结肠中表达,且在Webgestalt所有组织中结直肠组织含有表达谱中的基因最多.剩余3%未得到证实的基因,利用其EST序列号于dbEST中进行回溯性查,查结果表明这些EST的确均来自正常人结直肠.利用Webgestalt对表达谱中的基因按其生物学功能进行大致分类,部分分类及举例见表3.所有结果可于本实验室网页上获得:http//pat hology@
表2 非冗余基因信息输出界面
Tab.2 Format of document for non2redundant genes
A B C D E F G
EST序列号Unigene号码基因名基因缩略符染体定位EST数量频数AW578148Hs.335057Septin222Sep2q3716721 AW841781Hs.435326Actin2like6A ACTL6A3q26.333691 AW844606Hs.508148Abl2interactor1AB T110p11.24871 AW842498Hs.542480Mucin(MUC3)ACAD93q21.341
B G980454Hs.515947A G1protein A G11q21.13241
AW842233Hs.494173Annexin A1ANXA19q122q21.216931
①v/Webgestalt/
881浙 江 大 学 学 报(工学版)           第40卷 
图4 在基因表达谱中非冗余基因的Webgestalt组织分布图
Fig.4 Tissues expression bar chart for non2redundant genes in expression profile by Webgestalt
表3 正常结直肠基因基于生物学功能重要分类及举例
Tab.3 Key biological f unction-based classification and examples of genes expressed in normal colorectum 分类基因数量比例/%基因举例(基因代码)
细胞增殖120  2.9细胞死亡123  2.9细胞分化51  1.2物质运输49111.7氧化供能44  1.0 DNA代谢150  3.5pre2B2cell colony enhancing factor1(PB EF1)
tumor protein p53(Li2Fraumeni syndrome)(TP53)
death2associated protein kinase1(DA P K1)
programmed cell death5(PDCD5)
insulin2like growth factor binding protein1(IGFBP1) growth arrest2specific6(GAS6)
calcium/calmodulin2dependent protein kinase ID(CAM K1D) adaptor2related protein complex2,sigma1subunit(A P2S1) phosphof ructokinase,muscle(PF KM)
glyceraldehyde232phosphate dehydrogenase(GAPD)
Ligase I,DNA,A TP2dependent(L IG1)
Chromodomain helicase DNA binding protein6(CHD6)
3 分析与讨论
3.1 生物信息数据库及数据
EST是功能基因组研究的重要手段.随着生物信息数据库中电子EST的累积,将电子EST应用于生物医学的研究成为又一热点.近年来,国外研究人员利用癌症基因组解剖计划(cancer genome anatomy p r
oject,C GA P)的电子EST数据库,构建了脑胶质瘤、前列腺癌、卵巢癌等特定组织或疾病的基因表达谱.因此,在前期成功构建核酸自动分析平台(核酸序列分析软件V1.0,软件登记号2005SR01351)的基础上,建立了基于NCB I dbEST 数据库的本地化基因表达谱分析平台,为功能基因组学的研究提供了新思路、新方法[5].
生物学数据(DNA、RNA、蛋白质序列等)保存在大量的数据库和文本文件中,手工获取和分析所需的数据不但耗时耗力,更易导致错误.同时由于各实验室获得数据及存贮数据的方式不同,造成了在不同数据库中获取和比对数据的困难,故借助计算机程序自动提取或比较不同来源的数据成为分析生物学数据不可或缺的方法[6].EST FASTA格式文件和Uni Gene Hs.data文件有固定格式.EST FASTA格式文件中“gb”引导的号码为EST的序列号,该序列号在NCBI dbEST中有严格排序和统一格式(如图1中“BU585010”).U ni Gene Hs.data 文件中包含得到Uni Gene聚类的EST的序列号,即图2中“ACC=”引导的号码,这就使得提取这两个文件中匹配的信息构建基因表达谱成为可能. 3.2 电子基因表达谱中数据的分析
经平台分析获得的4196个非冗余基因组成了
981
第2期徐静,等:电子基因表达谱分析平台的建立及其应用
人正常结直肠基因表达谱,从整体上反映了正常结直肠组织基因的表达情况.利用Webgestalt对这些基因进行了生物学功能大致分类,除细胞生长、凋亡、分化等相关基因外(见表3),还包含了与人正常结直肠功能密切相关的基因,即组织相对特异性基因,如与肠道分泌相关的黏液蛋白基因家族(Mucin 1~12);与物质吸收相关的溶质转运家族(solute carrier1、4、6、7).同时,在线Webgestalt分析获得的基因表达组织分布图显示,表达谱中4196个非冗余基因中有4075个(97%)在结肠中表达,是所有Webgestalt收录的组织中包含表达谱中基因最多的组织,排在首位.该结果有力地证实了表达谱的准确
性及特异性.此外,在对获取的Uni Gene进行频数统计后发现,10458个Uni Gene有多少不等的冗余,冗余度体现在频数值上,反映了该基因在正常人结直肠中表达的相对丰度.因为基因的表达丰度越高EST也就越多,故频数值高.比如上述两类在正常结直肠中有着高表达基因,频数值普遍较高.其中黏液蛋白基因11(Mucin11)的频数值高达146.该基因的表达呈现明显的组织特异性,在结肠组织中显著高表达,居所有组织的首位①.因此,频数值为挖掘组织特异性基因提供了有利的参考.
在Get U ni过程中,有48.6%的电子EST无相应的Uni Gene聚类,该比例与已有的利用电子EST 文库构建基因表达谱的研究结果相近[2].这是由于EST为单次测序所得,存在测序错误;并且现有的构建文库的生物学技术难以除去来自线粒体DNA、非人类序列等的污染[7].此外,有些EST序列过短(<100bp);有些仅为无意的重复序列;有些则缺少如Poly2A尾等明确的基因定位信息.这些EST被Uni Gene聚类系统质检为低质量序列,不参与聚类,故没有相应的Uni Gene.当然这些EST中也许含有新基因或者表达丰度低的基因,但依靠现有方法无法对其进行后续研究,因此在利用平台分析时,无Uni Gene聚类的电子EST不予后续分析.此外,由于Webgestalt中基因的组织分布信息来自C GA P 的EST数据库[8],而平台分析利用的EST来自NCB I dbEST.db EST不仅收录CGA P的EST,还收录其他计划产生的EST文库及一些个人提交的数据[9],因此表达谱中有3%的基因不能得到Webgestalt的证实.利用代表这些基因的EST序列号,于dbEST中进行手工回溯性查,证实其的确来自人正常结直肠组织,故这些基因也在正常结直肠中表达.该结果表明分析平台构建的表达谱比在线分析更准确而全面地涵盖了数据.3.3 电子基因表达谱分析平台的优缺点
本实验中构建基因分析平台所用的Get Uni程序包是在Linux(Red Hat9.0)操作系统下通过Perl5.0语言编译的,可在普通PC机上的Linux或安装Perl解释器的Windows操作系统下简便快速地运行.处理2万条FASTA格式的电子EST得到最后非冗余的基因信息只须数分钟.相对于生物学方法通过构建EST文库、测序、拼接、比对的庞大工作量来说,不仅大大节省了时间,而且提高了准确率.因为NCBI dbEST中的电子EST在收录时经过严格的质量控制,同时由于这些EST来源于不同的实验室、不同的样本,通过不同方法获得,最大程度地反映了特定组织或疾病基因表达的整体情况,克服了单一样本建库缺乏代表性的缺点.此外,可以通过对程序源代码的简单修改来处理不同格式的文件,输出不同信息以满足实验要求.同时该软件包还可继续容纳子程序,用于不同表达谱中数据的比对.
现有的生物信息学方法如电子差异显示(digital differential display,DDD),也被用于差异基因的挖掘.但由于涉及基因的表达丰度,只能利用非标化的并且是以文库形式提交的EST,这使得数据涵盖不全,不能全面地反映单个组织或疾病基因表达的整体情况[10211].与此相比,由于本平台利用的EST来自dbEST,使得数据远远大于已有的研究,并经Webgestalt分析证实经平台获取的基因准确率高,特异性好,数据涵盖量大,较全面整体地反映了人结直肠正常组织的基因表达情况.当然本平台也存在着不足,与所有利用网络数据进行分析的方法一样,数据有相对滞后性,需要定期更新.但是应该注意到,人类基因组计划的完成,dbEST及Uni Gene数据库中的数据以趋于完善与饱和,其更新的速度与程度都将趋于缓和.对现有数据的整理发掘将是今后研究的重点和热点.即使需要数据更新,由于本平台的高效快速性,也能在极短的时间内完成.
4 结 语
Get Uni程序包是一个本地化的高效准确的高通量电子EST分析平台,具有广泛适用性.该平台可以快速准确地处理任何来自NCB I db EST的数据,构建特定组织、疾病或发育阶段的基因表达谱,
091浙 江 大 学 学 报(工学版)           第40卷 
①bi.v/Uni Gene/ESTProfile

本文发布于:2023-05-12 07:08:13,感谢您对本站的认可!

本文链接:https://patent.en369.cn/patent/4/96449.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:基因   表达   组织   数据   平台
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2022 Comsenz Inc.Powered by © 369专利查询检索平台 豫ICP备2021025688号-20 网站地图