⼀⽂解决各种ID转化成GeneSymbol
01
—
研究背景
很多⼩⽩在学习⽣信时,经常被各种基因ID,探针ID弄糊涂,和⼩编当时在学习⽣信时差不多,今天⼩编来简要的说说他们之间是怎么回事。 所谓的各种探针ID,是各个芯⽚制造⼚商在设计芯⽚序列的时,将⼈类基因组上的编码序列设定为特定的符号标识。同样,基因ID也是各个数据库在存储基因时,给基因⼀个特定的符号标识。以上所提的基因ID或探针ID只适应于某个特定的数据库或某个特定的芯⽚制造⼚商,不具有通⽤性。 为了解决这个问题,⼈类基因组组织基因命名委员会(HGNC)对基因进⾏命名描述的⼀个缩写标识符,即平时所见到的Gene Symbol,这些Gene Symbol都是唯⼀的[1]。所以,平时,在适⽤于芯⽚数据和表达普数据时,第⼀步是将芯⽚数据或者表达普数据进⾏注释,所谓的注释,就是将各种ID转化为Gene symbol。
但是,对于初学者来说,将⼀个表达矩阵注释出来,还是⼀个不⼩的困难,拿RNA-seq表达谱探针ID注释过程来说把,并不是每个探针ID都对应的⼀个Gene symbol,因为同⼀基因会对应不同的转录本,⽽且基因会出现每个别碱基的突变。所以在注释时,往往需要很复杂的计算过程,如对⼀个探针对应对多个基因的探针,这样的探针应该删除,对于多个探针对应⼀个基因的探针,应该将这⼏个探针的表达值进⾏合并(如去中值,均值)等等。这些往往需要很强的编程能⼒和逻辑思维,但是对于⽣信⼩⽩来说,这是个挑战。
为了解决⽣信⼩⽩的困难,我们公司研发的⼀个⽹页板的⼩⼯具,⾥⾯内置了包括Ensembl、GPL570等常⽤的注释平台⽂件,你只需要上传⾃⼰的表达谱矩阵,点击⿏标即可完成各种ID之间的转换,⾮常⽅便。这么好的平台,亲们准备好了吗,和我⼀起去体验吧。
02
—
使⽤⽅法
1.打开⽹页:
2.输⼊⽂件格式:
3.参数设置,对于TCHA数据中的,Ensembol ID 平台之处
4.查看任务是否完成:点击到个⼈中⼼,任务中⼼,查看任务是否完成,如下图所⽰。
5.输出结果⽂件,如下图所⽰
[1] Shows TB, McAlpine PJ, Boucheix C, Collins FS, Conneally PM, Frézal J, et al. (1987). "Guidelines for human gene nomenclature. An international system for human gene nomenclature (ISGN, 1987)" Cytogenetics and Cell Genetics. 46 (1–4): 11–28.