一. LncRNA简介
LncRNA (long non-coding RNA)是一类转录本长度大于200nt的非编码RNA,最初被认为是基因组转录的“噪音”,通常伴随着mRNA协同转录,而转录水平往往低于mRNA,被当成是RNA聚合酶II转录的副产物。(lncRNA的平均长度比mRNA的3‘UTR长,而CLIP-Seq支持的lncRNA上的靶点却比3’UTR上的少了非常之多)。然而,近年来的研究表明,lncRNA能够通过多种方式发挥调控作用,参与了转录调控、组蛋白修饰、入核转运、染体失活等过程,其转录和功能失调可能导致多种疾病的发生。它代表了基因组存在人类知之甚少的“暗物质”。鉴于其功能的重要性和多样性,越来越多的科研人员参与到对其的研究中来,引用BioTechnicques 2013最新通讯上的话:"Long non-coding RNAs (lncRNAs) are everywhere these days",各种高端杂志上发表了大量的综述性和研究性文章。 目前,对lncRNA功能的发掘1%都不到,而且发现新lncRNA的数量还在急剧增长,各种lncRNA的数据库诸如noncode,LncRNA Disease等对lncRNA种类和功能进行收录和更新,而一些新的机制,比如ceRNA也在围绕lncRNA展开,可以看到,在这个领域的研究呈现出
一幅如火如荼的场景。
二、长链非编码RNA(lncRNA)靶标数据库及预测软件汇总
1. ChIPBase
提供长链非编码RNA的表达图谱和转录调控的全面鉴定和注释。整合了高通量的RNA-seq鉴定的lncRNA及其表达图谱和ChIP-Seq实验技术鉴定的转录因子结合位点。网站:deepbase./chipbase/
更新:2012年11月 2. LNCipedia
对人类的长链非编码RNA的序列和结构全面的注释。网站: 更新:2012年7月
3. lncRNABase
提供miRNA调控长非编码RNA(lncRNA)、假基因(pseudogene)和环状RNA(circRNA)的互作信息和ceRNA调控网络。这些调控互作网络信息是基于高通量的CLIP-Seq实验数据。网
站:starbase./mirLncRNA.php 更新: 2013年11月
4. lncRNAdb
提供有生物学功能的长链非编码RNA的全面注释。这是长链非编码RNA研究领域的大牛John mattick实验室构建的网站。网站:/ 更新:2011年7月
5. LncRNADisease
提供了文献报道的疾病相关的长链非编码RNA的注释。 网站:cmbi./lncrnadisease 更新:2012年7月
6. NONCODE
提供对长链非编码RNA的全面注释,包括表达和该团队开发的ncFANs计算机软件预测的lncRNA功能。这是非编码RNA研究的知名数据库,已经更新到第三版。网站: 更新:2012年1月
7. NRED
提供人和小鼠的长链非编码RNA在芯片数据的表达信息。这也是John mattick实验室构建的网站。网站:jsm-research.imb.uq.edu.au/nred/ 更新: 2009年
8. Arraystar
三. LncRNA调控网络 数据库
当前很多通过研究miRNA与lncRNA, protein(RNA结合蛋白)与lncRNA的调控关系来揭示非编码RNA的功能,热门研究之一是通过竞争性内源RNA(ceRNA)调控网络研究lncRNA的功能。相关的miRNA-lncRNA, protein-lncRNA, ceRNA调控网络资源包括
1. starBase平台(starbase./mirLncRNA.php ):
构建了最全面的CLIP-Seq实验支持的miRNA和lncRNA, Protein(RNA结合蛋白)和lncRNA (包括了lncRNA,pseudogene, circRNA)的调控关系网络,构建了ceRNA调控网络和提供了长非编码RNA功能预测工具。此外,starBase还构建了最全面的包含了14癌症类型(>6
000个样本)Pan-Cancer(泛癌)表达图谱和互作网络。[Nucleic Acids Res. 2014 Jan;42:D92-7.]
2. starScan软件工具 (mirlab./starscan/ ):
基于降解组测序数据预测动植物的各类小RNA(miRNA,piRNA和内源的siRNA)靶向的lncRNA,circRNA,pseudogene和mRNA的软件服务平台。目前已经整合了20个动植物的物种的降解组测序数据 [Nucleic Acids Res. 2015;43:W480-6.]。
3. DIANA-LncBase数据库(/LncBase ):
构建了基于单个CLIP-Seq数据和计算机预测的miRNA和lncRNA调控关系。[Nucleic Acids Res. 2013 Jan;41:D239-45.]
4. miRcode数据库(/mircode/):
瑞典哥德堡大学的研究人员开发的一种可以搜索的界面软件来预测miRNA的靶点,当前的版本覆盖了完整的GENECODE注释的转录组,包括10419条已经注册的lncRNA。
5. linc2GO数据库(www.bioinfo./~liuke/Linc2GO/index.html):
清华大学整合的lncRNA功能注释数据库,以竞争性內源RNA(ceRNA)假说为基础的人的lincRNA功能注释。
四.lncRNA研究思路
1. lncRNA筛选:
(1)通过lncRNA芯片或RNA测序等方法对多对疾病模型和对照样本组织进行lncRNA表达谱分析;
(2)通过生物信息学的方法筛选出具有表达差异的lncRNA,构建共表达网络,预测lncRNA的靶基因;
(3)通过PCR或Northern Blot技术对候选lncRNA验证,确定其表达差异。
2. lncRNA确定:
通过5' RACE获取lncRNA 5'全长,3' RACE获取lncRNA3'全长,最终拿到完整的lncRNA序列
3. 细胞分子水平研究
细胞水平表达:在细胞水平进行检测表达差异。
组织分布:检测不同组织、不同阶段表达特性。
表达水平动力学变化:比较不同处理条件下,如药物处理、诱导处理下,表达水平差异。
4. 功能研究:
(1)功能获得性研究:构建lncRNA过表达载体:原则上是将全长lncRNA定向克隆到表达载体上实现lncRNA的过表达。然而有些lncRNA很大或全长尚未分离,这时将视lncRNA在基因组上的定位采取不同的研究策略。
(2)功能缺失性研究:可通过siRNA、shRNA、反义核酸等方法沉默lncRNA,干预lncRNA后检测其对疾病相关基因表达的影响和对细胞表型如增值、凋亡、侵袭、转移等的
影响;
(3)采用RNA pull down、RNA-RIP(RNA Binding Protein Immunoprecipitation)、ChIRP-seq(Chromatin Isolation by RNA Purification)等方法检测与lncRNA结合的DNA、RNA、蛋白质。