转录调控必知数据库:ENCODE



ENCODE

(Encyclopedia of DNA Elements, https://www.encodeproject.org/),翻译成中文就是 DNA元素百科全书,其主要目的是为了了解这个基因组当中的调控反应,主要方法还是利用高通量的测序技术来进行分析的。

根据上图,当前的ENCODE通过各种测序数据反映了基因组变化的过程,分别通过

Hi-C观察三维基因组

ATAC-seq/chip-seq研究基因的转录调控

甲基化芯片研究甲基化的调控

RNA-seq研究基因表达的变化

RIP-seq研究转录后调控的信息

我们可以通过ENCODE数据库检索我们想要的数据。与许多转录调控数据库类似,它们也是在分析从ENCODE数据库获得的目标原始数据后构建的自己的数据库。



数据统计

目前,ENCODE数据不仅包括人类数据,还包括四个物种的数据,包括人类、老鼠、蠕虫和苍蝇



我们可以点击相关的数据类型,得到这类ENCODE数据的所有数据。比如我们点击DNA结合就可以看到数据库中所有的数据。




数据检索


同样,我们可以根据自己的目的检索所需的数据。


我们在这里搜索:CTCF。你可以看到与CTCF相关的数据集。前四个是不同物种的数据chip-seq。


我们可以选择CTCF(智人),可以看到人类物种中所有与CTCF相关的数据集。这里会显示不同组织的数据,我们可以选择要查看的组织类型。




特定数据集介绍对于不同的检索方法,我们可以介绍特定数据集的内容。数据导入的基本格式和基因一样。在这里,我们用与CTCF相关的芯片序列数据来简单介绍一下:ENCSR331OGX。

数据汇总信息。这里可以看到数据集的基本信息,包括患者的基本信息。ENCODE的数据会放到GEO中,所以我们实际上可以在GEO中检索ENCODE的数据。



具体数据文件。在这里,我们可以看到数据的所有原始数据,包括测序数据的fastq数据和基于ENCODE分析过程分析的所有bam文件和peak文件。



数据的峰值文件可以通过基因浏览器查看。之前介绍过一个不错的基因浏览器。ENCODE默认是UCSC的基因浏览器,点击Visualize即可查看。



数据处理流程:ENCODE提供了一个标准的数据处理流程。如果你想用他们的数据结果,你可以知道怎么处理;同时,如果我们有自己的数据,不知道如何处理,也可以参考这个数据处理流程。




数据库总结

这是对ENCODE基本介绍。这个数据库主要是偏向原始数据存储的数据库。如果需要分析原始数据,可以从这个下载数据。但如果想直接搜索转录调控的结果,可以使用一些基于ENCODE数据分析过的数据库,如Chea3[数据库推荐]多基因转录因子调控网络预测或 cistome 等。,其中只提到了ENCODE数据。

建议如果你想设计一个项目,可以使用那些处理ENCODE比较好的数据库,这样你只需要搜索就可以得到结果。如果要定制分析,最好下载原始数据,但是对分析能力的要求更高。


发布时间:2020-10-16 15:12