生信文章分享！多组学数据、多重网络、PageRank

今天跟大家分享一篇去年发表在Computers in Biology and Medicine期刊上的文章，题目为Network-based prioritization of cancer genes by integrative ranks from multi-omics data

摘要：

作者提出一种整合的基于等级(rank-based)的方法(iRank)，通过一个统一的网络框架整合多组学数据来对癌症基因进行优先级排序。应用于TCGA的HCC数据集上。 iRank的核心是基于带有约束的改进PageRank算法。

数据：

出于概念验证(proof-of-concept，是对某些想法的一个较短而不完整的实现，以证明其可行性，示范其原理，其目的是为了验证一些概念或理论)的考虑，作者优先考虑从KEGG和Malacards汇编的HCC癌基因，共有33个基因与HCC的发生和发展有因果关系。 HCC多组学数据从TCGA下载。在匹配一致的样本信息后，最终选择了37个具有对照和肿瘤的样本。

iRank使用数据类型有RNA-Seq，DNA methylation，somatic mutation, miRNA-seq和copy number variant

作者使用多重网络(multiplex network)来组织相应的多组学数据。在跨级交互组(cross-level interactome)中，作者选择基因调控网络(GRN)作为核心层。作者从RegNetwork下载整合的人类GRN，并从miRTarbase下载了miRNA调控相互作用。另外使用STRING, Bind, BioGrid, HPRD, IntAct和MINT数据库构建了蛋白质相互作用网络(PPI)。

iRank框架：

iRank框架示意图

iRank框架，主要包含6步。 (a)(b)下载HCC数据，并从各种数据库中构建了多层级的综合生物分子网络。 (c)根据正常癌症样本的差异互信息(DMI)衡量边的权重，将网络与多组学数据进行整合。 (d)作者在加权多重网络基础上提出了约束PageRank算法(CPR），在每个网络中，节点的PR值通过CPR实现。 (e)(f)整合多个网络的等级后，获得每个节点的最终排名。图中R()代表节点在相应层级的排名，α，β，γ是相应权重。

(c)多重网络与多组学数据整合

通过计算一条边上两个节点X和Y之间的互信息，对多重网络边进行加权(weighing)，从而将分子数据映射到整合的多重网络上。定义多重网络每个边的差异互信息(DMI)为随后DMI通过min-max方法进行标准化，使用标准化后的DMI来权衡边以获得加权多重网络。

现以ORIrd为例说明(ORIrd代表所用数据为GRN+RNA-Seq+DNA甲基化)：

在RNA-Seq数据中找到7391和1843两个基因的37个正常样本数据，37个癌症样本数据。计算差异互信息(权重)。

在DNA甲基化和RNA-Seq数据中找到5934号基因的37个正常样本数据，37个癌症样本数据。计算差异互信息(权重)。

(d)在加权多重网络上实施约束PageRank算法(CPR)

在去除权重为0的边后，加权网络是一种特定内容网络(content-specific network)，然后通过CPR算法的PR值获得节点排序。

仍以ORIrd为例说明：

1)基因调控网络(RegNetwork)层面的转移矩阵构建

针对weighted_gene_regulation_network，统计source gene，target gene，再取并集得到基因总数NR。构造转移矩阵(稀疏)：首先构造三个全零的NR×NR的稀疏矩阵R, RW, RCS。如果两基因之间有调控关系，R和RCS对应元素为1，RW对应元素对DMI。然后对R每一列求和，如果某列和为n(不为零)，则R中该列元素除以n。加权转移矩阵为RTW=R.*RW。

2)DNA到RegNetwork的转移矩阵构建

针对DNA_to_RNA_regulation，统计基因交集个数D。构造转移矩阵(稀疏)：首先构造三个全零的NR×D的稀疏矩阵DR, DWR, DRCS。如果甲基化基因与网络基因之间有调控关系，DR和DRCS对应元素为1，DWR对应元素对DMI。然后对DR每一列求和，如果某列和为n(不为零)，则DR中该列元素除以n。加权转移矩阵为DRTW=DR.*DWR*(λ/2)。

最终得到(NR+D)长度的PR值。对于33个HCC癌基因，找到每个基因对应的PR值以及在所有基因中的排名。

PageRank算法以前就是Google的网页排序算法。 PageRank算法，对每个目标网页进行附上权值，权值大的就靠前显示，权值小的就靠后显示。 PageRank算法就是给每个网页附加权值。 PageRank算法借鉴学术界论文重要性的评估方法：谁被引用的次数多，谁就越重要。

PageRank算法的核心思想

(1)如果一个网页被很多其他网页链接到的话,说明这个网页比较重要，也就是PageRank值会相对较高。

(2)如果一个PageRank值很高的网页链接到一个其他的网页，那么被链接到的网页的PageRank值会相应地因此而提高。

一个网页的PR值，概率上理解就是此网页被访问的概率，PR值越高其排名越高。

结果：

给出了将网络和组学数据结合在一起的不同策略的等级箱型图。 ORI代表在原始GRN中获得的等级排名，意味着仅考虑GRN的网络拓扑。 ORIr代表通过RNA-Seq数据加权后的GRN基因排名。

还通过添加多级信息(即DNA甲基化(d)，体细胞突变(s)和miRNA(m))在多层网络中依次运行iRank。

作者发现，当在优先次序中整合更多分子水平的组学数据时，癌症基因往往会获得更高的排名。并且拥有更小的平均值和标准差。