DSML：深度子空间相互学习模型(用于癌症亚型预测)_tzc_fly的博客-

最后更新：2022-12-30 09:20:19

背景描述
模型架构
- 数据表示
- - Single level omics data representation learning model(单级组学数据表示学习模型)
  - Multi-level omics data representation learning model(多级组学数据表示学习模型)
  - DSML for partial level omics data(部分水平组学数据的 DSML)
- Spectral clustering谱聚类
- - 认识谱聚类
  - 思考：自表示权重与聚类的联系
  - DSML中的谱聚类

背景描述

DSML来自论文"Deep Subspace Mutual Learning For Cancer Subtypes Prediction"，其采用深度神经网络同时学习单个组学数据和整体多组学数据中的子空间结构，从而通过对多级、单级和部分级组学数据进行聚类来预测癌症亚型。

过去，癌症被认为是单一类型的疾病，通常通过肿瘤的形态学外观来诊断。这种策略存在严重的局限性，即一些肿瘤具有相似的组织病理学外观，但它们具有不同的临床表现并代表不同的治疗结果。如今，来自现代转录组学研究的越来越多的证据支持每个特定癌症由多种亚型组成的假设。癌症亚型预测一直是癌症治疗的关键，因为它可以诱导针对不同亚型的靶向特异性治疗，并有助于提供更有效的治疗，最大限度地减少对患者的伤害；

通常，使用多个数据级别的整体分析比使用单数据级别的分析更强大；在相互学习中，从一组未经训练的学生网络开始，它们同时学习，共同解决任务。这里，论文引入了深度相互学习机制来充分利用不同级别组学数据中包含的互补信息。在多水平组学数据整合分析中，每个学生对应于每个水平数据所学习的模型。每个学生的独立学习目标是从给定的单水平数据中准确地辨别特征，而所有学生的一致学习目标是对患者进行聚类。

因此，论文提出了一种深度子空间互学习（DSML）方法来捕获单组学数据和整体多组学数据中的子空间结构，用于癌症亚型预测。DSML构建了包含几个分支模型和一个集中模型的深层网络。首先，在每个分支模型中利用自动编码器和数据自表达层对隐藏在每个层级数据中的潜在特征表示进行编码。其次，使用集中模型来揭示整个数据中的全局子空间结构。最后，提出了一个支持相互学习的联合优化问题，以实现对每个分支和共识损失的平衡强调，基于获得的全局子空间结构通过谱聚类预测癌症亚型。

模型架构

DSML主要由两个模块组成：

深度子空间互学习模型的数据表示；
谱聚类算法预测癌症亚型；

数据表示

Single level omics data representation learning model(单级组学数据表示学习模型)

子空间聚类是指揭示数据的底层结构并将数据聚类到其固有的多个子空间中的任务。子空间聚类的主流策略是用稀疏约束的剩余数据点的线性或仿射组合来表示每个数据点，即数据线性自表达。

随着大数据时代的到来，产生了大量不一致数据、混合类型数据和部分值缺失的数据等。典型的聚类算法对这些数据集聚类时遇到难题。例如在高维稀疏数据中，簇类只存在部分属性构成的子空间中，这些数据集从全维空间来讲根本不存在簇类。一般来说，样本之间的差异往往是由若干个关键的特征所引起的，如果能恰当的找出这些重要特征，对建立合理的聚类或分类模型都将起到积极的作用。因此提出了子空间聚类。

子空间聚类算法是指把数据的原始特征空间分割为不同的特征子集，从不同的子空间角度考察各个数据簇聚类划分的意义，同时在聚类过程中为每个数据簇寻找到相应的特征子空间。总得来说，子空间聚类的任务主要有两个：

1）发现可以聚类的子空间（属性子集）；
2）在相应的子空间上聚类；

子空间聚类算法实际上是将传统的特征选择技术和聚类算法进行结合，在对数据样本聚类划分的过程中，得到各个数据簇对应的特征子集或者特征权重。

假设 $X=[x_{1},x_{2},..,x_{N}]\in R^{D\times N}$ 是一个有 $N$ 个样本（每个样本 $D$ 维）的集合， $N$ 代表病人的数量，为了将样本分离到各自的子空间中，每个数据 $x_{i}$ 可以表示为一种自表示方式： $x_{i}=Xc_{i},c_{ii}=0$ 其中， $i = 1, 2, . . ., N$ ， $c_{i}=[c_{i1},c_{i2},..,c_{iN}]^{T}\in R^{N}$ 是自表示系数，其中约束 $c_{ii}=0$ 排除了将点表示为自身线性组合的简单情况。

为了获得唯一解，上述方程可以表述为以下优化问题： $min_{c_{i}}||c_{i}||_{q}$ $s.t.x_{i}=Xc_{i},c_{ii}=0$ 其中， $q$ 控制了自表示系数的稀疏性，我们可以写出紧凑的矩阵形式： $min_{C}||C||_{q}$ $s . t . X = X C, d i a g (C) = 0$ 其中， $C=[c_{1},c_{2},...,c_{N}]\in R^{N\times N}$ ，进一步，将等式约束放宽变成正则化项，问题转化为： $min_{C}||C||_{q}+\frac{\lambda}{2}||X-XC||_{F}^{2}$ $s . t . d i a g (C) = 0$ 上面问题是基于矩阵的优化问题，因此它们只能反映线性子空间中的自我表达特性。尽管基于核的子空间方法在努力处理非线性情况，但核函数的选择和设计仍然缺乏明确的物理意义和理论方向。因此，论文采用深度子空间聚类网络 (DSCN)来实现非线性自表达。 DSCN 的模型结构如下图所示。 DSCN 包含编码器层、自表达层和解码器层。

fig1

子空间的探索是通过解决以下优化问题来实现的： $min_{Z,C}\frac{1}{2}||X-\widehat{X}||_{F}^{2}+\lambda_{1}||C||_{q}+\frac{\lambda_{2}}{2}||Z-ZC||_{F}^{2}$ $s . t . d i a g (C) = 0$ 其中， $\widehat{X}$ 表示整个深度网络重构的数据， $Z$ 表示编码器输出的特征， $\lambda_{1},\lambda_{2}$ 是平衡参数；最小化第一项，它测量所有数据的平均重建损失，可以控制数据表示期间的信息损失。第二项和第三项对应于前面一直讨论的优化目标；

自表达层中的节点通过线性权重（即 $C$ ）完全连接，没有偏差bias和非线性激活函数。自表达层的输入数据是涉及非线性激活函数的编码器层的输出，因此，尽管自表达层仅使用线性连接，但整个网络仍将实现数据的非线性自表达；

自表达层中两个对应点之间的权重应设置为零，即约束 $d i a g (C) = 0$ ，在上图中用红色虚线表示；

Multi-level omics data representation learning model(多级组学数据表示学习模型)

定义 $\chi=[X^{(1)},X^{(2)},...,X^{(V)}]$ 表示一组多视图样本，其中每个视图对应一个级别的组学数据。其中有 $X^{(v)}=[x_{1}^{(v)},x_{2}^{(v)},...,x_{N}^{(v)}]\in R^{D_{v}\times N}$ 代表第 $v$ 个视图（view）下的单级组学数据；

论文的DSML架构如下：

fig2 通过分支部分（Branches）联合学习每个单个视图的潜在个体表示和相似性，以及通过集中主干部分（Main-stem）学习跨多个视图的整体表示和相似性。从图中可以看出，分支和主干部分由DSCN组成。

具体而言，通过特定视图编码器自动提取每个视图的内在表示，同时通过特定视图的自表达方式计算视图内数据的相似性。换句话说，为每个视图数据构建一个分支，即 DSCN。然后从每个视图中提取的表示被集成为串联的形式后输入到主干部分。显然，来自所有视图的数据的完整表示和相似性分别通过图中的多视图编码和多视图自表达部分整合和计算；

DSML的这种联合优化能够实现不同级别数据之间的相互学习。这些分支可以看作是学生的集合，各分支的独立学习目标是获得每个组学数据的个体表征和相似性，而主干的一致学习目标是获得整体水平组学数据的相似性，在训练过程中，他们都将得到改进。该联合优化问题的目标函数为：

fig3 在多视图的背景下， $v$ 表示 $v$ 级个体组学数据的分支， $M$ 表示集成数据的主干；其中， $X^{(M)}=[Z^{(1)T},Z^{(2)T},...,Z^{(V)T}]^{T}$ ， $Z^{(v)}$ 是第 $v$ 个分支的编码器输出（第 $v$ 个组学数据的提取特征），分支和主干结构的网络在其设计中结合了联合优化，可以实现相互学习；

每个分支的独立学习目标是获得每个组学数据的个体表征和相似性，而主干的一致学习目标是获得整体水平组学数据的相似性。 DSML 是一种前馈神经网络，因此每个组学数据的表示，即 $Z^{(v)}$ ，会影响主干部分内的连接权重。 DSML 通过反向传播策略进行优化，因此主干部分的学习反过来影响每个分支的 $Z^{(v)}$ 。此外，表示 $Z^{(v)}$ 也影响相似关系，即自表达权重 $C^{(v)}$ 。最终，在特定视图编码和自表达以及多视图编码和自表达之间进行相互学习。因此，所有这些都将在训练过程中得到改进。此外，经过训练的 DSML 中的每个分支都可以用作独立模型，用于揭示单级数据的表示和相似性。由于训练涉及多层次组学数据，每个训练分支都包含来自其他层次数据的补充信息。在实践中，即使患者只有一个级别的测试数据，经过训练的分支做出的预测也能取得令人满意的结果。

DSML的训练算法如下：

Input：多级组学数据 $\chi$ ，平衡参数 $\lambda_{1},\lambda_{2}$ Output：自表示权重 $C^{(v)},C^{(M)},v=1,2,...,V$

1：对于第 $v$ 个组学数据，构建和训练自编码器 $A^{(v)}$ ，通过 $||X^{(v)}-\widehat{X}^{(v)}||_{F}^{2}$ 训练；

2：使用 $A^{(v)}$ 初始化对应视图的编码器和解码器部分；

3：学习某个视图下的自表示权重 $C^{(v)}$ ，并微调分支自编码器 $A^{(v)}$ （利用单级组学数据表示学习模型中的优化问题作为目标）；

4：连接每个分支的表达 $Z^{(v)}$ 以形成主干部分的输入数据 $X^{(M)}$ ；

5：构建和训练自编码器 $A^{(M)}$ ，通过 $||X^{(M)}-\widehat{X}^{(M)}||_{F}^{2}$ 训练；

6：使用 $A^{(M)}$ 初始化多视图级别的编码器和解码器；

7：学习并微调多视图（main-stem）下的自表示权重 $C^{(M)}$ 与自编码器 $A^{(M)}$ （利用单级组学数据表示学习模型中的优化问题作为目标）；

8：利用多级组学数据表示学习模型中的优化问题作为目标，微调整个DSML；

返回 $C^{(v)},C^{(M)},v=1,2,...,V$

DSML for partial level omics data(部分水平组学数据的 DSML)

DSML 结合了相互学习机制，因此它可以处理仅包含组学子集的数据集，即部分级组学数据。每个分支旨在学习每个组学级别数据的表示和相似性，主干通过融合所有分支的表示来控制共识学习。因此，每个分支都可以看作是处理单个组学水平数据的独立模型；

在临床应用中，即使需要诊断的患者只有单组学水平的数据，但DSML中的相应分支仍然可以达到令人满意的预测结果，因为该分支模型已经通过相互学习在训练阶段涉及到其他组学的信息。此外，如果第 $i$ 个患者的数据有多个组学但丢失了第 $v$ 个组学，我们可以设置 $x^{(v)}_{i}$ 等于全零向量并将其直接输入到完整的 DSML 模型中。这种丢失的组学数据不会对整体数据融合的表示产生明显影响。 DSML 从而自动忽略丢失的组学数据，并利用可用的部分水平组学数据预测癌症亚型；

Spectral clustering谱聚类

认识谱聚类

谱聚类 ( spectral clustering ) 是从图论中演化出来的算法，后来在聚类中得到了广泛的应用。它的主要思想是把所有的数据看做空间中的点，这些点之间可以用边连接起来。距离较远的两个点之间的边权重值较低，而距离较近的两个点之间的边权重值较高。通过对所有数据点组成的图进行切图，让切图后不同的子图间边权重和尽可能的低，而子图内的边权重和尽可能的高，从而达到聚类的目的。

对于一个图 $G (V, E)$ ，在 $V=\left\{v_{1},v_{2},...,v_{n}\right\}$ 中的任意两个点，可以有边连接，也可以没有，定义权重 $w_{ij}$ 表示节点 $v_{i}$ 到 $v_{j}$ 的权重，如果没有边连接，则 $w_{ij}=0$ ；

对于无向图中的任意一个点 $v_{i}$ ，它的度 $d_{i}$ 为与其相连的所有边的权重之和，即： $d_{i}=\sum_{j=1}^{n}w_{ij}$ 相应的，定义一个 $n\times n$ 的度矩阵 $D$ 为： $\begin{pmatrix} d_{1}&\cdots&0\\ \vdots&\ddots&\vdots\\ 0&\cdots&d_{n}\\ \end{pmatrix}$ 其中，主对角线元素表示节点的度，其余元素为0；图的邻接矩阵 $W$ 也是一个 $n\times n$ 的矩阵，其中第 $i$ 行第 $j$ 列表示权重 $w_{ij}$ 的值；

我们定义 $A$ 是节点集合的子集， $∣ A ∣$ 表示子集中节点的个数以及： $vol(A)=\sum_{i\in A}d_{i}$ 我们只有每个点的数据，为了实现谱聚类，所以要先得到邻接矩阵，邻接矩阵的获取遵循以下思想：距离较远的两个样本点之间的权重较低，而距离较近的两个样本点之间的权重较高；所以引出相似度矩阵的概念，用相似度矩阵代替邻接矩阵；

我们通常用全连接假设计算相似度矩阵，此时节点之间是全连接的，所有点之间的权重值都大于0，我们可以选择不同的核函数定义边权重，通常使用径向基函数RBF获得相似度（即权重）： $w_{ij}=s_{ij}=exp(-\frac{||x_{i}-x_{j}||^{2}_{2}}{2\sigma^{2}})$

关于核函数：我们经常可以看到一个概念叫核函数，所谓核函数，其实就是"kernel"，它是一种针对局部元素进行的操作，并通过不断滑动遍历全体数据；

另外补充拉普拉斯矩阵内容，图的拉普拉斯矩阵定义为： $L = D ? W$ 其中， $D$ 为度矩阵， $W$ 为邻接矩阵， $L$ 具有以下性质：

拉普拉斯矩阵是对称矩阵，这可以由 $D$ 和 $W$ 对称得到；
由于 Laplacian 矩阵是对称矩阵，则它的所有特征值均是实数；
Laplacian 矩阵是半正定的，且对应的 $n$ 个实数特征值都大于等于0（ $n$ 是样本数，也就是节点数）；
对任意向量 $f$ ，均有： $f^{T}Lf=\frac{1}{2}\sum_{i=1}^{n}\sum_{j=1}^{n}w_{ij}(f_{i}-f_{j})^{2}$

基于上述内容，现在考虑如何切图，最基本的是无向图切图；

对于无向图 $G (V, E)$ ，现在要将其切分成相互几乎没有关联的 $k$ 个子图，每个子图的节点集合为 $A_{1},A_{2},...,A_{k}$ ，它们满足以下关系： $A_{i}\cap A_{j}=\emptyset,A_{1}\cup A_{2}\cup ...\cup A_{k}=V$ 对于任意两个子图的节点集合 $A,B\subset V,A\cap B=\emptyset$ ，定义 $A$ 和 $B$ 之间的权重为： $W(A,B)=\sum_{i\in A,j\in B}w_{ij}$ 对于 $k$ 个子图节点的集合 $A_{1},A_{2},...,A_{k}$ ，定义切图 $c u t$ 为： $cut(A_{1},A_{2},...,A_{k})=\frac{1}{2}\sum_{i=1}^{k}W(A_{i},\overline{A}_{i})$ 其中， $\overline{A}_{i}$ 为 $A_{i}$ 关于 $V$ 的补集；我们的目标是最小化 $cut(A_{1},A_{2},...,A_{k})$ 以实现数据聚类（子图的划分）；

现在进一步过度到 RatioCut 切图，RatioCut 切图不光考虑最小化 $cut(A_{1},A_{2},...,A_{k})$ ，还考虑最大化每个子图中的节点个数，所以有目标： $min[RatioCut(A_{1},A_{2},...,A_{k})]=min\frac{1}{2}\sum_{i=1}^{k}\frac{W(A_{i},\overline{A}_{i})}{|A_{i}|}$ 为了便于计算，下面对 $RatioCut(A_{1},A_{2},...,A_{k})$ 做一些变换，我们先引入指示向量 $h_{j}\in [h_{1},h_{2},...,h_{k}]$ ，对于任意一个 $h_{j}$ ，它是 $n$ 维列向量（ $n$ 是样本数，也就是节点数），我们定义其中的元素 $h_{ij}$ 为：

fig4 其中， $i$ 表示节点 $v_{i}$ ， $j$ 表示子集 $A_{j}$ ；

此时注意到一个等式，这将帮助我们化简目标的表达： $h_{i}^{T}Lh_{i}=\frac{1}{2}\sum_{m=1}\sum_{n=1}w_{mn}(h_{im}-h_{in})^{2}=\frac{cut(A_{i},\overline{A}_{i})}{|A_{i}|}$ 其中， $h_{i}$ 是一个 $n$ 维列向量；

所以，对于全部子图， $RatioCut(A_{1},A_{2},...,A_{k})$ 可表示为： $RatioCut(A_{1},A_{2},...,A_{k})=\sum_{i=1}^{k}h_{i}^{T}Lh_{i}=tr(H^{T}LH)$ 注意到指示向量之间是线性无关的，所以有 $H^{T}H=I$ ，则优化目标变成寻求一个合适的指示矩阵 $H$ 使得： $min_{H}tr(H^{T}LH)$ $s.t.H^{T}H=I$ 注意， $H$ 是一个 $n\times k$ 维的矩阵，并且列向量是单位正交基， $L$ 是对称矩阵，此时 $h_{i}^{T}Lh_{i}$ 的最大值为 $L$ 的最大特征值，最小值为 $L$ 的最小特征值；

对于 $tr(H^{T}LH)$ 来说，目标就是找到 $L$ 最小的 $k$ 个特征值，通过这 $k$ 个特征值可以得到对应的 $k$ 个特征向量，这 $k$ 个特征向量可以组成一个 $n\times k$ 维的矩阵 $H$ ，一般我们还可以对矩阵 $H$ 做标准化： $h_{ij}^{*}=\frac{h_{ij}}{(\sum_{t=1}^{k}h_{it}^{2})^{\frac{1}{2}}}$ 现在回忆 $H$ 的物理意义，得到的指示矩阵 $H$ 为 $n\times k$ ，它的第 $m$ 行为 $1\times k$ ，其可以反映第 $m$ 个样本（节点）属于哪个子集的信息。因此，我们可以通过指示矩阵得到每个样本的聚类结果。

思考：自表示权重与聚类的联系

DSML中的自编码器重在于编码器，其目的是为了在大量数据中学会捕捉各个视图下的非线性分布，DSML训练结束后，对整合的自表示权重 $C^{(M)}$ 聚类其实就得到了聚类结果；

自表示权重是不同视图组学数据各自对应的线性自表达，比如对于第 $v$ 视图下的组学数据 $X^{(v)}$ ，自表示权重为 $C^{(v)}=[c_{1},c_{2},...,c_{N}]\in R^{N\times N}$ ，其中 $c_{i}=[c_{i1},c_{i2},...,c_{iN}]^{T}\in R^{N}$ 代表第 $i$ 个样本 $x_{i}$ 基于其他样本的线性组合系数（线性变换的基），所以 $C^{(v)}$ 是所有样本，基于其他样本线性变换的基集合（基空间），这就是在数据集中发现的一组子空间；

下面我们要对子空间进行聚类，由于上面得到的子空间反映了数据之间的线性组合表达方式，因此我们对子空间进行聚类也是对数据进行聚类；

子空间是数据的稀疏表达，我们对稀疏的子空间聚类，聚类算法的实施会比紧凑的原始数据聚类更容易

DSML中的谱聚类

现在我们对main-stem中获得的子空间 $C^{(M)}\in R^{N\times N}$ 进行谱聚类，首先计算相似度矩阵 $S$ ： $S_{ij}=\frac{1}{2}(|C_{ij}^{(M)}|+|C_{ji}^{(M)}|)$ 然后计算拉普拉斯矩阵： $L=I-D^{-\frac{1}{2}}SD^{-\frac{1}{2}},D_{ii}=\sum_{ij}S_{ij}$ 谱聚类现在转为下面的优化问题： $min_{B}tr(B^{T}LB)$ $s.t.B^{T}B=I$ 其中， $I$ 是单位矩阵， $B=Y(Y^{T}Y)^{-\frac{1}{2}}$ ，并且 $Y=[y_{1}^{T},y_{2}^{T},...,y_{N}^{T}]^{T}$ ， $y_{i}$ 代表了第 $i$ 个样本的聚类结果，如果 $y_{i}(k)=1$ 则说明第 $i$ 个病人属于第 $k$ 类癌症亚型

点击展开全文

- END -

美国多少人口,国防兵力仅6万，自然资源丰富，强大的美国为什么不吞并加拿大？|英国|渥太华|华盛顿|法国|北美洲_

2022.12.09

#头条创作挑战赛#?二战以后，美国经济快速发展，经济一跃超过英国，成为世界第一。在美国北部，...

公众号排名,2022微信公众号排行榜（最值得关注的微信公众号十大排名） -

2022.12.27

2022微信公众号排行榜（最值得关注的微信公众号十大排名）发布: 2022年9月25日 11:42:47 十大微信公众号排名榜 1、人民日报总点赞：9474万+ 总阅读量：8.1亿+ 简介：中国最权威的官媒之一，致力于参与、沟通、记录时代。 2、...