论文：Representational Continuity for Unsupervised Continual Learning
会议：ICLR 2022 (Oral)
作者：纽约大学、韩国科学院、清华大学智能产业研究院等

1 场景：无监督持续学习

设持续学习包含 $T$ 个任务，当前正在学习第 $τ$ 个任务。持续学习要求不仅对新数据做 finetuning，还要复习过去的知识，这两部分体现在优化目标 $L$ 的两项，记为

$L = L^{FINETUNE} + L^{REVIEW}$

我用一张表来比较有监督和无监督的区别（以分类为例）：

	有监督持续学习（Supervised CL）	无监督持续学习（Unsupervised CL）
新来的数据	$D_{τ} = {(x_{i, τ}, y_{i, τ})_{i = 1}^{n_{τ}}}$	$U_{τ} = {(x_{i, τ})_{i = 1}^{n_{τ}}}$
模型与参数	$X_{τ} \to Y_{τ}$ ，可看成表示函数 $f_{Θ} : X_{τ} \to R^{D}$ 和分类器 $h_{ψ} : R^{D} \to Y_{τ}$	只有表示 $f_{Θ} : X_{τ} \to R^{D}$
$^{} $	$L_{SCL}^{FINETUNE} = C E (h_{ψ} (f_{Θ} (x_{i, τ}) ， y_{i, τ})$	$L_{UCL}^{FINETUNE}$
$^{} $	由现有的各种持续学习框架定义	$L_{UCL}^{REVIEW}$

对于不同的任务有不同的分类器（注意： $h_{ψ} (\cdot, τ)$ ），分类器是一个比表示 $f_{Θ}$ 简单得多的网络，对每个任务 $τ$ 都会根据当前的 $f_{Θ}$ 作微调。虽然这里是有参数的，但完全可以是无参数的，如K近邻分类器。这个分类器不是持续学习的学习目标，只是模型里的一个必要的输出头。

无论有监督还是无监督，都是为了学到一个好的表示 $f_{θ}$ ，但由于有监督的任务要求输出类别 $Y_{τ}$ ，不可避免地需要接一个分类器。无监督的任务虽然只需要得到表示即可，但是我们无法评估这个表示的好坏，因此一般的评估方法也是接一个分类器，以输出结果与真实类别的比较作为衡量标准，计算准确率等评价指标。这里真实类别的标签只用在评估时，没有用在训练时，损失是一种自监督的损失（self-supervised loss），这是有监督和无监督的本质区别。

设计 $L_{UCL}^{FINETUNE}$ 和 $L_{UCL}^{REVIEW}$ 是设计无监督学习框架的主要任务，分别放在第二、第三部分讲述。

2 无监督模型

目前大火的无监督表示学习模型就是对比学习（Contrastive Learning）了，作者选用了其中一些比较适合的持续学习场景的模型，它们都是基于孪生网络的思想。

孪生网络（Siamese Network）是要求两个输入的网络，通过网络后分别得到这两个输入的表示。它可以看成一个网络，也可以看成两个共享权重的网络（所以叫孪生网络）。得到的两个表示一般要算一下相似度（最简单的是余弦相似度，即两个向量的夹角），这个相似度用来构造损失，具体什么样的损失由网络要完成的任务来定。任务只有一个要求——两个输入，比如判断两个图片是否是同一类，等等。

孪生网络如何用在无监督学习中呢？自然，对于一个输入 $x$ ，无监督学习要学的表示函数就是这个孪生网络。但是它要求两个输入怎么办呢，接下来就是主要思想：这两个输入是原始输入的两个 augmentation $x^{1}, x^{2}$ ，如果这个表示认为由同一个输入 $x$ 变换出来的 $x^{1}, x^{2}$ 是相似的，那它就是一个好的表示。因此优化目标是尽量让得到的两个表示接近，构造的损失函数也就用到了上文提到的相似度，一般来说是迫使相似度尽量大，例如

$L = - D (z_{1}, z_{2})$

其中 $z_{1}, z_{2}$ 是 $x^{1}, x^{2}$ 通过孪生网络 $f$ 后的两个表示， $D$ 是余弦相似度。

2.1 SimSiam

对于无监督的表示学习，Facebook 何恺明、陈鑫磊等人提出了一个简单的孪生网络SimSiam，但是比上面最简单的还是多了一些东西的：它在表示网络后接了一个预测头 $h$ （也是一个网络），这样两个输入就有了四个表示： $z_{1} ≜ f (x_{1}), z_{1} ≜ f (x_{1}), p_{1} ≜ h (f (x_{1})), p_{2} ≜ h (f (x_{2}))$ 。最终交叉混淆处理相似度：

$L = \frac{1}{2} D (p_{1}, z_{2}) + \frac{1}{2} D (p_{2}, z_{1})$

这个模型最重要的事情是要求把 $z_{1}, z_{2}$ 看作常数，而不是含模型参数的函数（在PyTorch里就是detach一下），记作 $stopgrad$ 。统一到本文的符号，写作：

$L_{UCL}^{FINETUNE} = \frac{1}{2} D (p_{i, τ}^{1}, stopgrad (z_{i, τ}^{2})) + \frac{1}{2} D (p_{i, τ}^{2}, stopgrad (z_{i, τ}^{1}))$

2.2 Barlow Twins

为了得到一个好的表示，除了使同一个输入 $x$ 产生的两个变换表示尽量接近，还可以使不同输入的表示尽量地远（其实这样有可能带来问题，暂且不讨论）。Facebook 的另外一些人，包括 Yann LeCun 提出的 Barlow Twins，就在损失函数中加了第二项：

$L_{UCL}^{FINETUNE} = \sum_{i} (1 - C_{i i})^{2} + λ \cdot \sum_{i} \sum_{j \neq i} C_{i j}^{2}$

这个损失每次考虑多个输入 $x^{1}, \dots, x^{i}, \dots$ ，同样地，每个输入 $x^{i}$ 都有两个 augmentation $x_{1}^{i}, x_{2}^{i}$ ， $C_{i j}$ 就是两个输入不同变换之间的相似度 $C_{i j} = D (z_{1}^{i}, z_{2}^{j})$ 。这个损失的第一项其实就是上面最简单的相似度损失（累加了多个输入的），第二项的损失给了一个可调的超参数 $λ$ 。

3 如何持续起来？

大部分持续学习模型都是针对有监督场景的，难以直接应用到无监督，但有一些确实是可以推广的。作者从三类持续学习模型各取了一个代表：

3.1 重演法：DER

重演法一般要在记忆 $M$ 里存放重演数据，而有些是连同标签一起存进去，训练新任务时构造进 REVIEW 损失里去，这样的重演模型就不好推广到无监督。作者找到的 DER（Dark Experience Replay）用不着重演数据 $x$ 的标签，而是存旧模型预测的过 Softmax 之前的 logit $p$ 。防止遗忘的方法是让新模型预测重演数据的 logit 尽量与存的接近：

$L_{SCL}^{DER} = L_{SCL}^{FINETUNE} + α \cdot E_{(x, p) \sim M} [{‖ softmax (p) - softmax (h_{ψ} (x_{i, τ})) ‖}_{2}^{2}]$

推广到无监督，只需将 logit 换成网络输出的表示：

$L_{UCL}^{DER} = L_{UCL}^{FINETUNE} + α \cdot E_{(x) \sim M} [{‖ f_{Θ_{τ}} (x) - f_{Θ} (x_{i, τ}) ‖}_{2}^{2}]$

其实最经典的iCaRL也可以推广到无监督（它的REVIEW损失是蒸馏损失），但是有点古老了效果已达不到 SOTA，所以作者没有用它。

3.2 加正则项法：SI

SI（Synaptic Intelligence）是对著名持续学习算法 EWC 的改进，在EWC中，由上一个任务 $τ - 1$ 学习下一个任务 $τ$ 时，

$L_{SCL}^{EWC} = L_{SCL}^{FINETUNE} + \frac{λ}{2} \cdot \sum_{i} F_{i, i} {(θ_{i} - θ_{τ - 1, i}^{*})}^{2}$

可见加的 REVIEW 正则项只与之前任务学到的模型参数有关，不涉及数据的标签信息，SI 也是如此。因此有监督损失可以轻易推广到 $L_{UCL}^{SI}$ 。

3.3 网络结构法：PNN

这个方法是对网络结构本身动手脚，在不同的任务阶段，网络结构是不同的，持续并不是通过添加正则项 $L^{REVIEW}$ 、而是通过训练新的网络参数实现的。在这个PNN（Progressive Neural Network）中，每次新任务都会在图中右边多出一列网络出来，冻结原有的权重（虚线），只训练新的权重（实线）。

对无监督学习，只需将网络改成上节的孪生网络，此图用 MLP 结构，则孪生网络也用 MLP 即可。训练时的损失 $L_{UCL}^{PNN}$ 就用上节的无监督损失 $L_{UCL}^{FINETUNE}$ 。

4 Mixup 技巧

作者也借鉴了 Facebook 实验室提出的mixup 技巧。这是一个比较直观的训练上的 trick，即任取两个训练数据作线性组合，得到的这种混合数据（基本上在原始训练数据的周边）也拿去训练。机器学习理论中，用最小化由训练数据集构造的损失这种机制被称为经验风险最小化（ERM，Empirical Risk Minimization），现在这种最小化原始训练集的周边风险最小化（VRM，Vicinal Risk Minimization）。

这样做的优点显然是能提高模型的鲁棒性，所以作者拿过来用在了他的无监督损失上，这也是本文的主要创新点吧，取名为LUMP（Lifelong Unsupervised Mixup）。具体的用法是在对新数据微调的损失 $L_{UCL}^{FINETUNE}$ 中，不仅使用新数据 $x_{i, τ}$ ，而使用新数据与过去知识（注意：LUMP是对DER的改进，需要记忆重演数据 $M$ ）的混合：

${\tilde{x}}_{i, τ} = λ x_{i, τ} + (1 - λ) x_{j, M}$

这样，无监督损失 $L_{UCL}$ 不仅在 $L_{UCL}^{REVIEW}$ 中考虑了过去的知识，也在 $L_{UCL}^{FINETUNE}$ 考虑了。这里也给了可调的超参数 $λ$ ，用以trade-off持续学习模型的可塑性与稳定性。

5 实验与结论

总结一下上面提到的无监督持续学习方法，按照 $L_{UCL}^{FINETUNE}$ 分有 SimSiam、Barlow Twins 共 2 类，按照 $L_{UCL}^{REVIEW}$ 分有改造成无监督场景的SI、PNN、DER、外加作者针对DER的改进LUMP共4类，所以一共有 $2 \times 4 = 8$ 个无监督持续模型。本文的实验是连同有监督的持续学习一起，对这些方法做一个对比。和其他持续学习一样，评价指标有各任务平均准确率 $A = \frac{1}{T} \sum_{τ = 1}^{T} a c c_{τ}$ 和各任务平均遗忘程度 $F = \frac{1}{T - 1} \sum_{τ = 1}^{T - 1} max_{1 \leq t \leq τ} (a c c_{t} - a c c_{τ})$ 。

应注意这里有监督和无监督实验的关系是：数据集是相同的，无监督就是直接去掉了有监督数据集的标签。作者的实验居然发现少了标签信息的无监督学习，效果都比有监督好！可以看到，在这个实验结果中无监督基本是碾压有监督的，根据我的猜测，可能是因为无监督学习使用了两个 augmentation 起了主要作用，很大程度上丰富了训练数据。本文提出的 LUMP 效果也要高于其他方法，可能也是 mixup 技巧引入了更多训练数据导致的。大家觉得这个实验公平吗？

回到顶部