迁移学习问题形式化

迁移学习的问题形式化,是进行一切研究的前提。在迁移学习中,有两个基本的概念:领域(Domain)任务(Task)。它们是最基础的概念。定义如下:

领域 Domain

领域(Domain): 是进行学习的主体。领域主要由两部分构成:数据和生成这些数据的概率分布。通常我们用花体D\mathcal{D}来表示一个domain,用大写斜体PP来表示一个概率分布。

特别地,因为涉及到迁移,所以对应于两个基本的领域:源领域(Source Domain)目标领域(Target Domain)。这两个概念很好理解。源领域就是有知识、有大量数据标注的领域,是我们要迁移的对象;目标领域就是我们最终要赋予知识、赋予标注的对象。知识从源领域传递到目标领域,就完成了迁移。

领域上的数据,我们通常用小写粗体x\mathbf{x}来表示,它也是向量的表示形式。例如,xi\mathbf{x}_i就表示第ii个样本或特征。用大写的黑体X\mathbf{X}表示一个领域的数据,这是一种矩阵形式。我们用大写花体X\mathcal{X}来表示数据的特征空间。

通常我们用小写下标sstt来分别指代两个领域。结合领域的表示方式,则:Ds\mathcal{D}_s表示源领域,Dt\mathcal{D}_t表示目标领域。

值得注意的是,概率分布PP通常只是一个逻辑上的概念,即我们认为不同领域有不同的概率分布,却一般不给出(也难以给出)PP的具体形式。

任务 Task

任务(Task): 是学习的目标。任务主要由两部分组成:标签标签对应的函数。通常我们用花体Y\mathcal{Y}来表示一个标签空间,用f()f(\cdot)来表示一个学习函数。

相应地,源领域和目标领域的类别空间就可以分别表示为Ys\mathcal{Y}_sYt\mathcal{Y}_t。我们用小写ysy_syty_t分别表示源领域和目标领域的实际类别。

迁移学习

有了上面领域和任务的定义,我们就可以对迁移学习进行形式化。

迁移学习(Transfer Learning): 给定一个有标记的源域Ds={xi,yi}i=1n\mathcal{D}_s=\{\mathbf{x}_{i},y_{i}\}^n_{i=1}和一个无标记的目标域Dt={xj}j=n+1n+m\mathcal{D}_t=\{\mathbf{x}_{j}\}^{n+m}_{j=n+1}。这两个领域的数据分布P(xs)P(\mathbf{x}_s)和P(xt)\mathbf{x}_t)不同,即P(xs)P(xt)P(\mathbf{x}_s) \ne P(\mathbf{x}_t)。迁移学习的目的就是要借助Ds\mathcal{D}_s的知识,来学习目标域Dt\mathcal{D}_t的知识(标签)。

更进一步,结合我们前面说过的迁移学习研究领域,迁移学习的定义需要进行如下的考虑:

(1) 特征空间的异同,即Xs\mathcal{X}_sXt\mathcal{X}_t是否相等。

(2) 类别空间的异同:即Ys\mathcal{Y}_sYt\mathcal{Y}_t是否相等。

(3) 条件概率分布的异同:即Qs(ysxs)Q_s(y_s|\mathbf{x}_s)Qt(ytxt)Q_t(y_t|\mathbf{x}_t)是否相等。

结合上述形式化,我们给出**领域自适应(Domain Adaptation)}这一热门研究方向的定义:

领域自适应(Domain Adaptation): 给定一个有标记的源域Ds={xi,yi}i=1n\mathcal{D}_s=\{\mathbf{x}_{i},y_{i}\}^n_{i=1}和一个无标记的目标域Dt={xj}j=n+1n+m\mathcal{D}_t=\{\mathbf{x}_{j}\}^{n+m}_{j=n+1},假定它们的特征空间相同,即Xs=Xt\mathcal{X}_s = \mathcal{X}_t,并且它们的类别空间也相同,即Ys=Yt\mathcal{Y}_s = \mathcal{Y}_t以及条件概率分布也相同,即Qs(ysxs)=Qt(ytxt)Q_s(y_s|\mathbf{x}_s) = Q_t(y_t|\mathbf{x}_t)。但是这两个域的边缘分布不同,即Ps(xs)Pt(xt)P_s(\mathbf{x}_s) \ne P_t(\mathbf{x}_t)。迁移学习的目标就是,利用有标记的数据Ds\mathcal{D}_s去学习一个分类器f:xtytf:\mathbf{x}_t \mapsto \mathbf{y}_t来预测目标域Dt\mathcal{D}_t的标签ytYt\mathbf{y}_t \in \mathcal{Y}_t.

在实际的研究和应用中,读者可以针对自己的不同任务,结合上述表述,灵活地给出相关的形式化定义。

符号小结

我们已经基本介绍了迁移学习中常用的符号。下表是一个符号表:

符号

含义

下标ss / tt

指示源域 / 目标域

Ds\mathcal{D}_s / Dt\mathcal{D}_t

源域数据 / 目标域数据

x\mathbf{x} / X\mathbf{X} / X\mathcal{X}

向量 / 矩阵 / 特征空间

y\mathbf{y} / Y\mathcal{Y}

类别向量 / 类别空间

(n,m)(n,m) [或 (n1,n2)(n_1,n_2)(ns,nt)(n_s,n_t)]

(源域样本数,目标域样本数)

P(xs)P(\mathbf{x}_s) / P(xt)P(\mathbf{x}_t)

源域数据 / 目标域数据的边缘分布

Q(ysQ(\mathbf{y}_s , xs)\mathbf{x}_s) / Q(ytQ(\mathbf{y}_t , xt)\mathbf{x}_t)

源域数据 / 目标域数据的条件分布

f()f(\cdot)

要学习的目标函数