本部分的标题中带有*号,有一些难度,为可看可不看的内容。此部分最常见的形式是当自己提出的算法需要理论证明时,可以借鉴。
在第一章里我们介绍了两个重要的概念:迁移学习是什么,以及为什么需要迁移学习。但是,还有一个重要的问题没有得到解答: 为什么可以进行迁移 ?也就是说,迁移学习的可行性还没有探讨。
值得注意的是,就目前的研究成果来说,迁移学习领域的理论工作非常匮乏。我们在这里仅回答一个问题:为什么数据分布不同的两个领域之间,知识可以进行迁移?或者说,到底达到什么样的误差范围,我们才认为知识可以进行迁移?
加拿大滑铁卢大学的Ben-David等人从2007年开始,连续地对迁移学习的理论进行探讨。具体的一些文章可以见 这里 在文中,作者将此称之为“Learning from different domains”。在三篇文章也成为了迁移学习理论方面的经典文章。文章主要回答的问题就是:在怎样的误差范围内,从不同领域进行学习是可行的?
学习误差: 给定两个领域 D s , D t \mathcal{D}_s,\mathcal{D}_t D s , D t , X X X 是定义在它们之上的数据,一个假设类 H \mathcal{H} H 。则两个领域 D s , D t \mathcal{D}_s,\mathcal{D}_t D s , D t 之间的 H \mathcal{H} H -divergence被定义为
d ^ H ( D s , D t ) = 2 sup η ∈ H ∣ P x ∈ D s [ η ( x ) = 1 ] − P x ∈ D t [ η ( x ) = 1 ] ∣ \hat{d}_{\mathcal{H}}(\mathcal{D}_s,\mathcal{D}_t) = 2 \sup_{\eta \in \mathcal{H}} \left|\underset{\mathbf{x} \in \mathcal{D}_s}{P}[\eta(\mathbf{x}) = 1] - \underset{\mathbf{x} \in \mathcal{D}_t}{P}[\eta(\mathbf{x}) = 1] \right| d ^ H ( D s , D t ) = 2 η ∈ H sup ∣ ∣ ∣ ∣ x ∈ D s P [ η ( x ) = 1 ] − x ∈ D t P [ η ( x ) = 1 ] ∣ ∣ ∣ ∣ 因此,这个 H \mathcal{H} H -divergence依赖于假设 H \mathcal{H} H 来判别数据是来自于 D s \mathcal{D}_s D s 还是 D t \mathcal{D}_t D t 。作者证明了,对于一个对称的 H \mathcal{H} H ,我们可以通过如下的方式进行计算
d H ( D s , D t ) = 2 ( 1 − min η ∈ H [ 1 n 1 ∑ i = 1 n 1 I [ η ( x i ) = 0 ] + 1 n 2 ∑ i = 1 n 2 I [ η ( x i ) = 1 ] ] ) d_\mathcal{H} (\mathcal{D}_s,\mathcal{D}_t) = 2 \left(1 - \min_{\eta \in \mathcal{H}} \left[\frac{1}{n_1} \sum_{i=1}^{n_1} I[\eta(\mathbf{x}_i)=0] + \frac{1}{n_2} \sum_{i=1}^{n_2} I[\eta(\mathbf{x}_i)=1]\right] \right) d H ( D s , D t ) = 2 ( 1 − η ∈ H min [ n 1 1 i = 1 ∑ n 1 I [ η ( x i ) = 0 ] + n 2 1 i = 1 ∑ n 2 I [ η ( x i ) = 1 ] ] ) 其中 I [ a ] I[a] I [ a ] 为指示函数:当 a a a 成立时其值为1,否则其值为0。
在目标领域的泛化界(Bound):
假设 H \mathcal{H} H 为一个具有 d d d 个VC维的假设类,则对于任意的 η ∈ H \eta \in \mathcal{H} η ∈ H ,下面的不等式有 1 − δ 1 - \delta 1 − δ 的概率成立:
R D t ( η ) ≤ R s ( η ) + 4 n ( d log 2 e n d + log 4 δ ) + d ^ H ( D s , D t ) + 4 4 n ( d log 2 n d + log 4 δ ) + β R_{\mathcal{D}_t}(\eta) \le R_s(\eta) + \sqrt{\frac{4}{n}(d \log \frac{2en}{d} + \log \frac{4}{\delta})} + \hat{d}_{\mathcal{H}}(\mathcal{D}_s,\mathcal{D}_t) + 4 \sqrt{\frac{4}{n}(d \log \frac{2n}{d} + \log \frac{4}{\delta})} + \beta R D t ( η ) ≤ R s ( η ) + n 4 ( d log d 2 e n + log δ 4 ) + d ^ H ( D s , D t ) + 4 n 4 ( d log d 2 n + log δ 4 ) + β 其中
β ≥ inf η ⋆ ∈ H [ R D s ( η ⋆ ) + R D t ( η ⋆ ) ] \beta \ge \inf_{\eta^\star \in \mathcal{H}} [R_{\mathcal{D}_s}(\eta^\star) + R_{\mathcal{D}_t}(\eta^\star)] β ≥ η ⋆ ∈ H inf [ R D s ( η ⋆ ) + R D t ( η ⋆ ) ] 并且
R s ( η ) = 1 n ∑ i = 1 m I [ η ( x i ) ≠ y i ] R_{s}(\eta) = \frac{1}{n} \sum_{i=1}^{m} I[\eta(\mathbf{x}_i) \ne y_i] R s ( η ) = n 1 i = 1 ∑ m I [ η ( x i ) ≠ y i ] 具体的理论证明细节,请参照上述提到的三篇文章。
在自己的研究中,如果需要进行相关的证明,可以参考一些已经发表的文章的写法,例如 Adaptation regularization: a general framework for transfer learning 等。
另外,英国的Gretton等人也在进行一些学习理论方面的研究,有兴趣的读者可以关注他的个人主页: http://www.gatsby.ucl.ac.uk/~gretton/。