度量准则

度量不仅是机器学习和统计学等学科中使用的基础手段,也是迁移学习中的重要工具。它的核心就是衡量两个数据域的差异。计算两个向量(点、矩阵)的距离和相似度是许多机器学习算法的基础,有时候一个好的距离度量就能决定算法最后的结果好坏。比如KNN分类算法就对距离非常敏感。本质上就是找一个变换使得源域和目标域的距离最小(相似度最大)。所以,相似度和距离度量在机器学习中非常重要。

这里给出常用的度量手段,它们都是迁移学习研究中非常常见的度量准则。对这些准则有很好的理解,可以帮助我们设计出更加好用的算法。用一个简单的式子来表示,度量就是描述源域和目标域这两个领域的距离:

DISTANCE(Ds,Dt)=DistanceMeasure(,)DISTANCE(\mathcal{D}_s,\mathcal{D}_t) = \mathrm{DistanceMeasure}(\cdot,\cdot)

下面我们从距离和相似度度量准则几个方面进行简要介绍。

常见的几种距离

1. 欧氏距离

定义在两个向量(空间中的两个点)上:点x\mathbf{x}和点y\mathbf{y}的欧氏距离为:

dEuclidean=(xy)(xy)d_{Euclidean}=\sqrt{(\mathbf{x}-\mathbf{y})^\top (\mathbf{x}-\mathbf{y})}

2. 闵可夫斯基距离

Minkowski distance, 两个向量(点)的pp阶距离:

dMinkowski=(xyp)1/pd_{Minkowski}=(||\mathbf{x}-\mathbf{y}||^p)^{1/p}

p=1p=1时就是曼哈顿距离,当p=2p=2时就是欧氏距离。

3. 马氏距离

定义在两个向量(两个点)上,这两个数据在同一个分布里。点x\mathbf{x}和点y\mathbf{y}的马氏距离为:

dMahalanobis=(xy)Σ1(xy)d_{Mahalanobis}=\sqrt{(\mathbf{x}-\mathbf{y})^\top \Sigma^{-1} (\mathbf{x}-\mathbf{y})}

其中,Σ\Sigma是这个分布的协方差。

Σ=I\Sigma=\mathbf{I}时,马氏距离退化为欧氏距离。

相似度

1. 余弦相似度

衡量两个向量的相关性(夹角的余弦)。向量x,y\mathbf{x},\mathbf{y}的余弦相似度为:

cos(x,y)=xyxy\cos (\mathbf{x},\mathbf{y}) = \frac{\mathbf{x} \cdot \mathbf{y}}{|\mathbf{x}|\cdot |\mathbf{y}|}

2. 互信息

定义在两个概率分布X,YX,Y上,xX,yYx \in X, y \in Y。它们的互信息为:

I(X;Y)=xXyYp(x,y)logp(x,y)p(x)p(y)I(X;Y)=\sum_{x \in X} \sum_{y \in Y} p(x,y) \log \frac{p(x,y)}{p(x)p(y)}

3. 皮尔逊相关系数

衡量两个随机变量的相关性。随机变量X,YX,Y的Pearson相关系数为:

ρX,Y=Cov(X,Y)σXσY\rho_{X,Y}=\frac{Cov(X,Y)}{\sigma_X \sigma_Y}

理解:协方差矩阵除以标准差之积。

范围:[1,1][-1,1],绝对值越大表示(正/负)相关性越大。

4. Jaccard相关系数

对两个集合X,YX,Y,判断他们的相关性,借用集合的手段:

J=XYXYJ=\frac{X \cap Y}{X \cup Y}

理解:两个集合的交集除以并集。

扩展:Jaccard距离=1J1-J

KL散度与JS距离

KL散度和JS距离是迁移学习中被广泛应用的度量手段。

  • KL散度

Kullback–Leibler divergence,又叫做相对熵,衡量两个概率分布P(x),Q(x)P(x),Q(x)的距离:

DKL(PQ)=i=1P(x)logP(x)Q(x)D_{KL}(P||Q)=\sum_{i=1} P(x) \log \frac{P(x)}{Q(x)}

这是一个非对称距离:DKL(PQ)DKL(QP)D_{KL}(P||Q) \ne D_{KL}(Q||P).

  • JS距离

Jensen–Shannon divergence,基于KL散度发展而来,是对称度量:

JSD(PQ)=12DKL(PM)+12DKL(QM)JSD(P||Q)= \frac{1}{2} D_{KL}(P||M) + \frac{1}{2} D_{KL}(Q||M)

其中M=12(P+Q)M=\frac{1}{2}(P+Q)

最大均值差异MMD

最大均值差异是迁移学习中使用频率最高的度量。Maximum mean discrepancy,它度量在再生希尔伯特空间中两个分布的距离,是一种核学习方法。两个随机变量的MMD平方距离为

MMD2(X,Y)=i=1n1ϕ(xi)j=1n2ϕ(yj)H2MMD^2(X,Y)=\left \Vert \sum_{i=1}^{n_1}\phi(\mathbf{x}_i)- \sum_{j=1}^{n_2}\phi(\mathbf{y}_j) \right \Vert^2_\mathcal{H}

其中ϕ()\phi(\cdot)是映射,用于把原变量映射到再生核希尔伯特空间 (Reproducing Kernel Hilbert Space, RKHS)中。什么是RKHS?形式化定义太复杂,简单来说希尔伯特空间是对于函数的内积完备的,而再生核希尔伯特空间是具有再生性K(x,),K(y,)H=K(x,y)\langle K(x,\cdot),K(y,\cdot)\rangle_\mathcal{H}=K(x,y)的希尔伯特空间。就是比欧几里得空间更高端的。将平方展开后,RKHS空间中的内积就可以转换成核函数,所以最终MMD可以直接通过核函数进行计算。

理解:就是求两堆数据在RKHS中的均值的距离。

Multiple-kernel MMD:多核的MMD,简称MK-MMD。现有的MMD方法是基于单一核变换的,多核的MMD假设最优的核可以由多个核线性组合得到。多核MMD的提出和计算方法在文献~\cite{gretton2012optimal}中形式化给出。MK-MMD在许多后来的方法中被大量使用,例如DAN~\cite{long2015learning}。我们将在后续单独介绍此工作。

Principal Angle

也是将两个分布映射到高维空间(格拉斯曼流形)中,在流形中两堆数据就可以看成两个点。Principal angle是求这两堆数据的对应维度的夹角之和。

对于两个矩阵X,Y\mathbf{X},\mathbf{Y},计算方法:首先正交化(用PCA)两个矩阵,然后:

PA(X,Y)=i=1min(m,n)sinθiPA(\mathbf{X},\mathbf{Y})=\sum_{i=1}^{\min(m,n)} \sin \theta_i

其中m,nm,n分别是两个矩阵的维度,θi\theta_i是两个矩阵第ii个维度的夹角,Θ={θ1,θ2,,θt}\Theta=\{\theta_1,\theta_2,\cdots,\theta_t\}是两个矩阵SVD后的角度:

XY=U(cosΘ)V\mathbf{X}^\top\mathbf{Y}=\mathbf{U} (\cos \Theta) \mathbf{V}^\top

A-distance

A-distance是一个很简单却很有用的度量。文献\cite{ben2007analysis}介绍了此距离,它可以用来估计不同分布之间的差异性。A\mathcal{A}-distance被定义为建立一个线性分类器来区分两个数据领域的hinge损失(也就是进行二类分类的hinge损失)。它的计算方式是,我们首先在源域和目标域上训练一个二分类器hh,使得这个分类器可以区分样本是来自于哪一个领域。我们用err(h)err(h)来表示分类器的损失,则A\mathcal{A}-distance定义为:

A(Ds,Dt)=2(12err(h))\mathcal{A}(\mathcal{D}_s,\mathcal{D}_t) = 2(1 - 2 err(h))

A-distance通常被用来计算两个领域数据的相似性程度,以便与实验结果进行验证对比。

Hilbert-Schmidt Independence Criterion

希尔伯特-施密特独立性系数,Hilbert-Schmidt Independence Criterion,用来检验两组数据的独立性:

HSIC(X,Y)=trace(HXHY)HSIC(X,Y) = trace(HXHY)

其中X,YX,Y是两堆数据的kernel形式。

Wasserstein Distance

Wasserstein Distance是一套用来衡量两个概率分布之间距离的度量方法。该距离在一个度量空间(M,ρ)(M,\rho)上定义,其中ρ(x,y)\rho(x,y)表示集合MM中两个实例xxyy的距离函数,比如欧几里得距离。两个概率分布P\mathbb{P}Q\mathbb{Q}之间的p-thp{\text{-th}} Wasserstein distance可以被定义为

Wp(P,Q)=(infμΓ(P,Q)ρ(x,y)pdμ(x,y))1/p,W_p(\mathbb{P}, \mathbb{Q}) = \Big(\inf_{\mu \in \Gamma(\mathbb{P}, \mathbb{Q}) } \int \rho(x,y)^p d\mu(x,y) \Big)^{1/p},

其中Γ(P,Q)\Gamma(\mathbb{P}, \mathbb{Q})是在集合M×MM\times M内所有的以P\mathbb{P}Q\mathbb{Q}为边缘分布的联合分布。著名的Kantorovich-Rubinstein定理表示当MM是可分离的时候,第一Wasserstein distance可以等价地表示成一个积分概率度量(integral probability metric)的形式

W1(P,Q)=supfL1ExP[f(x)]ExQ[f(x)],W_1(\mathbb{P},\mathbb{Q})= \sup_{\left \| f \right \|_L \leq 1} \mathbb{E}_{x \sim \mathbb{P}}[f(x)] - \mathbb{E}_{x \sim \mathbb{Q}}[f(x)],

其中fL=supf(x)f(y)/ρ(x,y)\left \| f \right \|_L = \sup{|f(x) - f(y)|} / \rho(x,y)并且fL1\left \| f \right \|_L \leq 1称为11-利普希茨条件。