当前位置:   article > 正文

【PyTorch][chapter 22][李宏毅深度学习]【无监督学习][ WGAN]【理论二】

【PyTorch][chapter 22][李宏毅深度学习]【无监督学习][ WGAN]【理论二】

前言:

       本篇主要参考《Wasserstein GAN and the Kantorovich-Rubinstein Duality》

重点介绍一下 WGAN 的损失函数 是如何通过 Wasserstein Distance 变换过来的。

分为5步:

  1.     我们首先建立Wasserstein Distance         极小值形式,
  2.     经过对偶变换得到Wasserstein Distance  极大值形式,
  3.     通过Farkas 引理证明其二者是强对偶关系,
  4.    利用对偶形式的约束函数 对 极大值形式 进行变换,得到WGAN 损失函数形式
  5.    极大值的约束函数就是1-Lipschitz


   目录:

  1.         Earth Mover’s Distance
  2.         对偶形式(Dual Form)  
  3.         Farkas 引理(Farkas Theorem)
  4.         强对偶(Strong Duality)
  5.        传输成本的对偶( Dual Implementation)
  6.         对偶到WGAN
  7.          Lipschitz约束和Wasserstein 关系

一    Earth Mover’s Distance

         我们以任意两个离散的概率分布p,q 为例

     1.1 EMD 距离定义

        

           一种用来测量两个概率分布之间的距离度量。它主要应用在图像处理和语音信号处理领域。EMD问题可以通过线性规划来求解,其核心思想是将一个分布的密度通过“搬土”的方式转移到另一个分布的位置上,使得转移的代价最小。在这个过程中,每个点对之间的距离和转移的量共同决定了总的工作量,即EMD

                   

                                      

      优化的目标:  

                   求解r,使得W[p,q] 达到极小值

        其中:

                      p(x) :离散的随机分布,对应状态变量x的维度为l

                              (图像中就是对应每个像素值变化范围0-255)

                     q(y):   离散的随机分布,对应状态变量y的维度为l

                     \gamma(x,y)\sim\prod (P_r,P_{\theta}): 代表推土方案,是(P_r,P_{\theta})的联合概率分布函数

                      inf:    积分下限 ,等价于求极小值

               约束条件

                     

 

1. 2   矩阵表达形式

         

          \left \langle \right \rangle_F is Frobenius inner product: 两个大小相同的矩阵元素一一对应相乘并且相加

    1.3 EMD 向量表达形式

                

                 通过求解optimal transport plan \Gamma, 使得EMD 最小

             

              约束条件: A\Gamma =b

                  

    1.4    线性规划问题(LP: Linear Programming)

          通过上面我们可以看到EMD等价于LP问题:

       

               

  Python 有对应的LP 库,如下例子

  1. # -*- coding: utf-8 -*-
  2. """
  3. Created on Sun Mar 10 20:58:19 2024
  4. @author: cxf
  5. """
  6. import numpy as np
  7. from scipy.optimize import linprog
  8. def run():
  9. """
  10. 数学规划模型
  11. scppy.optimize.linprog
  12. """
  13. c=np.array([-2,-3,5]).transpose() #行列向量不影响求解
  14. A=np.array([[-2,5,-1],[1,3,1]])
  15. b=np.array([-10,12])
  16. Aeq=np.array([[1,1,1]]) # 单个约束也要表示为矩阵形式
  17. beq=np.array([7])
  18. x=linprog(c,A,b,Aeq,beq,method='highs',bounds=np.array([[0,None],[0,None],[0,None]]))
  19. print(x)
  20. def main():
  21. '''
  22. LINPROG_METHODS = ['simplex',
  23. 'revised simplex',
  24. 'interior-point',
  25. 'highs',
  26. 'highs-ds',
  27. 'highs-ipm']
  28. Returns
  29. -------
  30. None.
  31. '''
  32. print("\n ------1--------")
  33. P_r = np.array([[0.1,0.9]]).transpose()
  34. P_t = np.array([[0.5,0.5]]).transpose()
  35. D = np.array([[0.0,1.0],
  36. [1.0,0.0]])
  37. L,L = D.shape
  38. C = D.reshape((L**2,1))
  39. print("\n C: distance |x-y| 功能 \n",C)
  40. A_r = np.zeros((L,L,L))
  41. A_t = np.zeros((L,L,L))
  42. for i in range(L):
  43. for j in range(L):
  44. A_r[i,i,j]=1
  45. A_t[i,j,i]=1
  46. #Aeq是约束条件
  47. aeq = np.concatenate((A_r.reshape(L,L**2),A_t.reshape(L,L**2)),axis=0)
  48. print("\n 约束条件:Ax=b: \n",aeq,aeq.shape)
  49. #b 就是Pr,Pg 的概率分布组成一列
  50. beq = np.concatenate((P_r,P_t),axis=0)
  51. print("\n vec(pr,pg) :\n",beq)
  52. bound = np.repeat([[0.0,1.0]],L*L,axis=0)
  53. print("\n 0=<x<1 \n",bound)
  54. #x[L*L,1]
  55. #bounds=bound
  56. opt_res= linprog(C,A_eq=aeq, b_eq=beq, method='highs-ds',bounds=bound)
  57. emd = opt_res.fun
  58. #gamma = opt_res.x.reshape((1,1))
  59. print("\n x:\n ",opt_res.x)
  60. print("\n-----------")
  61. main()


二 对偶形式(Dual Form)

        

            原始形式 问题:

         不幸的是,这种优化在很多情况下并不实用,尤其是在通常使用 GAN 的领域。在我们的示例中,我们使用具有十种可能状态的一维随机变量。可能的离散状态的数量随着输入变量的维度数量呈指数级增长。对于许多应用,例如图像,一个像素点对应256种状态,一张图片1024*1024的图片对应的状态种状态。即使是近似值那么几乎是不可能的。
      但实际上我们并不关心。我们只想要一个数字,即 EMD。此外,我们想用它来训练我们的生成器网络,该网络生成分布,为此,我们必须能够计算梯度。自从p和q只是我们优化的限制,这不可能以任何直接的方式实现. 事实证明,还有另一种更方便的 EMD 计算方法。任何 LP 有两种方式可以表述问题:我们刚才使用的原始形式和对偶形式。

       证明:

设    A^Ty \leq c

         z=c^Tx \geq \begin{pmatrix} A^Ty \end{pmatrix}^Tx

                          \geq y^TAx

                          \geq y^Tb

           因为y^Tb 是标量,所以 \tilde{z}=b^Ty \leq z

         

   这种形式也称为弱对偶形式,那是否有强对偶使得z=\tilde{z}  


三    Farkas 引理

       强对偶形式的证明,主要用到称之为“Farkas 引理”的结论:

       对 \forall A \in R^{m\times n}, 以下两个命题是互斥的:

     3.1 引理一:   向量b在凸锥C内

          矩阵 A=\begin{bmatrix} a_1 &a_2 & ... & a_n \end{bmatrix}  由n个m维的列向量组成

          向量  x=\begin{bmatrix} \alpha_1\\ \alpha_2 \\ ... \\ \alpha_n \end{bmatrix}  由n个非负标量组成 

          Ax=\alpha_1a_1+\alpha_2a_2+...+\alpha_na_n 

          a_1,a_2,...a_n的非负系数的线性组合是一个凸锥C

      如上图:

         a_1,a_2 两个向量顶点连接起来可以组成一个凸锥C,

两者通过非负的线性系数相加得到的a_3 也一定落在该凸锥C 内

同理:   Ax=b(x\geq0) 

非负的线性组合a_1,a_2,..a_n 组成了凸锥C,b由该非负的线性组合得到,也落在该凸锥C内.

 

   3.2 引理二  :b在凸锥C外

     

          A^Ty \leq 0  :  、  A^Ty=\begin{bmatrix} a_1^Ty\leq0\\ a_2^Ty\leq0 \\ ... \\ a_n^Ty\leq0 \end{bmatrix}

                        向量y在凸锥C外,向量y与该凸锥C中任意向量夹角大于90  

          b^Ty> 0:   

                            b^Ty=|b||y|cos\theta,向量 b,y 夹角小于90度, 所以向量b 在凸锥C外

               

                     也可以用下图表示

                          

   


四 强对偶(Strong Duality)

      

             

                Farkas 两条引理:

            ​​​​​​​

            我们要利用Farkas 两条引理 , 证明的是 \hat{z}  可以无限接近 z

  证明:

      假设原始问题的最优解为z^{*}=c^Tx^*,我们定义:

   

        其中 \epsilon,\alpha \in R

    4.1 当 \epsilon =0 时,满足   Farkas case (1)

                 因为 \hat{A}x^*=\hat{b_0} 

                \begin{bmatrix} Ax^*\\ -c^Tx^* \end{bmatrix}=\begin{bmatrix} b\\ -z^*+0 \end{bmatrix}

         不满足Farkas case(2) 即

           \forall \hat{A}^T\hat{y} \leq 0,      \hat{b_0}^T\hat{y} \leq 0 ....(9)

   4.2 \epsilon >0 时,满足Farkas case(2)

               \hat{A}x=\begin{bmatrix} Ax\\-c^Tx\end{bmatrix}
.             因为z^* 已经是最小值了,不存在非负解,使得c^Tx=z^*-\epsilon(EMD为非负的值)

  所以Farkas case(1) 不成立, Farkas case(2) 成立。

               存在\hat{y}=\begin{bmatrix} y\\ \alpha \end{bmatrix} 使得 \hat{A}\hat{y}\leq 0\hat{b_{\epsilon }}\hat{y}>0

              

                 等价于: 推理2,推理3 

              ...(10)

                         \forall \hat{A}^T\hat{y} \leq 0,   \hat{b_{\epsilon }}^T\hat{y}=\hat{b_0}^T\hat{y}+\alpha \epsilon > 0 ...(11)

        当 \forall \hat{A}^T\hat{y} \leq 0,    根据式(9) \hat{b_0}^T\hat{y} \leq 0,  式(11)  \hat{b_{\epsilon }}^T\hat{y}=\hat{b_0}^T\hat{y}+\alpha \epsilon > 0

                得知\alpha>0,取\alpha=1

                         max_{y}\begin{Bmatrix} b^Ty|A^Ty \leq c & \end{Bmatrix} \geq z^*-\epsilon

                弱对偶形式:

                          z^* \geq max_{y}\begin{Bmatrix} b^Ty|A^Ty \leq c & \end{Bmatrix}

                 则:

                       z^*-\epsilon \leq max_{y}\begin{Bmatrix} b^Ty|A^Ty \leq c & \end{Bmatrix} \leq z^*

               \epsilon>0 是任意的,两者可以无限接近,从而

                      max_{y}\begin{Bmatrix} b^Ty|A^Ty \leq c & \end{Bmatrix} = z^*=min_x\begin{Bmatrix} c^Tx|Ax =b,x\geq 0\end{Bmatrix}


五:传输成本的对偶

      EMD 优化目标

            

   

      GAN 在图像处理里面,状态变量 x,和y 的范围一致,所以EMD 优化目标可以写成如下:

     

          根据约束条件:A^TF \leq C

       


六   对偶到WGAN

       我们得到最优传输成本的对偶形式

    

     因为 g(x) \leq -f(x), 同时 p(x),q(x)代表的是非负的概率(标量),所以

   

      等价于求解

    这便是我们最终要寻找的最优传输成本(1)的对偶形式了

   当c(x,y)=||x-y||,我们有 c[p,q]=W_1(p,q)

    

这就是WGAN所采用的W距离,于p,q 都是概率分布,因此我们可以写成采样形式

自然地,整个WGAN的训练过程就是


七 Lipschitz约束和Wasserstein 关系

     7.1 Lipschitz 函数定义

       当L =1 的时候 就是 WGAN的约束条件

    

         其中约束条件我们通常写为||f||_L \leq 1

参考:  

20 AI Projects for Kids That Will Blow Their Minds

https://www.cnblogs.com/yhxm/p/13047489.html

python模块:Scipy.optimize.linprog线性规划求解-CSDN博客

CSDN

从Wasserstein距离、对偶理论到WGAN - 科学空间|Scientific Spaces

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/Cpp五条/article/detail/256784
推荐阅读
相关标签
  

闽ICP备14008679号