当前位置:   article > 正文

最优化理论与方法-第十讲-弱对偶定理,强对偶定理

最优化理论与方法-第十讲-弱对偶定理,强对偶定理

1. 弱对偶定理

  • 概述:具体详见此节: 最优化理论与方法-第十讲-约束优化
    v ( P ) v(P) v(P)是原问题 ( P ) (P) (P)的最优值, v ( D ) v(D) v(D)是对偶问题 ( D ) (D) (D)的最优值,则
    v ( D ) ≤ v ( P )
    v(D)v(P)
    v(D)v(P)
  • 我们知道对于 f ( x ) f(x) f(x)来说,其最小值为 v ( P ) v(P) v(P),可得: v ( P ) ≤ f ( x ) v(P)\le f(x) v(P)f(x),因为对于对偶问题 d ( λ , μ ) d(\lambda,\mu) d(λ,μ)来说,其最大值为 v ( D ) v(D) v(D),所以可得: d ( λ , μ ) ≤ v ( D ) d(\lambda,\mu)\le v(D) d(λ,μ)v(D)
  • 整理可得恒等式:
    d ( λ , μ ) ≤ v ( D ) ≤ v ( P ) ≤ f ( x )
    d(λ,μ)v(D)v(P)f(x)
    d(λ,μ)v(D)v(P)f(x)

1.1 推论1

  • 假设在原问题的定义域内存在一个 x ˉ ∈ S \bar{x}\in S xˉS,在对偶问题中的定义域内存在一对参数 ( λ ˉ , μ ˉ ) , λ ˉ ≥ 0 (\bar{\lambda},\bar{\mu}),\bar{\lambda}\ge0 (λˉ,μˉ),λˉ0,满足如下:
    d ( λ ˉ , μ ˉ ) = f ( x ˉ )
    d(λ¯,μ¯)=f(x¯)
    d(λˉ,μˉ)=f(xˉ)
  • 那么可得,且这个点同时为原问题和对偶问题的最优解。
    v ( D ) = v ( P )
    v(D)=v(P)
    v(D)=v(P)
  • 解释:因为满足弱对偶定理和前后相等可得:
    d ( λ ˉ , μ ˉ ) ≤ v ( D ) ≤ v ( P ) ≤ f ( x ˉ ) , d ( λ ˉ , μ ˉ ) = f ( x ˉ ) → v ( D ) = v ( P )
    d(λ¯,μ¯)v(D)v(P)f(x¯),d(λ¯,μ¯)=f(x¯)v(D)=v(P)
    d(λˉ,μˉ)v(D)v(P)f(xˉ),d(λˉ,μˉ)=f(xˉ)v(D)=v(P)

1.2 推论2

  • 如果 v ( P ) = − ∞ v(P)=-\infty v(P)=,则可得 d ( λ , μ ) = − ∞ , ∀    ( λ , μ ) , λ ≥ 0 d(\lambda,\mu)=-\infty,\forall \;(\lambda,\mu),\lambda\ge0 d(λ,μ)=,(λ,μ),λ0
  • 如果 v ( D ) = + ∞ v(D)=+\infty v(D)=+,则可得 v ( P ) = + ∞ v(P)=+\infty v(P)=+,原问题P无可行解

2. duality gap

2.1 定义

我们定义duality-gap 表示原问题的最优值减去对偶问题的最优值如下:
d u a l i t y    g a p = v ( P ) − v ( D )

dualitygap=v(P)v(D)
dualitygap=v(P)v(D)

2.2 约束问题

假设我们有如下约束优化问题:

  • 原问题:
    ( P )      min ⁡    { x 1 2 + x 2 2 } s t .      − x 1 − x 2 ≤ − 1 2 , x ∈ Z + 2

    (P)min{x12+x22}st.x1x212,xZ+2
    (P)min{x12+x22}st.x1x221,xZ+2

  • 根据图形可得,当 x 1 = 0 , x 2 = 1 x_1=0,x_2=1 x1=0,x2=1时可以去的最小值,则 v ( P ) = 1 v(P)=1 v(P)=1

  • 拉格朗日函数如下:
    d ( x , λ ) = x 1 2 + x 2 2 + λ ( 1 2 − x 1 − x 2 )

    d(x,λ)=x12+x22+λ(12x1x2)
    d(x,λ)=x12+x22+λ(21x1x2)

  • 对偶问题如下:
    max ⁡ λ min ⁡ ( x 1 , x 2 ) { d ( x , λ ) } = max ⁡ λ min ⁡ ( x 1 , x 2 ) { x 1 2 + x 2 2 + λ ( 1 2 − x 1 − x 2 ) }

    maxλmin(x1,x2){d(x,λ)}=maxλmin(x1,x2){x12+x22+λ(12x1x2)}
    λmax(x1,x2)min{d(x,λ)}=λmax(x1,x2)min{x12+x22+λ(21x1x2)}

  • 化简如下:
    max ⁡ λ min ⁡ ( x 1 , x 2 ) { d ( x , λ ) } = max ⁡ λ min ⁡ ( x 1 , x 2 ) { ( x 1 − λ 2 ) 2 + ( x 2 − λ 2 ) 2 + λ 2 − λ 2 2 }

    maxλmin(x1,x2){d(x,λ)}=maxλmin(x1,x2){(x1λ2)2+(x2λ2)2+λ2λ22}
    λmax(x1,x2)min{d(x,λ)}=λmax(x1,x2)min{(x12λ)2+(x22λ)2+2λ2λ2}

  • 也就是说,当 λ \lambda λ确定时,内部的最小值指的是坐标点 P ( x 1 , x 2 ) P(x_1,x_2) P(x1,x2) Q ( λ 2 , λ 2 ) Q(\frac{\lambda}{2},\frac{\lambda}{2}) Q(2λ,2λ)的最短距离,那我们就分类讨论 λ 2 \frac{\lambda}{2} 2λ在坐标轴哪?

  • 1 2 < λ 2 < 3 2 \frac{1}{2}<\frac{\lambda}{2}<\frac{3}{2} 21<2λ<23时,最短的点为 P = ( 1 , 1 ) P=(1,1) P=(1,1)
    min ⁡ ( x 1 , x 2 ) { d ( x , λ ) } = min ⁡ ( x 1 , x 2 ) { x 1 2 + x 2 2 + λ ( 1 2 − x 1 − x 2 ) } = 2 − 3 2 λ

    min(x1,x2){d(x,λ)}=min(x1,x2){x12+x22+λ(12x1x2)}=232λ
    (x1,x2)min{d(x,λ)}=(x1,x2)min{x12+x22+λ(21x1x2)}=223λ

  • 3 2 < λ 2 < 5 2 \frac{3}{2}<\frac{\lambda}{2}<\frac{5}{2} 23<2λ<25时,最短的点为 P = ( 2 , 2 ) P=(2,2) P=(2,2)
    min ⁡ ( x 1 , x 2 ) { d ( x , λ ) } = min ⁡ ( x 1 , x 2 ) { x 1 2 + x 2 2 + λ ( 1 2 − x 1 − x 2 ) } = 8 − 7 2 λ

    min(x1,x2){d(x,λ)}=min(x1,x2){x12+x22+λ(12x1x2)}=872λ
    (x1,x2)min{d(x,λ)}=(x1,x2)min{x12+x22+λ(21x1x2)}=827λ

  • k − 1 2 < λ 2 < k + 1 2 k-\frac{1}{2}<\frac{\lambda}{2}<k+\frac{1}{2} k21<2λ<k+21时,最短的点为 P = ( k , k ) P=(k,k) P=(k,k)
    min ⁡ ( x 1 = k , x 2 = k ) { d ( x , λ ) } = min ⁡ ( x 1 = k , x 2 = k ) { 2 k 2 + λ ( 1 2 − 2 k ) } , k = 1 , 2 , ⋯   , n

    min(x1=k,x2=k){d(x,λ)}=min(x1=k,x2=k){2k2+λ(122k)},k=1,2,,n
    (x1=k,x2=k)min{d(x,λ)}=(x1=k,x2=k)min{2k2+λ(212k)},k=1,2,,n

  • k = 1 , 2 , ⋯   , n k=1,2,\cdots,n k=1,2,,n代入可得,根据 k − 1 2 < λ 2 < k + 1 2 k-\frac{1}{2}<\frac{\lambda}{2}<k+\frac{1}{2} k21<2λ<k+21
    max ⁡ λ min ⁡ ( x 1 , x 2 ) { d ( x , λ ) } = 1 2

    maxλmin(x1,x2){d(x,λ)}=12
    λmax(x1,x2)min{d(x,λ)}=21
    在这里插入图片描述

  • 综上所示, v ( D ) = 1 2 , v ( P ) = 1 v(D)=\frac{1}{2},v(P)=1 v(D)=21,v(P)=1,可得:
    d u a l i t y    g a p = v ( P ) − v ( D ) = 1 − 1 2 = 1 2

    dualitygap=v(P)v(D)=112=12
    dualitygap=v(P)v(D)=121=21

3. 强对偶定理

3.1 概述

  • 假设:
    1) 集合X为非空凸集, f ( x ) f(x) f(x) g i ( x ) , i = 1 , 2 , ⋯   , m g_i(x),i=1,2,\cdots,m gi(x),i=1,2,,m是凸函数, h i ( x ) , i = 1 , 2 , ⋯   , l h_i(x),i=1,2,\cdots,l hi(x),i=1,2,,l均为线性函数。
    2) 假设存在 x ^ ∈ X \hat{x}\in X x^X使得 g i ( x ^ ) < 0 , i = 1 , ⋯   , m , h i ( x ^ ) = 0 , i = 1 , ⋯   , l g_i(\hat{x})<0,i=1,\cdots,m,h_i(\hat{x})=0,i=1,\cdots,l gi(x^)<0,i=1,,m,hi(x^)=0,i=1,,l,且
    0 ∈ i n t    h ( X ) 0\in \mathrm{int}\; h(X) 0inth(X),其中 h ( X ) = { [ h 1 ( x ) , h 2 ( x ) , ⋯   , h l ( x ) ] T ∣ x ∈ X } h(X)=\{[h_1(x),h_2(x),\cdots,h_l(x)]^T\big|x\in X\} h(X)={[h1(x),h2(x),,hl(x)]T xX},则强对偶成立,即:
    min ⁡ { f ( x ) ∣ x ∈ S } = max ⁡ { d ( λ , μ ) ∣ λ ≥ 0 , μ }
    min{f(x)|xS}=max{d(λ,μ)|λ0,μ}
    min{f(x)xS}=max{d(λ,μ) λ0,μ}
  • 假设1保证了G是一个凸函数集
  • 假设2保证了图集G在-y处有阴影
  • 基于如下讨论最优化理论与方法-第十讲-约束优化,可得原问题P的最小值和对偶问题的最大值一致
    在这里插入图片描述

3.2 证明:

  • 由于 x ^ \hat{x} x^的存在,则原问题 ( P ) (P) (P)有可行解

  • v ( P ) = − ∞ v(P)=-\infty v(P)=,根据弱对偶定理推论可得: d ( λ , μ ) = − ∞ , ∀    ( λ , μ ) , λ ≥ 0 d(\lambda,\mu)=-\infty,\forall\;(\lambda,\mu),\lambda \ge0 d(λ,μ)=,(λ,μ),λ0

  • v ( P ) = v v(P)=v v(P)=v,根据弱对偶定理推论可得:不存在 x ∈ X x\in X xX,使得 f ( x ) < v , g i ( x ) ≤ 0 , i = 1 , ⋯   , m , h i ( x ) = 0 , i = 1 , ⋯   , l f(x)<v,g_i(x)\le0,i=1,\cdots,m,h_i(x)=0,i=1,\cdots,l f(x)<v,gi(x)0,i=1,,m,hi(x)=0,i=1,,l

  • 定义H函数如下:
    H = { ( p q r ) ∈ R 1 + m + l ∣ f ( x ) − v < p , g i ( x ) ≤ q i , i = 1 , ⋯   , m ; h i ( x ) = r i , i = 1 ⋯   , l , x ∈ X }

    H={(pqr)R1+m+l|f(x)v<p,gi(x)qi,i=1,,m;hi(x)=ri,i=1,l,xX}
    H={ pqr R1+m+l f(x)v<p,gi(x)qi,i=1,,m;hi(x)=ri,i=1,l,xX}

  • 可知:H是凸函数,且 ( 0 0 0 ) ∉ H

    (000)
    \notin H 000 /H,根据凸集分离定理,则存在 ( λ 0 λ μ ) ≠ 0
    (λ0λμ)
    \neq 0
    λ0λμ =0
    ,使得:
    ( λ 0 λ μ ) T ( p q r ) ≥ 0 , ∀ ( p q r ) ∈ d ( H )
    (λ0λμ)T(pqr)0,(pqr)d(H)
    λ0λμ T pqr 0, pqr d(H)

    在这里插入图片描述

  • 整理可得: λ 0 , q \lambda_0,q λ0,q为实数,不是向量,不需要转置
    λ 0 p + λ T q + μ T r ≥ 0 → λ 0 ≥ 0 , λ i ≥ 0 , i = 1 , ⋯   , m

    λ0p+λTq+μTr0λ00,λi0,i=1,,m
    λ0p+λTq+μTr0λ00,λi0,i=1,,m

  • 由图可得对于任意的 x ∈ X x\in X xX来说,都在超平面上方,所以可得:
    ∀ x ∈ X , λ 0 ≥ 0 , λ 0 [ f ( x ) − v ] + ∑ i = 1 m λ i g i ( x ) + ∑ i = 1 l μ i h i ( x ) ≥ 0

    xX,λ00,λ0[f(x)v]+i=1mλigi(x)+i=1lμihi(x)0
    xX,λ00,λ0[f(x)v]+i=1mλigi(x)+i=1lμihi(x)0

3.3 证明 λ 0 ≠ 0 \lambda_0\neq0 λ0=0

  • 我们可以设 λ 0 = 0 , x = x ^ \lambda_0=0,x=\hat{x} λ0=0,x=x^ 代入可得:
    ∑ i = 1 m λ i g i ( x ^ ) + ∑ i = 1 l μ i h i ( x ^ ) ≥ 0 ; g i ( x ^ ) ≤ 0 , h i ( x ^ ) = 0
    i=1mλigi(x^)+i=1lμihi(x^)0;gi(x^)0,hi(x^)=0
    i=1mλigi(x^)+i=1lμihi(x^)0;gi(x^)0,hi(x^)=0
  • 只要有一个 λ i > 0 \lambda_i>0 λi>0,那么必然有 ∑ i = 1 m λ i g i ( x ^ ) < 0 \sum_{i=1}^m \lambda_ig_i(\hat{x})<0 i=1mλigi(x^)<0,矛盾,所以只能都等于0
    λ i = 0
    λi=0
    λi=0
  • 代入到通项可得:
    ∀ x ∈ X , ∑ i = 1 l μ i h i ( x ) ≥ 0
    xX,i=1lμihi(x)0
    xX,i=1lμihi(x)0
  • 由于已知 0 ∈ i n t    h ( X ) 0\in \mathrm{int}\; h(X) 0inth(X),其中 h ( X ) = { [ h 1 ( x ) , h 2 ( x ) , ⋯   , h l ( x ) ] T ∣ x ∈ X } h(X)=\{[h_1(x),h_2(x),\cdots,h_l(x)]^T\big|x\in X\} h(X)={[h1(x),h2(x),,hl(x)]T xX},则存在一个 x ~ , ϵ → 0 \tilde{x},\epsilon\to 0 x~,ϵ0,使得:
    ( h 1 ( x ~ ) ⋮ h l ( x ~ ) ) = ϵ ( − μ 1 ⋮ − μ l )
    (h1(x~)hl(x~))=ϵ(μ1μl)
    h1(x~)hl(x~) =ϵ μ1μl
  • 代入可得:
    ∀ x ∈ X , ϵ > 0 , − ϵ ∑ i = 1 l μ i 2 ≥ 0 → μ i = 0
    xX,ϵ>0,ϵi=1lμi20μi=0
    xX,ϵ>0,ϵi=1lμi20μi=0
  • 综上所述可得:
    λ 0 = 0 , λ i = 0 , μ i = 0 与题目 ( 0 0 0 ) ∉ H , 矛盾,所以 λ 0 = 0 是错误的结论
    λ0=0,λi=0,μi=0(000)H,λ0=0
    λ0=0,λi=0,μi=0与题目 000 /H,矛盾,所以λ0=0是错误的结论
  • 可得:
    λ 0 > 0
    λ0>0
    λ0>0
  • 我们可以整理公式20可得:
    [ f ( x ) − v ] + ∑ i = 1 m λ i λ 0 g i ( x ) + ∑ i = 1 l μ i λ 0 h i ( x ) ≥ 0 ; ∀ x ∈ X
    [f(x)v]+i=1mλiλ0gi(x)+i=1lμiλ0hi(x)0;xX
    [f(x)v]+i=1mλ0λigi(x)+i=1lλ0μihi(x)0;xX
  • 为了方便后续,我们定义 λ i λ 0 = λ i ˉ ≥ 0 , μ i λ 0 = μ i ˉ \frac{\lambda_i}{\lambda_0}=\bar{\lambda_i}\ge0,\frac{\mu_i}{\lambda_0}=\bar{\mu_i} λ0λi=λiˉ0,λ0μi=μiˉ
    [ f ( x ) − v ] + ∑ i = 1 m λ i ˉ g i ( x ) + ∑ i = 1 l μ i ˉ h i ( x ) ≥ 0 ; ∀ x ∈ X
    [f(x)v]+i=1mλi¯gi(x)+i=1lμi¯hi(x)0;xX
    [f(x)v]+i=1mλiˉgi(x)+i=1lμiˉhi(x)0;xX
  • 移项可得:
    f ( x ) + ∑ i = 1 m λ i ˉ g i ( x ) + ∑ i = 1 l μ i ˉ h i ( x )    ≥    v ; ∀ x ∈ X
    f(x)+i=1mλi¯gi(x)+i=1lμi¯hi(x)v;xX
    f(x)+i=1mλiˉgi(x)+i=1lμiˉhi(x)v;xX
  • 左边其实就是对偶问题,其中参数为 λ ˉ , μ ˉ \bar{\lambda},\bar{\mu} λˉ,μˉ
    d ( λ ˉ , μ ˉ ) ≥    v = v ( P ) ; ∀ x ∈ X
    d(λ¯,μ¯)v=v(P);xX
    d(λˉ,μˉ)v=v(P);xX
  • 因为根据弱对偶定理可得:
    d ( λ , μ ) ≤    v = v ( P ) ; ∀ x ∈ X
    d(λ,μ)v=v(P);xX
    d(λ,μ)v=v(P);xX
  • 综上所述可得:
    d ( λ ˉ , μ ˉ ) = v ( P ) ; 强对偶成立
    d(λ¯,μ¯)=v(P);
    d(λˉ,μˉ)=v(P);强对偶成立
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/笔触狂放9/article/detail/863573
推荐阅读
相关标签
  

闽ICP备14008679号