原问题与对偶问题的定义和关系
(1)原问题与对偶问题定义
一个优化问题的原问题和对偶问题定义如下:
原问题:
定义一函数$L(w,\alpha,\beta)$为:
当然可以用矩阵写成简单的形式:
公式$(3)$中$\alpha^T$和$g(w)$都是$K$维的,而$\beta^T$和$h(w)$都是$M$维的。则原问题的对偶问题为:
其中$\inf \limits_{所有w}{~L(w,\alpha,\beta)~}$的意思是在限制$\alpha$和$\beta$的情况下遍历所有的$w$求最小值,即每确定一个$\alpha$和$\beta$都能算出一个最小值,即每一个$\alpha$和$\beta$都对应一个值,很明显,这是$\alpha$和$\beta$的函数,故写作$\theta(\alpha,\beta)$。那么公式$(4)$是针对所有的$\alpha$和$\beta$求最大值,即在所有的最小值中找最大的。
(2)原问题和对偶问题的关系
定理:如果$w^\ast$是原问题的解,而$\alpha^\ast$和$\beta^\ast$是对偶问题的解,则有:
定理证明如下:
接下来又有一个定义:$G=f(w^\ast)-\theta(\alpha^\ast,\beta^\ast)\ge0$,这里的${G}$叫作原问题与对偶问题的间距,对于某些特定的优化问题,可以证明$G=0$。
强对偶定理:若$f(w)$为凸函数,且$g(w)=Aw+b$(线性),$h(w)=Cw+d$(线性),则此优化问题原问题与对偶问题的间距为零,即$f(w^\ast)=\theta(\alpha^\ast,\beta^\ast)$,此证明比较麻烦,这里不作证明。这时我们就可以将原问题的求解转化到对偶问题的求解上来。