Convergence Proof Of Learning Rules
September 4, 2019
感知机学习规则收敛性证明
感知机的学习规则十分简单,但他非常有效。实际上可以证明:只要权值的解存在,该规则总能收敛到实现期望分类的权值上。
由单神经元感知机的输出可得下式:
\[a = hardlim(1^{W^T} p + b)\]网络提供了正确反映网络行为的下述实例:
{p1, t1}, {p2, t2},…,{pq, tq}
其中每个目标的输出 tq 取值 0 或 1
记号
为了方便证明过程,引入几个记号:
权值偏置组合为一个向量:
\[X = \begin{bmatrix} 1^W\\ b \end{bmatrix}\]同样,在输入向量中也增加一个参数 1 ,以表示偏置输入:
\[Z_q = \begin{bmatrix} P_q\\ 1 \end{bmatrix}\]现在可以将神经元的净输入值表示为:
\[n = 1^{W^T} p + b = X^T Z\]那么感知机学习规则可写为:
\[X^{new} = X^{old} + eZ\]误差 e 可以去 1, 0 和 -1。如果 e = 0,那么权值不变;如果 e = 1,则将输入向量和权值向量相加;如果 e = -1,则将权值向量减去输入向量。如果只考虑权值向量发生改变的那些迭代,则该学习规则变为:
\[X(k) = X(k - 1) + Z'(k - 1) (式:1)\]其中Z’(k - 1)是如下集合的元素:
\[\{ Z_1, Z_2, \dots , Z_Q, -Z_1, -Z_2, \dots , -Z_Q \} (式:2)\]现在假设存在对所有 Q 个输入向量进行正确分类的权值向量 $ X^* $,对该权值向量,假设:
\[如果 t_q = 1, 那么 X^{*T} Z_q > \delta > 0 (式:3)\]以及
\[如果 t_q = 0, 那么 X^{*T} Z_q < -\delta < 0 (式:4)\]证明
下面开始感知机收敛证明,为此必须找出算法每一阶段权值向量长度的上界和下届。
假设算法的初始权值向量为 0 ,也即是 X(0) = 0。这么并不影响参数的普遍性。那么迭代 k 次后,由(式:1)得:
\[X(k) = Z'(0) + Z'(1) + \dots + Z'(k - 1)\]迭代 k 次后的权值向量和最终的权值向量解 $ X^* $ 之间的内积,可得
\[X^{*T} X(k) = X^{*T} Z'(0) + X^{*T} Z'(1) + \dots + X^{*T} Z'(k - 1)\]由(式:2)到(式:4)可知:
\[X^{*T} Z'(i) > \delta\]所以
\[X^{*T} X(k) > k\delta (式:5)\]由柯西不等式:
\[(X^{*T} X(k))^2 \leq ||X^*||^2 ||X(k)||^2 (式:6)\]其中
\[||X^*||^2 = X^TX\](式:5)和(式:6)结合,则可以得到迭代 k 次后权值向量长度平方的下界为:
\[||X^*||^2 \geq \frac{(X^{*T} X(k))^2 }{||X^*||^2} > \frac{(k\delta)^2}{||X^*||^2}\]下面求权值向量长度的上界:
\[||X^*||^2 = X^T(k)X(k) \\ = [X(k-1) + Z'(k - 1)]^T [X(k-1) + Z'(k - 1)] \\ = X^T(k - 1) X(k - 1) + 2 X^T(k-1) Z'(k - 1) + Z'^T(k - 1) Z'(k - 1) (式:7)\]注意:
\[X^T(k-1) Z'(k - 1) \leq 0\]因为权值向量只有在前一输入错误分类时才会进行更新,(式:7)可化简为:
\[||X(k)||^2 \leq ||X(k - 1)||^2 + ||Z'(k - 1)||^2\]对$ | X(k - 1) | ^2 $ $ | Z’(k - 2) | ^2 $ … 重复上述过程,可得: |
令 $ \Pi = max{ | Z’(i) | ^2 } $,该上界可简化为: |
至此,已求出了 k 次迭代后权值向量长度平方的上界和下届,将其合并:
\[k\Pi \geq ||X^*||^2 > \frac{(k\delta)^2}{||X^*||^2} 或 k \leq \frac{\Pi||X^*||^2}{\delta^2}\]由于 k 有上界,意味着权值的改变次数是有限的,所以感知机在有限次迭代后收敛。
迭代的最大次数与$ \delta^2 $成反比。该参数是输入模式与决策边界的解靠近程度的一种测度。这意味着,如果输入向量越靠近决策边界,就越难将他们分开,就要迭代越多次才能使算法收敛。
请注意该证明是建立在下面三条假设的基础上:
-
问题解存在
-
仅在输入向量被错误分类时才改变权值
-
输入向量长度的上界存在
由于证明的一般性,所以感知机的学习规则的许多变形同样也可证明是收敛的,
局限性
基本的感知机学习规则不能解决异或问题。
线性可分性
假设有一个线性边界(超平面),则感知机可以对那些能够被先行边界分开的输入向量进行分类。这样的向量成为线性可分的。
事实上很多问题并非线性可分的。最典型的就是XOR(异或)门。我们可以使用能够求解任意分类问题的多层感知机,以及反传算法。