引言
逻辑回归常用来处理分类问题,最常用来处理二分类问题。
生活中经常遇到具有两种结果的情况(冬天的北京会下雪,或者不会下雪;暗恋的对象也喜欢我,或者不喜欢我;今年的期末考试会挂科,或者不会挂科……)。对于这些二分类结果,我们通常会有一些输入变量,或者是连续性,或者是离散型。那么,我们怎样来对这些数据建立模型并且进行分析呢?
我们可以尝试构建一种规则来根据输入变量猜测二分输出变量,这在统计机器学上被称为分类。然而,简单的给一个回答“是”或者“不是”显得太过粗鲁,尤其是当我们没有完美的规则的时候。总之呢,我们不希望给出的结果就是武断的“是”或“否”,我们希望能有一个概率来表示我们的结果。
一个很好的想法就是,在给定输入的情况下,我们能够知道Y的条件概率。一旦给出了这个概率,我们就能够知道我们预测结果的准确性。
让我们把其中一个类称为1,另一个类称为0。(具体哪一个是1,哪一个是0都无所谓)。变成了一个指示变量,现在,你要让自己相信,,类似的,。
假设有10个观测值,分别为 0 0 0 1 1 0 1 0 0 1.即6个0,4个1.那么,,同时,
换句话说,条件概率是就是指示变量(即)的条件期望。这对我们有帮助,因为从这个角度上,我们知道所有关于条件期望的估计。我们要做的最直接的事情是挑选出我们喜欢的平滑器,并估计指示变量的回归函数,这就是条件概率函数的估计。
有两个理由让我们放弃陷入上述想法。
- 概率必须介于0和1之间,但是我们在上面估计出来的平滑函数的输出结果却不能保证如此,即使我们的指示变量不是0就是1;
- 另一种情况是,我们可以更好地利用这个事实,即我们试图通过更显式地模拟概率来估计概率。
假设,是参数为的函数。进一步,假设我们的所有观测都是相互独立的,那么条件似然函数可以写成:
回忆一下,对于一系列的伯努利试验,如果成功的概率都是常数,那么似然概率为:
我们知道,当时,似然概率取得最大值。如果每一个试验都有对应的成功概率,那么似然概率就变成了
不添加任何约束的通过最大化似然函数来估计上述模型是没有意义的。当的时候,,当的时候,