赞
踩
逻辑回归虽然名字中有回归两字,但其属于分类算法的一种,常用于二分类问题,但其也可以适用于多分类,本文主要针对二分类进行说明,逻辑回归因其形式简单,模型的可解释性非常好,资源占用小,尤其是内存等优势在工业中界应用比较广泛,逻辑回归用一句话可以概括为:逻辑回归假设数据服从伯努利分布,通过极大似然函数的方法,运用梯度下降来求解参数,来达到二分类的目的,可以看到其包含了挺多知识点:假设、极大似然函数(损失函数)、梯度下降(求解方法)、二分类(目的)等,在介绍逻辑回归算法原理之前先来复习几个数学知识点。
以简单的语句讲解逻辑
一个事件只有发生和不发生两种情况,这样的分布称为伯努利分布,如:日常生活中的男、女比例,抛硬币等。
知识扩展:二项分布:N重伯努利分布
参考链接:极大似然估计
在了解极大似然估计之前我们先讲讲两个名词:概率、统计,大家觉得这两个词一样么?
简单说下:概率研究的问题为根据已知模型和参数,去预测产生的结果,而统计则是根据数据,去预测模型和参数,即:概率是已知模型和参数,推数据,统计是已知数据,推模型和参数。
接来下我们来讲讲贝叶斯公式,这个大家应该都清楚(需要了解条件概率、先验概率和后验概率,不了解的请自行百度),其公式为:
其求解的问题为在事件B发生的情况下A发生的概率。在极大似然估计中我们使用到了似然函数,似然这个词和概率其实差不多,但却是两个不同的概念,对于函数P(x|y),其输入有两个:x表示某一个具体的数据;y表示模型的参数。
极大似然估计,通俗来讲:就是利用已知的样本结果信息,反推最具有可能(最大概率)导致这些样本结果出现的模型参数值!
简单来说就是换句话说,极大似然估计提供了一种给定观察数据来评估模型参数的方法,即模型已定,参数未知。
别人博客中的例子:
假如有一个罐子,里面有黑白两种颜色的球,数目多少不知,两种颜色的比例也不知。我 们想知道罐中白球和黑球的比例,但我们不能把罐中的球全部拿出来数。现在我们可以每次任意从已经摇匀的罐中拿一个球出来,记录球的颜色,然后把拿出来的球 再放回罐中。这个过程可以重复,我们可以用记录的球的颜色来估计罐中黑白球的比例。假如在前面的一百次重复记录中,有七十次是白球,请问罐中白球所占的比例最有可能是多少?
很多人马上就有答案了:70%。而其后的理论支撑是什么呢?
我们假设罐中白球的比例是p,那么黑球的比例就是1-p。因为每抽一个球出来,在记录颜色之后,我们把抽出的球放回了罐中并摇匀,所以每次抽出来的球的颜 色服从同一独立分布。
这里我们把一次抽出来球的颜色称为一次抽样。题目中在一百次抽样中,七十次是白球的,三十次为黑球事件的概率是P(样本结果|Model)。
如果第一次抽象的结果记为x1,第二次抽样的结果记为x2....那么样本结果为(x1,x2.....,x100)。这样,我们可以得到如下表达式:
P(样本结果|Model)
= P(x1,x2,…,x100|Model)
= P(x1|Mel)P(x2|M)…P(x100|M)
= p^70(1-p)^30
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。