赞
踩
原来计算预测值,线性计算结果如果小于零,预测值为0;如果原来计算预测值为1,预测值就为1。结果只有0和1两种取值,但是这样如果样本错误分类,误差为1,如果样本正确分类,误差为0。这种误差计算方式太为武断,且无法反映误差大小。如下:
h
(
x
)
=
{
0
θ
T
x
<
0
1
θ
T
x
>
0
h(x) =
因此将原本分类前的预测值用sigmoid函数散列到零和一之间的数,来表示它有多大的概率分类结果为0/1。代入sigmiod函数
g
(
x
)
=
1
1
+
e
−
x
所
以
,
h
(
x
)
=
g
(
θ
T
X
)
g(x) =\frac{1}{1+e^{-x}}\\ 所以,h(x)=g(\theta^TX)
g(x)=1+e−x1所以,h(x)=g(θTX)
将预测值散列到 0-1之间。计算代价函数就不会出现只有两个值的情况了,也更能反映估计值与真实值的偏差
根据训练数据,训练出来一个训练模型。将训练数据带入模型中,得出训练数据的预测值。 该预测值与训练数据(真实值)的误差叫做训练误差。
在工程中,一般会将拿到的数据集做切分,百分之八十做训练数据,百分之二十做
测试数据与真实值的误差,一般可以将预测误差当作泛化误差。
模型将来会用来去预测未知的样本,若用到未知的样本上,产生的误差叫做泛化误差。
在c=1时,预测错误的代价可以直接用x,θ计算出来的sigmoid值来表示条件概率,即在给出预测值的条件下,c=1发生的概率
在c=0时,越接近0概率越小,但是我们希望当c=0时,预测错误的代价是大的,因此用1-h_θ(x)来表示
代价函数求对数的原因:
岭回归的代价函数实际上就是对 θ的L(2)正则化
岭系数就是正则化参数,而岭回归就由于正则化(对每个参数增加了惩罚因子),而避免了过拟合问题
高维数据指数据的维度很高,甚至远大于样本量的个数。高维数据的明显的表现是:在空间中数据是非常稀疏的,与空间的维数相比样本量总是显得非常少。
在分析高维数据过程中碰到最大的问题就是维数的膨胀,也就是通常所说的“维数灾难”问题。研究表明,随着维数的增长,分析所需的空间样本数会呈指数增长。
Lasso是另一种数据降维方法,该方法不仅适用于线性情况,也适用于非线性情况。Lasso是基于惩罚方法对样本数据进行变量选择,通过对原本的系数进行压缩,将原本很小的系数直接压缩至0,从而将这部分系数所对应的变量视为非显著性变量,将不显著的变量直接舍弃(系数变为0)。
LASSO回归之所以会带来稀疏化的效果,是因为他是L1正则化项,因此代价函数等值线更容易切到阴影部分的顶点,切到顶点就必然会有某些权重很小或几乎为0,这就是LASSO稀疏化得原因。
β
=
arg
m
i
n
{
∑
i
=
1
N
(
y
i
−
h
(
x
i
)
)
2
+
λ
∑
j
=
1
p
β
2
}
等
价
于
β
=
arg
m
i
n
{
∑
i
=
1
N
(
y
i
−
h
(
x
i
)
)
2
}
s
.
t
.
∑
j
=
1
p
β
j
2
≤
t
\beta = \arg min\{\sum_{i=1}^N(y_i-h(x_i))^2+\lambda\sum_{j=1}^p\beta^2\}\\ 等价于\\ \beta = \arg min\{\sum_{i=1}^N(y_i-h(x_i))^2\}\\ s.t.\sum_{j=1}^p\beta_j^2\le t
β=argmin{i=1∑N(yi−h(xi))2+λj=1∑pβ2}等价于β=argmin{i=1∑N(yi−h(xi))2}s.t.j=1∑pβj2≤t
岭回归:
多重线性回归要求各个自变量之间相互独立,不存在多重共线性。所谓多重共线性,是指自变量之间存在某种相关或者高度相关的关系,其中某个自变量可以被其他自变量组成的线性组合来解释。
医学研究中常见的生理资料,如收缩压和舒张压、总胆固醇和低密度脂蛋白胆固醇等,这些变量之间本身在人体中就存在一定的关联性。如果在构建多重线性回归模型时,把具有多重共线性的变量一同放在模型中进行拟合,就会出现方程估计的偏回归系数明显与常识不相符,甚至出现符号方向相反的情况,对模型的拟合带来严重的影响。
在逻辑回归分类中,二维平面上,纵坐标表示真实类别,横坐标表示预测函数计算结果(因为预测结果是x被分为某类的概率值,因此图中为“ 概率 ”)。据此,可以给定一个阈值, 将预测函数计算出来的结果根据阈值进行二分类。
将混淆矩阵映射到二维空间中:横轴:FPR,纵轴:TPR。
可以将ROC的横轴理解为代价,纵轴理解为收获
AUC为ROC与横轴的面积
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。