赞
踩
推荐链接:
阿秀的学习笔记
JavaGuide中常见面试题总结
机器学习面试笔试求职必备八股文
朴素贝叶斯模型(naive bayes)
随机森林 – Random Forest | RF
特征归一化的意义:特征归一化是数据预处理中重要技术。因为特征间的单位(尺度)可能不同,为了便于后续的下游任务中特征距离计算,为了消除特征间单位和尺度差异的影响,以对每维特征同等看待,需要对特征进行归一化。【把绝对值转为相对值,这样就能体现出哪一维特征的重要性】
特征 / 向量之间的距离计算方法
欧氏距离:衡量空间点的直线距离。n维向量之间的距离计算公式如下:
∑
i
=
1
n
(
x
i
−
y
i
)
2
\sqrt{\sum_{i=1}^{n}(x_i-y_i)^2 }
i=1∑n(xi−yi)2
曼哈顿距离:两个点
(
x
1
,
y
1
)
(x_1,y_1)
(x1,y1)、
(
x
2
,
y
2
)
(x_2,y_2)
(x2,y2)之间的距离计算公式如下:
∣
x
1
−
x
2
∣
+
∣
y
1
−
y
2
∣
\left | x_1-x_2 \right | + \left | y_1-y_2 \right |
∣x1−x2∣+∣y1−y2∣
切比雪夫距离:两个点
(
x
1
,
y
1
)
(x_1,y_1)
(x1,y1)、
(
x
2
,
y
2
)
(x_2,y_2)
(x2,y2)之间的距离定义为其各座标数值差绝对值的最大值。
m
a
x
(
∣
x
1
−
x
2
∣
,
∣
y
1
−
y
2
∣
)
max(\left | x_1-x_2 \right | ,\left | y_1-y_2 \right | )
max(∣x1−x2∣,∣y1−y2∣)
余弦相似度:计算两个向量之间夹角的余弦值,余弦值接近1说明夹角趋近0,表示两个向量相似。余弦值越大表示向量越相似,取值区间[-1, 1]。多维向量之间的余弦值计算如下
c
o
s
Θ
=
∑
i
=
1
n
(
x
i
×
y
i
)
∑
i
=
1
n
x
i
2
+
∑
i
=
1
n
y
i
2
cos\Theta=\frac{\sum_{i=1}^{n}(x_i\times y_i) }{\sqrt{\sum_{i=1}^{n} x_i^2} +\sqrt{\sum_{i=1}^{n} y_i^2}}
cosΘ=∑i=1nxi2
+∑i=1nyi2
∑i=1n(xi×yi)
以两个点
(
x
1
,
y
1
)
(x_1,y_1)
(x1,y1)、
(
x
2
,
y
2
)
(x_2,y_2)
(x2,y2)为例
c
o
s
Θ
(
(
x
1
,
y
1
)
,
(
x
2
,
y
2
)
)
=
x
1
x
2
+
y
1
y
2
x
1
2
+
y
1
2
×
x
2
2
+
y
2
2
cos\Theta((x_1,y_1), (x_2,y_2))=\frac{x_1x_2+y_1y_2}{\sqrt{x_1^2+y_1^2}\times\sqrt{x_2^2+y_2^2} }
cosΘ((x1,y1),(x2,y2))=x12+y12
×x22+y22
x1x2+y1y2
余弦距离=1 - 余弦相似度
One-Hot编码的作用
之所以使用One-Hot编码,是因为在很多机器学习任务中,特征并不总是连续值,也有可能是离散值(如上表中的数据)。将这些数据用数字来表示,执行的效率会高很多。
在机器学习中,常见的模型包括:
模型假设:自变量的变化对因变量的影响是通过一个逻辑函数(sigmoid函数)体现的。
定义:逻辑回归是以线性回归为理论支持的,但是逻辑回归通过Sigmoid函数(又称对数几率函数(Logistic Function))引入了非线性因素,因此在线性回归基础上,主要解决分类问题。
一般表达式:
h
θ
(
x
)
=
g
(
θ
T
x
)
,
g
(
z
)
=
1
1
+
e
−
z
h_\theta (x)=g(\theta ^Tx),g(z)=\frac{1}{1+e^{-z}}
hθ(x)=g(θTx),g(z)=1+e−z1
其中,
g
(
z
)
g(z)
g(z)表示激活函数,【激活函数是用来加入非线性因素的,提高神经网络对模型的表达能力,解决线性模型所不能解决的问题。】这里求解参数
θ
\theta
θ的代价函数是交叉熵函数。
交叉熵函数的定义:
J
θ
=
1
m
∑
i
=
1
m
(
−
y
i
l
o
g
(
h
θ
(
x
i
)
)
−
(
1
−
y
i
)
l
o
g
(
1
−
h
θ
(
x
i
)
)
)
J_\theta =\frac{1}{m}\sum_{i=1}^{m}(-y^ilog(h_\theta (x^i))-(1-y^i)log(1-h_\theta (x^i)))
Jθ=m1i=1∑m(−yilog(hθ(xi))−(1−yi)log(1−hθ(xi)))
用**极大似然估计(Maximum Likelihood Estimation,MLE)**求解的最优参数:
KaTeX parse error: Undefined control sequence: \sideset at position 10: \hat{w}=\̲s̲i̲d̲e̲s̲e̲t̲{}{}{argmax}_w\…
观察上面两式可知,
M
L
E
(
m
a
x
)
MLE(max)
MLE(max)等价于
J
θ
(
m
i
n
)
J_\theta(min)
Jθ(min)
特点:逻辑回归模型可以视为加了Sigmoid的线性模型。至于为什么要使用Sigmoid函数中的对数几率函数,这涉及到伯努利分布的指数族形式,最大熵理论等。这里的参数估计是通过最优化方法来确定最佳拟合数据的模型参数。在二分类问题中,负对数似然函数正是我们所说的交叉熵损失函数。然而,交叉熵损失函数的构建并非只能通过似然函数。
这个模型中包含了许多不同的网络模型,以下将根据他们之间的应用侧重来浅显的解析概念。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。