假设类 指的是包含函数的特定的函数簇。例如:具有 d i n d_{in} din个变量的决策树空间。 也确定了学习器可以表示什么,不可以表示什么。
常见假设类(一个高维线性函数) f ( x ) = x ⋅ W + b f\left(x\right)=x\cdot W+b f(x)=x⋅W+b x ∈ R d i n , W ∈ R d i n × d o u t , b ∈ R d o u t x\in R{^{
{d_{in}}}},W\in R^{d_{in}\times d_{out}},b\in R^{d_{out}} x∈Rdin,W∈Rdin×dout,b∈Rdout 其中 x x x是函数输入, W W W和 b b b是参数,常被表示为 Θ \Theta Θ,学习的目标是确定参数的值。
归纳偏置:为了把搜素限制在假设类中,引入了归纳偏置——一组关于期望结果形式的假设。
训练集、测试集和验证集
留一法(留一交叉验证):
原理 首先我们做一个假设:训练样本是一个有代表性的样本集合。
训练 k k k个函数 f 1 : k f_{1:k} f1:k,每次取出一个不同的输入样例,评估 f i f_i fi预测 x i x_i xi的能力。
之后在整个训练集上训练一个函数 f f f
则 f f f在新输入上的准确率接近对取出元素得到正确预测结果的函数 f i f_i fi所占的比例。
二分类 二分类问题中,只有一个输出,所以 d o u t = 1 d_{out}=1 dout=1, w w w是一个向量, b b b是一个标量, f ( x ) = x ⋅ w + b f\left( x \right) = x \cdot w + b f(x)=x⋅w+b 值域为 [ − ∞ , + ∞ ] \left[ { - \infty , + \infty } \right] [−∞,+∞],通常将 f ( x ) f\left( x \right) f(x)的输出通过sign函数进行映射。
s i g m o i d sigmoid sigmoid函数 σ ( x ) = 1 1 + e − x \sigma \left( x \right) = \frac{1}{
{1 + {e^{ - x}}}} σ(x)=1+e−x1 最终模型为: y ^ = σ ( f ( x ) ) = 1 1 + e − ( x ⋅ w + b ) \hat y = \sigma \left( {f\left( x \right)} \right) = \frac{1}{
{1 + {e^{ - \left( {x \cdot w + b} \right)}}}} y^=σ(f(x))=1+e−(x⋅w+b)1