机器学习之判别式模型和生成式模型_判别式模型(discriminative models)

作者：小舞很执着 | 2024-08-07 19:23:46

踩

判别式模型(discriminative models)

https://www.cnblogs.com/nolonely/p/6435213.html

判别式模型（Discriminative Model）是直接对条件概率p(y|x;θ)建模。常见的判别式模型有线性回归模型、线性判别分析、支持向量机SVM、神经网络、boosting、条件随机场等。

　　举例：要确定一个羊是山羊还是绵羊，用判别模型的方法是从历史数据中学习到模型，然后通过提取这只羊的特征来预测出这只羊是山羊的概率，是绵羊的概率。

生成式模型（Generative Model）则会对x和y的联合分布p(x,y)建模，然后通过贝叶斯公式来求得p(yi|x)，然后选取使得p(yi|x)最大的yi，即：

常见的生成式模型有隐马尔可夫模型HMM、朴素贝叶斯模型、高斯混合模型GMM、LDA、高斯、混合多项式、专家的混合物、马尔可夫的随机场

　　举例：利用生成模型是根据山羊的特征首先学习出一个山羊的模型，然后根据绵羊的特征学习出一个绵羊的模型，然后从这只羊中提取特征，放到山羊模型中看概率是多少，在放到绵羊模型中看概率是多少，哪个大就是哪个。

更多更详细的内容参见 http://www.cnblogs.com/fanyabo/p/4067295.html

一、引言

　　本材料参考Andrew Ng大神的机器学习课程 http://cs229.stanford.edu

　　在上一篇有监督学习回归模型中，我们利用训练集直接对条件概率p(y|x;θ)建模，例如logistic回归就利用hθ(x) = g(θTx)对p(y|x;θ)建模（其中g(z)是sigmoid函数）。假设现在有一个分类问题，要根据一些动物的特征来区分大象(y = 1)和狗(y = 0)。给定这样的一种数据集，回归模型比如logistic回归会试图找到一条直线也就是决策边界，来区分大象与狗这两类，然后对于新来的样本，回归模型会根据这个新样本的特征计算这个样本会落在决策边界的哪一边，从而得到相应的分类结果。

　　现在我们考虑另外一种建模方式：首先，根据训练集中的大象样本，我们可以建立大象模型，根据训练集中的狗样本，我们可以建立狗模型。然后，对于新来的动物样本，我们可以让它与大象模型匹配看概率有多少，与狗模型匹配看概率有多少，哪一个概率大就是那个分类。

　　判别式模型（Discriminative Model）是直接对条件概率p(y|x;θ)建模。常见的判别式模型有线性回归模型、线性判别分析、支持向量机SVM、神经网络等。

　　生成式模型（Generative Model）则会对x和y的联合分布p(x,y)建模，然后通过贝叶斯公式来求得p(yi|x)，然后选取使得p(yi|x)最大的yi，即：

常见的生成式模型有隐马尔可夫模型HMM、朴素贝叶斯模型、高斯混合模型GMM、LDA等。

二、高斯判别分析 Gaussian Discriminant Analysis

　　高斯判别分析GDA是一种生成式模型，在GDA中，假设p(x|y)满足多值正态分布。多值正态分布介绍如下：

　　2.1 多值正态分布 multivariate normal distribution

　　一个n维的多值正态分布可以表示为多变量高斯分布，其参数为均值向量，协方差矩阵，其概率密度表示为：

当均值向量为2维时概率密度的直观表示：

左边的图表示均值为0，协方差矩阵∑ = I；中间的图表示均值为0，协方差矩阵∑ = 0.6I；右边的图表示均值为0，协方差矩阵∑ = 2I。可以观察到，协方差矩阵越大，概率分布越扁平；协方差矩阵越小，概率分布越高尖。

　　2.2 高斯判别分析模型

　　如果有一个分类问题，其训练集的输入特征x是随机的连续值，就可以利用高斯判别分析。可以假设p(x|y)满足多值正态分布，即：

该模型的概率分布公式为：

模型中的参数为Φ，Σ，μ0和μ1。于是似然函数（x和y的联合分布）为：

其中Φ是y = 1的概率，Σ是协方差矩阵，μ0是y = 0对应的特征向量x的均值， μ1是y = 1对应的特征向量x的均值，于是得到它们的计算公式如下：

于是这样就可以对p(x,y)建模，从而得到概率p(y = 0|x)与p(y = 1|x)，从而得到分类标签。其结果如下图所示：

三、朴素贝叶斯模型

　　在高斯判别分析GDA中，特征向量x是连续实数值，如果特征向量x是离散值，可以利用朴素贝叶斯模型。

　　3.1 垃圾邮件分类

　　假设我们有一个已被标记为是否是垃圾邮件的数据集，要建立一个垃圾邮件分类器。用一种简单的方式来描述邮件的特征，有一本词典，如果邮件包含词典中的第i个词，则设xi = 1，如果没有这个词，则设xi = 0，最后会形成这样的特征向量x：

这个特征向量表示邮件包含单词"a"和单词"buy"，但是不包含单词"aardvark,"aardwolf","zygmurgy"。特征向量x的维数等于字典的大小。假设字典中有5000个单词，那么特征向量x就为5000维的包含0/1的向量，如果我们建立多项式分布模型，那么有25000中输出结果，这就意味着有接近25000个参数，这么多的参数，要建模很困难。

　　因此为了建模p(x|y)，必须做出强约束假设，这里假设对于给定的y，特征x是条件独立的，这个假设条件称为朴素贝叶斯假设，得到的模型称为朴素贝叶斯模型。比如，如果y= 1表示垃圾邮件，其中包含单词200 "buy"，以及单词300 "price"，那么我们假设此时单词200 "buy" x200、单词300"price"x300 是条件独立的，可以表示为p(x200|y) = p(x200|y,x300)。注意，这个假设与x200与x300独立是不同的，x200与x300独立可以写作：p(x200) = p(x200|x300)；这个假设是对于给定的y，x200与x300是条件独立的。

　　因此，利用上述假设，根据链式法则得到：