赞
踩
一、 十类常用算法
线性回归是一种基本的统计学方法,用于建立一个自变量(或多个自变量)和一个因变量之间的线性关系模型,以预测一个连续的输出变量。这个模型的形式可以表示为:
y = β0 + β1x1 + β2x2 + ... + βpxp + ε
其中,y 是因变量(也称为响应变量),x1, x2, ..., xp 是自变量(也称为特征变量),β0, β1, β2, ..., βp 是线性回归模型的系数,ε 是误差项
线性回归的目标是找到最优的系数 β0, β1, β2, ..., βp,使得模型预测的值与真实值之间的误差最小。这个误差通常用残差平方和来表示:
RSS = Σ (yi - ŷi)^2
其中,yi 是真实的因变量值,ŷi 是通过线性回归模型预测的因变量值。线性回归模型的最小二乘估计法就是要找到一组系数,使得残差平方和最小。
线性回归可以通过多种方法来求解,其中最常用的方法是最小二乘法。最小二乘法就是要找到一组系数,使得残差平方和最小。最小二乘法可以通过矩阵运算来实现,具体地,系数的解可以表示为:
β = (X'X)^(-1)X'y
其中,X 是自变量的矩阵,包括一个截距项和所有自变量的值,y 是因变量的向量。
线性回归在实际中的应用非常广泛,比如在金融、医学、工程、社会科学等领域中,都可以使用线性回归来预测和分析数据。
下面是一个简单的 Python 代码实现线性回归
- import numpy as np
- from sklearn.linear_model import LinearRegression
-
- # 创建一个随机数据集
- np.random.seed(0)
- X = np.random.rand(100, 1)
- y = 2 + 3 * X + np.random.rand(100, 1)
-
- # 创建线性回归模型并拟合数据
- model = LinearRegression()
- model.fit(X, y)
-
- # 打印模型的系数和截距项
- print('Coefficients:', model.coef_)
- print('Intercept:', model.intercept_)
-
- # 预测新数据
- X_new = np.array([[0.5], [1.0]])
- y_new = model.predict(X_new)
-
- # 打印预测结果
- print('Predictions:', y_new)
这个代码使用了 Numpy 库生成了一个包含 100 个样本的随机数据集,并使用 Scikit-learn 库的 LinearRegression 类创建了一个线性回归模型。模型通过 fit() 方法拟合数据,并通过 coef_ 和 intercept_ 属性访问模型的系数和截距项。最后,代码使用 predict() 方法预测了两个新数据点的结果,并打印出了预测结果。
逻辑回归是一种常见的分类算法,用于将一个或多个自变量与一个二元或多元离散的因变量之间的关系建模。它的名字"逻辑"来源于它的模型本质上是一个逻辑函数,用于将输入值转换为一个概率值。逻辑回归通常用于二元分类问题,但也可以扩展到多元分类问题。
逻辑回归模型的基本形式如下:
p(y=1|x) = 1 / (1 + exp(-(b0 + b1x1 + b2x2 + ... + bpxp)))
其中,p(y=1|x) 是给定自变量 x 下因变量 y 取值为 1 的概率,exp() 是指数函数,b0, b1, b2, ..., bp 是模型的系数。
逻辑回归的目标是找到最优的系数 b0, b1, b2, ..., bp,以最大化似然函数,从而使模型预测的结果尽可能地接近真实值。通常,我们会使用极大似然估计法来估计模型的系数。
在训练过程中,逻辑回归模型使用一个称为逻辑损失函数的代价函数来衡量预测结果与真实值之间的误差。逻辑损失函数如下:
J(b) = (-1/m) * Σ[yi*log(p(xi)) + (1-yi)*log(1-p(xi))]
其中,m 是样本数量,yi 是真实的分类标签(0 或 1),p(xi) 是模型预测的分类概率。
逻辑回归可以使用梯度下降法或牛顿法等优化算法来最小化逻辑损失函数,从而得到最优的模型参数。最后,模型将自变量输入到逻辑函数中,得到分类概率,并使用阈值将概率转化为分类标签,通常取阈值为 0.5。
逻辑回归在实际中的应用非常广泛,比如在金融、医学、社会科学等领域中,都可以使用逻辑回归来预测和分析数据。
下面是一个简单的 Python 代码实现逻辑回归:
- import numpy as np
- from sklearn.linear_model import LogisticRegression
- from sklearn.model_selection import train_test_split
- from sklearn.metrics import accuracy_score
-
- # 创建一个随机数据集
- np.random.seed(0)
- X = np.random.rand(100, 3)
- y = np.random.randint(0, 2, 100)
-
- # 划分数据集为训练集和测试集
- X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0)
-
- # 创建逻辑回归模型并拟合数据
- model = LogisticRegression()
- model.fit(X_train, y_train)
-
- # 预测测试集的结果
- y_pred = model.predict(X_test)
-
- # 计算准确率
- accuracy = accuracy_score(y_test, y_pred)
- print('Accuracy:', accuracy)
这个代码使用了 Numpy 库生成了一个包含 100 个样本的随机数据集,并使用 Scikit-learn 库的 LogisticRegression 类创建了一个逻辑回归模型。模型通过 fit() 方法拟合数据,并通过 predict()
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。