赞
踩
学完了吴恩达机器学习的Logistic回归一章,事不宜迟,马上实战。我选择拿来练习的数据会尽量找手边的真实数据,这样才能真确地增加处理问题的能力。
简介
我手上有一份某985大学某专业2018年考研复试结果的excel表格数据是真实的,是从该学校一个师兄的手上拿到的:
复试结果
整个表格共有82个数据,也就是共有82名考生参加了复试,其中有56个考生被录取。我希望构建一个Logistic回归模型,以初试的四门课为自变量——政治、英语、数学和专业课,基于这四个变量预测考生是否会被录取。
我在excel对数据进行了简单的处理,单独选取了政治、英语、数学、专业课和拟录取结果五列出来,并且删除了拟“少干”计划录取和拟“退役大学生士兵”专项计划录取两个特殊数据,将“拟录取”的值设为1,“拟候补录取”和“拟不录取”的值设为0,保存为csv文件。
代码
sklearn库有专门的logistic回归类,但是吴恩达的作业要求同学自己实现一遍logistic回归——求解全局最小代价的参数,而且我还不是很熟悉sklearn库,因此我在Python重复造一次轮子。首先导入相关的库:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.metrics import classification_report # 分类评价报告
import scipy.optimize as opt # 寻找
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。