赞
踩
注: 本篇博客为《Python机器学习及实践:从零通往Kaggle竞赛之路》一书逻辑回归案例的笔记,欢迎与我交流数据挖掘、机器学习相关话题。
“良/恶性乳腺癌肿瘤预测”的问题属于二分类任务。
待预测的类别分别是良性乳腺癌肿瘤和恶性乳腺癌肿瘤。
通常使用离散的整数来代表类别, 0代表良性,1代表恶性。
数据信息及含义如下图所示:
本项目案例中只取这两个特征,通过图像展示肿瘤样本在二维特征空间的分布情况,如下图所示。X代表恶性肿瘤,O代表良性肿瘤。
def load_data(): """ 加载数据集中的数据 :return: """ # 将训练集读取进来并存至变量df_train df_train = pd.read_csv('./data/breast-cancer-train.csv') # 将测试集读取进来并存至变量df_test df_test = pd.read_csv('./data/breast-cancer-test.csv') # 选取Clump Thickness(肿瘤厚度)和Cell Size(细胞尺寸)作为特征,构建测试集中的正负分类样本 df_test_negative = df_test.loc[df_test['Type'] == 0][['Clump Thickness', 'Cell Size']] df_test_positive = df_test.loc[df_test['Type'] == 1][['Clump Thickness', 'Cell Size']] return df_train, df_test, df_test_negative, df_test_positive if __name__ == '__main__': df_train, df_test, df_test_negative, df_test_positive = load_data() print(df_train) print(df_test) print(df_test_negative) print(df_test_positive)
本项目案例中只取这两个特征,通过图像展示肿瘤样本在二维特征空间的分布情况,如下图所示。X代表恶性肿瘤,O代表良性肿瘤。
def configure_plt(plt): """ 配置图形的坐标表信息 """ # 获取当前的坐标轴, gca = get current axis ax = plt.gca() # 设置x轴, y周在(0, 0)的位置 ax.spines['bottom'].set_position(('data', 0)) ax.spines['left'].set_position(('data', 0)) # 设置坐标轴的取值范围 plt.xlim((0, 15)) plt.ylim((-10, 20)) # 绘制x,y轴说明 plt.xlabel('Clump Thickness') plt.ylabel('Cell Size') return plt def draw_pic(): """ 绘制恶性肿瘤和良性肿瘤的图形 :return: """ df_train, df_test, df_test_negative, df_test_positive = load_data() import matplotlib.pyplot as plt # 绘制图中的良性肿瘤样本点,标记为红色的o plt.scatter(df_test_negative['Clump Thickness'], df_test_negative[
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。