赞
踩
第四章 数组
4.1:创建数组,数组数据转化,连续不连续一维二维数组切片
数组(横向纵向)展平,数组(横向纵向)堆叠,数组(横向纵向)分割
4.2:数组的运算
4.3:numpy统计分析:数组保存为文件,数组排序,数组去重复
函数聚类:求数组和,均值,方差,最大值,最小值,axis=1表示横向
实验四:课后作业对图片的处理:运用知识点4.1数组的堆叠
第五章 matplotlib绘图
5.1 绘图的参数
5.2 散点图的绘制方法,可视化分析(经济与时间等关系)
5.3 柱形图绘制方法,饼图的绘制方法
5.4 图片只显示红色 蓝色等
实验五:画图以及最后图片的反转
第六章 pandas统计分析
6.1 (1)文本数据的读取,index_col=i 第i行名,header=i 第i列名,sep分隔符 encoding='gbk'
iloc分割支持索引和切片运算符
(2)excel文件的读取,
两种文件的存储
6.2.1 DataFrame操作:
Series类的获取方式以及常用属性,DataFrame常用属性
DataFrame行名列名,字典转dataframe类型,以及dataframe转置
Seires和dataframe里增删改查:可以用位置与行名切片
格式Series.iloc[行位置区间/行位置列表/行筛选条件列表]
行位置列表:指由任意个行位置组成的list
行位置区间:首行位置:末行位置(不含):区间步长
行筛选条件列表: 若干个(与系列总行数相等)逻辑型元素组成的list
iloc:位置切片 loc:名称切片 head(i)前i行 tail后几行
任意行切片,行位置即整数的行号,从0开始
ist_pos=[0,1,4] #行位置list
sr_gdp_1.iloc[list_pos]
行筛选条件切片
sr_sel =sr_gdp_1>=25000 # Series对象
list_sel=list(sr_sel) # list对象 行筛选条件列表,表示GDP大于25000
sr_gdp_1.iloc[list_sel]
6.2.2dataframe来处理数据以及实例
dataframe对象切片,增加修改dataframe,删除dataframe某一行/列
dataframe数据分析(求最大值,均值等),series.describe统计
eg:成绩表处理
6.3处理与转换时间序列数据
6.4分组聚合进行组内计算
1)groupby拆分数据,get_group(‘xxxx’)获取分组后数据
2)agg方法:函数名聚合与字典聚合------ 点菜实例
6.5透视表的制作与应用
实验七:药品信息处理
df_xxx[['xx','xx']].groupby(by='xx') 用xx分组
df.sort_values(by='xx',axis=0,ascending=FALSE) 以xx的值大小进行降序排列
list1 = [bid in 要求的20行 for bid in 全部行]
信息熵:难点
第七章:数据预处理
7.1 堆叠合并:横向/纵向堆叠,主键合并
7.2 数据清洗:去重复,特征列重复处理,
检测预处理缺失值的方法:
1.删除法:DataFrame.dropna()方法函数删除含有缺失值的特征列,how=any与all的区别
2.替换法:fillna()的用法
3.插值法:线性插值等
检测与处理异常值:
7.3 标准化数据:用离差,标准差对特征列进行标准化:
7.4 数据转换:
1.用哑变量处理类别型数据
2.连续型数据的离散化:等宽法,等频法
第八章: 用scikit-learn 构建模型
8.1
1)将数据集划分为训练集和测试集 2)使用sklearn转换器对数据预处理与降维
eg:波士顿房价:任务一使用sklearn实现数据处理和降维:四步:1.读取数据 2.划分数据集/训练集 3.使用标准差进行数据预处理 4.PCA降维
8.2 构建聚类模型
eg:鸢尾花数据集:1.构建模型的步骤 2.绘图 3.评价聚类模型:两种评价方法
例题:根据小麦各特征构建模型
8.3构建并评价分类模型:
1)模型构建流程
2)评价该分类模型
eg:鲍鱼年龄预测:
8.4 构建并评价回归模型:
eg:波士顿房价
1.构建线性回归模型的流程
2.回归预测结果可视化流程
3.评价回归模型性能流程
实验8答案在实验7里
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。