赞
踩
分析案例的数据集为谷歌应用商店的app数据。
首先导入需要的工具numpy,pandas,matplotlib.pyplot
- import numpy as np
- import pandas as pd
- import matplotlib.pyplot as plt
pandas读取数据文件
df = pd.read_csv('./Python案例/googleplaystore.csv', usecols=(0, 1, 2, 3, 4, 5,6))
usecols函数表示读取前多少列数据,0到6表示读取7列。不用usecols函数默认读取所有列,本次分析只需用到前7列。
- df.head()
- 预览数据,默认为前五行。
运行结果:
- df.describe()
- describe函数展示数据的一些描述性统计信息。
- 默认只输出数值型数据的统计信息。
- 设置参数为'all'则输入的所有列都在输出中,设置为O则只输出离散型变量的统计信息
- df.describe(include='all')
count显示有9367条数据,现在进行一步步数据清洗。
筛选重复数据:
df.drop(df[df.duplicated()].
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。