当前位置:   article > 正文

Pandas基础(三)数据导入_pandas导入数据到第四行二列

pandas导入数据到第四行二列

导入数据

使用NumpyPandas导入数据。

>>> import pandas as pd
>>> import numpy as np
  • 1
  • 2

help命令

>>> np.info(np.ndarry.dtype
>>> help(pd.read_csv)
  • 1
  • 2

文本文件

纯文本文件

>>> filename = 'huck_finn.txt'
>>> # 打开文件进行读取
>>> file = open(filename, mode='r')
>>> # 读取文件内容
>>> text = file.read()
>>> # 检查文件是否关闭
>>> print(file.closed)
>>> # 关闭文件
>>> file.close()
>>> print(text)
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10

使用with(上下文管理器)打开纯文本文件

>>> with open('huck_finn.txt', 'r') as file:
		print(file.readline()) # 读取一行数据
		print(file.readline())
		print(file.readline())
  • 1
  • 2
  • 3
  • 4

表格数据

使用Numpy导入表格数据

具有一种数据类型的文件

>>> filename = 'mnist.txt'
>>> data = np.loadtxt(filename, 
					  delimiter=',',  # 分隔符
					  skiprows=2,     # 跳过前两行
					  usecols=[0, 2], # 读取第一和第三列
					  dtype=str)      # 类型
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6

混合数据类型的文件

>>> filename = 'titanic.csv'
>>> data = np.genfromtxt(filename, delimiter=',', names=True, dtype=None)
>>> data_array = np.rectfromcsv(filename)
  • 1
  • 2
  • 3

np.rectfromcsv()函数的默认dtype为None

使用Pandas导入数据

>>> filename = 'winequality-red.csv'
>>> data = pd.read_csv(filename, 
					   nrows=5,     # 读取行数
					   header=None, # 编号用作col名称
					   sep='\t',    # 分隔符
					   commet='#',  # 用于分割注释的字符
					   na_values=[""])  # 要识别为Na的字符串
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7

Excel数据

>>> file = 'urbanpop.xlsx'
>>> data = pd.ExcelFile(file) 
>>> df_sheet2 = data.parse('1960-1966',
							skiprows=[0],
							names=['Country', 'AAM: War(2002)']) 
>>> df_sheet1 = data.parse(0, 
						   parse_cols=[0],
						   skiprows=[0],
						   names=['Country'])
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9

要访问表名,使用sheet_names属性

>>> data.sheet_names
  • 1

SAS文件

>>> from sas7bdat import SAS7BDAT 
>>> with SAS7BDAT('urbanpop.sas7bdat') as file:  	
		df_sas = file.to_data_frame()
  • 1
  • 2
  • 3

Stata 文件

>>> data = pd.read_stata('urbanpop.dta')
  • 1

关系数据库

>>> from sqlalchemy import create_engine 
>>> engine = create_engine('sqlite://Northwind.sqlite')
  • 1
  • 2

使用table_names()方法获取表名列表

>>> table_names = engine.table_names()
  • 1

查询关系数据库

>>> con = engine.connect()
>>> rs = con.execute("SELECT * FROM Orders")
>>> df = pd.DataFrame(rs.fetchall())
>>> df.columns = rs.keys()
>>> con.close()
  • 1
  • 2
  • 3
  • 4
  • 5

使用with(上下文管理器)

>>> with engine.connect() as con:
 		 rs = con.execute("SELECT OrderID FROM Orders")  	
 		 df = pd.DataFrame(rs.fetchmany(size=5))  	
 		 df.columns = rs.keys()
  • 1
  • 2
  • 3
  • 4

使用Pandas查询关系数据库

>>> df = pd.read_sql_query("SELECT * FROM Orders", engine)
  • 1

探索数据

NumPy Array

>>> data_array.dtype               # 数组元素的数据类型
>>> data_array.shape               # 数组大小 
>>> len(data_array)                # 数组的长度
  • 1
  • 2
  • 3

pandas DataFrames

>>> df.head()                      # 返回第一个DataFrame行
>>> df.tail()                      # 返回最后的数据帧行           
>>> df.index                       # 索引
>>> df.columns                     # DataFrame列
>>> df.info()                      # DataFrame的信息
>>> data_array = data.values       # 转换一个数据帧到一个NumPy数组
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6

pickled 文件

>>> import pickle
>>> with open('pickled_fruit.pkl', 'rb') as file:  	
		 pickled_data = pickle.load(file)
  • 1
  • 2
  • 3

HDF5文件

>>> import h5py
>>> filename = 'H-H1_LOSC_4_v1-815411200-4096.hdf5' 
>>> data = h5py.File(filename, 'r')
  • 1
  • 2
  • 3

Matlab 文件

>>> import scipy.io
>>> filename = 'workspace.mat' 
>>> mat = scipy.io.loadmat(filename)
  • 1
  • 2
  • 3

探索字典

用函数访问元素

>>> print(mat.keys())          # 字典键
>>> for key in data.keys():    	
		print(key)
 meta  
 quality  
 strain
>>> pickled_data.values()      # 返回字典值 
>>> print(mat.items())         # 返回(键,值)元组对的格式
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8

使用键访问数据项

>>> for key in data ['meta'].keys()      # 探索HDF5结构
		print(key)
 Description
 DescriptionURL
 Detector
 Duration
 GPSstart
 Observatory
 Type
 UTCstart
>>> print(data['meta']['Description'].value) # 检索键的值
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11

浏览文件系统

命令

 !ls                    # 列出文件和目录的目录内容
 %cd ..                 # 更改当前工作目录
 %pwd                   # 返回当前工作目录路径
  • 1
  • 2
  • 3

os library

>>> import os
>>> path = "/usr/tmp"
>>> wd = os.getcwd()       # 将当前目录的名称存储在字符串中
>>> os.listdir(wd)         # 以列表形式输出目录的内容
>>> os.chdir(path)         # 更改当前工作目录
>>> os.rename("test1.txt", # 重命名一个文件
              "test2.txt")
>>> os.remove("test1.txt") # 删除现有文件 
>>> os.mkdir("newdir")     # 创建一个新目录
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/神奇cpp/article/detail/937804
推荐阅读
相关标签
  

闽ICP备14008679号