当前位置:   article > 正文

python数据处理之pandas.read_csv()用法详解_python pandas decimal: optional[str] = ".",

python pandas decimal: optional[str] = ".",

1.读取CSV数据:

  1. def read_csv(
  2. filepath_or_buffer: FilePathOrBuffer,
  3. sep=lib.no_default,
  4. delimiter=None,
  5. # Column and Index Locations and Names
  6. header="infer",
  7. names=None,
  8. index_col=None,
  9. usecols=None,
  10. squeeze=False,
  11. prefix=None,
  12. mangle_dupe_cols=True,
  13. # General Parsing Configuration
  14. dtype=None,
  15. engine=None,
  16. converters=None,
  17. true_values=None,
  18. false_values=None,
  19. skipinitialspace=False,
  20. skiprows=None,
  21. skipfooter=0,
  22. nrows=None,
  23. # NA and Missing Data Handling
  24. na_values=None,
  25. keep_default_na=True,
  26. na_filter=True,
  27. verbose=False,
  28. skip_blank_lines=True,
  29. # Datetime Handling
  30. parse_dates=False,
  31. infer_datetime_format=False,
  32. keep_date_col=False,
  33. date_parser=None,
  34. dayfirst=False,
  35. cache_dates=True,
  36. # Iteration
  37. iterator=False,
  38. chunksize=None,
  39. # Quoting, Compression, and File Format
  40. compression="infer",
  41. thousands=None,
  42. decimal: str = ".",
  43. lineterminator=None,
  44. quotechar='"',
  45. quoting=csv.QUOTE_MINIMAL,
  46. doublequote=True,
  47. escapechar=None,
  48. comment=None,
  49. encoding=None,
  50. dialect=None,
  51. # Error Handling
  52. error_bad_lines=True,
  53. warn_bad_lines=True,
  54. # Internal
  55. delim_whitespace=False,
  56. low_memory=_c_parser_defaults["low_memory"],
  57. memory_map=False,
  58. float_precision=None,
  59. storage_options: StorageOptions = None,
  60. )

参数名称说明
filepath接收string。代表文件路径,无默认设置
sep接收string。代表分隔符,默认为‘,’
header接收int或者sequence。表示将某行数据作为列名称,默认为infer,表示自动识别
names接收array。表示列名,默认为None
index_col接收int,sequence或False.表示索引列表的位置,取值为sequence表示多重索引,默认为None
dtype接收dict.代表写入数据类型,列名为key,数据格式为values,默认为None
engine接收c或者python,代表数据解析引擎,默认为C
encoding接收string。表示文件的编码方式,常用的有utf-8,utf-16,gbk,gb2312,gb18030等等
  1. import pandas as pd
  2. # sep表示数据之间的分隔符,如果不指定,则默认为‘,’
  3. data=pd.rean_csv(path,sep=' ')

读取某一CSV文件,但是可以看到其列名称是乱码,这是因为列名称是中文的,为现在的解码方式不能解析中文,所以我们需要修改一下encoding参数设置。

 设置如下:

data=pd.read_csv(path,sep=' ',encoding='gb2312')

 然后可以将读取的CSV数据转换为numpy数据,就可以像数组一样读取了。

data1=np.array(data

2.将数据存储为CSV文件:

  1. def to_csv(
  2. self,
  3. path_or_buf: Optional[FilePathOrBuffer] = None,
  4. sep: str = ",",
  5. na_rep: str = "",
  6. float_format: Optional[str] = None,
  7. columns: Optional[Sequence[Label]] = None,
  8. header: Union[bool_t, List[str]] = True,
  9. index: bool_t = True,
  10. index_label: Optional[IndexLabel] = None,
  11. mode: str = "w",
  12. encoding: Optional[str] = None,
  13. compression: CompressionOptions = "infer",
  14. quoting: Optional[int] = None,
  15. quotechar: str = '"',
  16. line_terminator: Optional[str] = None,
  17. chunksize: Optional[int] = None,
  18. date_format: Optional[str] = None,
  19. doublequote: bool_t = True,
  20. escapechar: Optional[str] = None,
  21. decimal: str = ".",
  22. errors: str = "strict",
  23. storage_options: StorageOptions = None,
  24. )
参数名称说明
path_or_buf接收string。表示文件的存储位置,无默认
sep接收string。表示存储数据之间的分隔符,默认为‘,’
index接收bool。表示是否将行名称写出,默认为True
mode接收特定的string。表示数据写入模式,默认为w
na_rep接收string。表示缺失值,默认为‘  ’
columns接收list。表示写出的列名,默认为None
header接收bool。表示是否将列名写出
encoding接收特定string。表示数据存储的编码格式。
DataFrame.to_csv(path)

在CSV文件中新增一列并保存:

  1. # 假设data为一个CSV数据,我们需要在这个数据的最后新增一列数据
  2. # 新增的数据长度要与data的长度相同
  3. list=[0,1,2,3,4,5,6]
  4. # 新增到data上,sorce为新增列的名称
  5. data['sorce']=list
  6. # 保存,不保存列的编号,编码方式为gbk
  7. data.to_csv(path ,encoding='gbk',index=False)

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/从前慢现在也慢/article/detail/643676
推荐阅读
相关标签
  

闽ICP备14008679号