赞
踩
如果您以前曾在 Python 中使用过 Pandas,您就会知道可以通过多种不同的方式导入表格数据。
Pandas 可能是使用最广泛的用于加载、操作和导出数据的 Python 包之一。
虽然您可能熟悉使用 pandas 读取和写入数据的许多不同方法,但您可能没有意识到一些可能并不像您想象的那么明显的快捷方式/技巧。这可以使导入数据变得更加容易和快速。这篇博文仅探讨了其中的五种技术.
您可能非常熟悉 pd.read_csv() 方法可以导入csv文件的, 其实ta还可以通过 HTTP 从 URL 读取数据。
网络访问 CSV 文件,而不是在本地存储所有文件, 可以省去手动下载内容的麻烦。
- import pandas as pd
-
- url = 'csv文件的网络连接'
- df = pd.read_csv(url)
如果您曾经阅读过 pandas 文档,您可能会遇到 pd.read_html() 方法。与 pd.read_csv() 非常相似,它也具有从 URL 导出数据的附加功能。让这更酷的是,您可以提供一个包含许多表格的网站的 URL,它会抓取所有表格。
例如,考虑维基百科文章“英国经济”。这篇文章可以被抓取如下。
- url = 'https://en.wikipedia.org/wiki/Economy_of_the_United_Kingdom'
-
- df_tables = pd.read_html(url)
有时,当您处理 JSON 数据时, JSON 内往往包含多层嵌套。对于要转换为表格数据的 JSON 对象,它们需
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。