赞
踩
原网页为:常见化学品CAS号列表
代码:
import pandas as pd
for i in range(0, 324): # 爬取全部324页数据
url = 'https://www.chemicalbook.com/CASDetailList_%s00.htm' % (str(i))
tb = pd.read_html(url, encoding="utf-8")[0] # 这里注意设置encoding,否则会中文乱码
tb.to_csv(r'./data/常见化学品CAS号列表.csv', mode='a', encoding='utf_8_sig', header=1, index=0)
print('第' + str(i) + '页抓取完成')
爬出的数据:
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。