赞
踩
etree篇
from lxml import etree
html篇
from lxml import html
fromstring(content)
如果源码为utf-8或者gbk编码的字符串。fromstring函数会检测网页源码中meta标签下content属性中charset,对源码进行解码。
<meta http-equiv="content-type" content="text/html; charset=utf-8">
有些通过requests保存的源码,meta标签被修改过,
类似<meta charset=utf-8">这样,便不会检测出编码,不会解码。源码中字符串\x80被补上00变成\u0080的unicode。输出为乱码。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。