当前位置:   article > 正文

lxml一些函数说明_lxml.html.fromstring有什么用

lxml.html.fromstring有什么用

etree篇

from lxml import etree

html篇

 

from lxml import html

fromstring(content)

如果源码为utf-8或者gbk编码的字符串。fromstring函数会检测网页源码中meta标签下content属性中charset,对源码进行解码。

<meta http-equiv="content-type" content="text/html; charset=utf-8">

有些通过requests保存的源码,meta标签被修改过,

类似<meta charset=utf-8">这样,便不会检测出编码,不会解码。源码中字符串\x80被补上00变成\u0080的unicode。输出为乱码。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/天景科技苑/article/detail/1006282
推荐阅读