赞
踩
一开始使用lxml.html.fromstring(),解析后到使用getroot时提示目标对象是一个htmlElement,这和说明文档里写的不一样啊…后来改用lxml.etree.fromstring(),报错解析不了,猜想是字符编码的问题,于是指定parser替换默认parser:
parser = etree.HTMLParser(encoding="utf-8")
html_tree = lxml.etree.fromstring(data, parser=parser)
解析成功,之后再从根节点一个个提取每个node中的text就行了。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。