赞
踩
chardet 提供自动检测字符编码的功能
chardet.detect() 函数接受一个参数,一个非unicode字符串, 它返回一个字典, 其中包含自动检测到的字符编码和从0到1的可信度级别。
chardet 的安装
pip install chardet
chardet 实例
1.网页编码判断
>>> import urllib
>>> rawdata = urllib.urlopen('http://www.google.cn/').read()
>>> import chardet
>>> chardet.detect(rawdata)
{'confidence': 0.98999999999999999, 'encoding': 'GB2312'}
2.文件编码判断
import chardet
tt=open('c:\\111.txt','rb')
ff=tt.readline()
#这里试着换成read(5)也可以,但是换成readlines()后报错
enc=chardet.detect(ff)
print enc['encoding']
tt.close()
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。