赞
踩
最近在学习python爬虫,在爬取有验证码的网站时需要输入验证码,就想到可以利用python提供的外部扩展库tesserocr实现对验证码的自动识别。
Tesserocr是python的一个OCR识别库,但其实是对tesseract做的一层python API封装,所以它的核心是tesseract。因此,在安装tesserocr之前,我们需要先安装tesseract。
tesseract是最为成功的ocr识别程序之一,所以它对php、Python等语言都有支持的模块,但是无论是哪种语言,真正起作用的还是后端的识别引擎,依然脱离不了tesseract。
tesseract下载地址为:
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。