赞
踩
目录
网络爬虫(Web Crawler),又称网络蜘蛛(Web Spider),是一种按照一定规则,自动抓取万维网信息的程序。简单来说,爬虫就是自动访问网页并提取数据的工具。
' requests ' 库是一个非常简洁和人性化的HTTP库,用于发送HTTP请求。
安装方法:
pip install requests
使用示例:
- import requests
-
- url = 'http://example.com'
- response = requests.get(url)
- print(response.text)
' BeautifulSoup ' 是一个可以从HTML或XML文件中提取数据的Python库。它提供Pythonic的方式来导航、搜索和修改解析树。
安装方法:
pip install beautifulsoup4
使用示例:
- from bs4 import BeautifulSoup
-
- html_doc =
- """
- <html>
- <head>
- <title>The Dormouse's story</title>
- </head>
- <body>
- <p class="title"><b>The Dormouse's story</b></p >
- <p class="story">Once upon a time there were three little sisters; and their names were
- Elsie, and ; and they lived at the bottom of a well.</p >
- <p class="story">...</p >
- </body>
- </html>
- """
-
- soup = BeautifulSoup(html_doc, 'html.parser')
- print(soup.title.string)
- print(soup.find_all('a'))
' Scrapy ' 是一个用于爬取网站并从网页中提取结构化数据的应用框架。它非常适合大规模爬取数据。 下面简单介绍一下用法。
安装方法:
pip install scrapy
创建一个Scrapy项目:
- scrapy startproject myproject
- cd myproject
- scrapy genspider example example.com
Scrapy项目结构:
- myproject/
- scrapy.cfg # 项目配置文件
- myproject/ # 项目Python模块
- __init__.py
- items.py # 项目items文件
- middlewares.py # 项目中间件文件
- pipelines.py # 项目pipelines文件
- settings.py # 项目设置文件
- spiders/ # 爬虫目录
- __init__.py
- example.py # 自动生成的爬虫
一个简单的爬虫示例:
- import scrapy
-
- class ExampleSpider(scrapy.Spider):
- name = 'example'
- start_urls = ['http://example.com']
-
- def parse(self, response):
- for title in response.css('title::text'):
- yield {'title': title.get()}
运行爬虫:
scrapy crawl example
本文介绍了Python爬虫的基础知识,包括爬虫的工作流程、常用工具和库以及反爬虫措施和应对策略。掌握这些基础知识,你就可以开始编写自己的爬虫了。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。