赞
踩
在当今数字化的时代,数据就像一座宝藏,而网页爬虫就是我们从海量数据中发掘宝藏的工具之一。而结合人工智能生成技术(AIGC)和Python语言,可以更快速地实现网页爬虫,让我们一起来探索这个神奇的组合吧!
首先,我们需要安装Python中用于网页爬虫的相关库,比如requests、BeautifulSoup等。这些库可以帮助我们发送HTTP请求,并解析HTML结构。
# python http请求库
!pip install requests
# python dom 查找
# 不用写正则表达式
!pip install beautifulsoup4
# 通义千问大模型
!pip install dashscope
import requests # node require
from bs4 import BeautifulSoup
import dashscope
接下来,我们可以通过发送HTTP请求来获取网页的HTML内容。
def fetch_movie_list(url): # 设置HTTP 请求头 headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/124.0.0.0 Safari/537.36 Edg/124.0.0.0' } response = requests.get(url, headers=headers) # HTTP状态码 成功 if response.status_code == 200: # 解析器 对html继续解析 soup = BeautifulSoup(response.text, 'html.parser') # 内存中的dom对象 movie_list = [] movies = soup.select('#wrapper #content .article .item') # python 不是完全面向对象的,而更年轻的js 是完全面向对象 # print(len(movies)) # 确保一定是 字符串 all_movies_text = ''.join([movie.prettify() for movie in movies[:2]]) # print(all_movies_text) return all_movies_text else: print('Failed to retrieve content') url = 'http://movie.douban.com/chart' # 函数调用 movies = fetch_movie_list(url) print(movies)
HTTP 请求头中的User-Agent可以通过在浏览器中打印navigator.userAgent得到
在使用AIGC之前,我们需要设置Prompt,以便AIGC可以生成我们需要的内容。
# AIGC LLM + Prompt(指令)
prompt = f"""
{movies}
这是一段电影列表html,请获取电影名(name),封面链接(picture),简介(info),评分(score),评论人数(conmmentsNumber)
,请使用括号里的单词作为属性名,并以JSON数组的格式返回
"""
print(prompt)
现在,我们可以调用AIGC的API,并传入HTML内容和设置好的Prompt,让AIGC帮助我们生成网页爬虫所需的代码。
API_KEY可以在模型服务灵积 DashScope - 阿里云 (aliyun.com)中点击立即开通后点击控制台的API_KEY管理获得
# 更改为自己的API_KEY dashscope.api_key = API_KEY def call_qwen_with_prompt(): message = [ { 'role':'user', 'content':prompt } ] response = dashscope.Generation.call( dashscope.Generation.Models.qwen_turbo, messages = message, result_messages = 'messages' ) print(response) call_qwen_with_prompt()
最终,通过以上步骤,我们可以快速实现一个网页爬虫,从网页中提取我们需要的信息。让编程变得更简单,让AIGC和Python助力你的工作吧!如果你觉得这篇文章有帮助或有所启发,别忘了给我一个鼓励的赞!
感兴趣的小伙伴,赠送全套AIGC学习资料,包含AI绘画、AI人工智能等前沿科技教程和软件工具,具体看这里。
AIGC技术的未来发展前景广阔,随着人工智能技术的不断发展,AIGC技术也将不断提高。未来,AIGC技术将在游戏和计算领域得到更广泛的应用,使游戏和计算系统具有更高效、更智能、更灵活的特性。同时,AIGC技术也将与人工智能技术紧密结合,在更多的领域得到广泛应用,对程序员来说影响至关重要。未来,AIGC技术将继续得到提高,同时也将与人工智能技术紧密结合,在更多的领域得到广泛应用。
一、AIGC所有方向的学习路线
AIGC所有方向的技术点做的整理,形成各个领域的知识点汇总,它的用处就在于,你可以按照下面的知识点去找对应的学习资源,保证自己学得较为全面。
二、AIGC必备工具
工具都帮大家整理好了,安装就可直接上手!
三、最新AIGC学习笔记
当我学到一定基础,有自己的理解能力的时候,会去阅读一些前辈整理的书籍或者手写的笔记资料,这些笔记详细记载了他们对一些技术点的理解,这些理解是比较独到,可以学到不一样的思路。
四、AIGC视频教程合集
观看全面零基础学习视频,看视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。
五、实战案例
纸上得来终觉浅,要学会跟着视频一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。