赞
踩
基本程序方法学主要以自顶向下设计和自底向上执行为主。
Python官方网站提供了第三方库索引功能,网址如下:
Python官方网站
Python语言的函数库并非都采用Python语言编写。
Python第三方程序包括库(library)、模块(module)和程序包(package)等多种命名。
更广泛的Python计算生态采用额外安装方式服务用户,被成为Python 第三方库。Python通过新一代安装工具pip管理大部分Python第三方库的安装。
Python解释器提供了68个内置函数,不需要应用库而直接使用.这里介绍其中的32个。
Web页面,一般是HTML页面,是Internet组织信息的基础元素。Web页面元素提取是一类常见的问题,在网络爬虫,浏览器等程序中有着不可或缺的重要作用。HTML不是一种编程语言,而是一种对信息的标记语言,对Web的内容,格式进行描述。
本实例以一个HTML形式的Web页面为输入,对国家地理的页面进行元素分析、提取、输出并保存页面中包含的图片链接。
本实例功能可以整体分成如下4个步骤:
def main():
inputfile='chinesegeographic.html'
outputfile='chinesegeographic-urls.txt'
htmlLines=getHTMLlines(inputfile)
imageUrls=extractImageUrls(htmlLines)
showResults(imageUrls)
saveResults(outputfile,imageUrls)
getHTMLlines()函数读取HTML文件内容,并将结果转换为一个分行列表。
def getHTMLlines(htmlpath):
f=open(htmlpath,"r",encoding='utf-8')
ls=f.readlines()
f.close()
return ls
extractImageUrls()函数是程序的核心,用于解析文件并提取图像的URL。
def extractImageUrls(htmllist):
urls=[]
for line in htmllist:
if 'img' in line:
url=line.split
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。