赞
踩
题目是为了说明我这篇文章要实现的功能
实际上,知识点就是“正则表达式的介绍和使用”。
在做项目的时候遇到了一个问题,就是如何从网页中解析所有的图片,注意!!!这里是“所有”。当时我的第一反应是立刻到网上寻找第三方库,但是,找到的最好的第三方库都和我的问题没有关系,最有关系的就是Java中知道的JavaScript脚本引擎ScriptEngine,可是看了半天还是没看懂这个引擎是在干嘛,所有并没有什么卵用。
既然网上没有现成的第三方库,那么就退而求其次,解析图片的没有,解析HTML的工具总会是有的吧,这里到网上随便搜一搜,就出来了一个工具HtmlParser,这个工具可以帮我们解析HTML正文,包括标签对里面的内容,比如balabala,可以解析balabala;也可以解析标签中的属性,比如可以解析img标签中的src属性,这就是一个图片的地址。
说到这里,似乎有了点头绪,总算有一些图片可以被解析出来了,就是提取img标签中的src属性中的地址,我就试着提取了一下,将提取出来的地址做了一下记录。然后用普通的文本编辑器,比如sublime,我把整个网页的源码粘贴到了编辑器中,搜索以.jpg”这五个连续字符,虽然这中方法很不严谨,但是依然可以粗略的观察到,我们所提取出来的图片地址远远少于整个网页中应该有的图片数量。继续在sublime编辑器里面观察,发现有大量的图片地址出现在JavaScript脚本中,因为我之前不熟悉JavaEE方面的开发,咋看之下存在于JavaScript脚本语言中的地址似乎是以JSON格式存放的,一分钟以后我就发
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。