当前位置:   article > 正文

解析出一个网页中所有的图片_网站图片解析

网站图片解析

题目是为了说明我这篇文章要实现的功能
实际上,知识点就是“正则表达式的介绍和使用”。

问题来源

在做项目的时候遇到了一个问题,就是如何从网页中解析所有的图片,注意!!!这里是“所有”。当时我的第一反应是立刻到网上寻找第三方库,但是,找到的最好的第三方库都和我的问题没有关系,最有关系的就是Java中知道的JavaScript脚本引擎ScriptEngine,可是看了半天还是没看懂这个引擎是在干嘛,所有并没有什么卵用。

既然网上没有现成的第三方库,那么就退而求其次,解析图片的没有,解析HTML的工具总会是有的吧,这里到网上随便搜一搜,就出来了一个工具HtmlParser,这个工具可以帮我们解析HTML正文,包括标签对里面的内容,比如balabala,可以解析balabala;也可以解析标签中的属性,比如可以解析img标签中的src属性,这就是一个图片的地址。

说到这里,似乎有了点头绪,总算有一些图片可以被解析出来了,就是提取img标签中的src属性中的地址,我就试着提取了一下,将提取出来的地址做了一下记录。然后用普通的文本编辑器,比如sublime,我把整个网页的源码粘贴到了编辑器中,搜索以.jpg”这五个连续字符,虽然这中方法很不严谨,但是依然可以粗略的观察到,我们所提取出来的图片地址远远少于整个网页中应该有的图片数量。继续在sublime编辑器里面观察,发现有大量的图片地址出现在JavaScript脚本中,因为我之前不熟悉JavaEE方面的开发,咋看之下存在于JavaScript脚本语言中的地址似乎是以JSON格式存放的,一分钟以后我就发

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/很楠不爱3/article/detail/268860
推荐阅读
相关标签
  

闽ICP备14008679号