当前位置:   article > 正文

基于Java学院网页的搜索引擎设计和实现_基于java的搜索引擎的设计与实现

基于java的搜索引擎的设计与实现

项目运行部署:

首先导入项目MyHeritrix

  1. 然后把jar包加到项目中
  2. 运行类Heritrix
  3. 访问地址http://localhost:8080/index.jsp
  4. 创建一个job 

6.然后写name和你自己的url

7.然后修改modules,只需要修改select writes和select post processors

后面导入第二个程序Preprocess

对学院网站进行抓取、建索、排序、搜索、摘要显示。是Web界面。

首先利用httpclient+多线程去模拟客户端去进行获取网页的内容,然后采用jsoup+多线程来进行解析网页内容并存储本地

项目主要使用技术

Httplcient、Jsoup、多线程、Lucene、、IKAnanyzer数据库dao模式、Javascript /jQuery
Bootstrip、和web网页技术等实现
 

这是从网页抓取数据,数据量比较大、一般建议从第一天晚上开始爬取!也可以在代码中加入其它的过滤条件、让爬取的文件小一点、最后保存在本地运行程序main方法建立索引

运行Java程序 启动Tomcat 访问页面输入关键字就可以进行搜索

 

好了,今天就到这儿吧,小伙伴们点赞、收藏、评论,一键三连走起呀,下期见~~

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/你好赵伟/article/detail/598087
推荐阅读
相关标签
  

闽ICP备14008679号