当前位置:   article > 正文

java URL 抓取搜索引擎搜到的词条数_统计获取搜索引擎的搜索词条

统计获取搜索引擎的搜索词条
没事写了了个小Java程序,说明一下,Java是我选修的一门小课,和C++相比,Java很多细节都由编译器去实现,而不是程序员自身,某些方面来说,Java比C渣渣简单。这个是我写的为数不多的Java程序,程序内容为URL读取网页,并抓取一些内容,比如词条数。由于比较简单,注释也算啰嗦的了,直接上源码,大伙指教指教,初学难免有不足之处。
  • 1
//by jiabin_h
package java_URL;
import java.applet.Applet;
import java.io.*;
import java.net.*;
import java.util.regex.Matcher;
import java.util.regex.Pattern;
import java.awt.*;
import java.awt.event.*;
import java.util.ArrayList;
import java.util.List;

//!!!!!!!!该程序在只在chrome浏览器、IE浏览器等部分浏览器测试过!!!!!!!!!
public class URL_Test extends Applet implements ActionListener{
    TextField keyword=new TextField(30);//定义搜索关键字
    Choice EngineName;//使用的搜索引擎列表,使用下拉框
    Button go=new Button("开始搜索");

    public void init(){
        setBackground(Color.white);//设置背景色为白色
        keyword=new TextField(20);
        EngineName=new Choice();
        EngineName.addItem("百度");
        EngineName.addItem("搜狗");
        EngineName.addItem("好360");
        EngineName.addItem("必应");
        add(keyword);
        add(EngineName);
        add(go);
        go.addActionListener(this);
    }

    public void actionPerformed(ActionEvent e){
        if(e.getSource()==go){
            try{
                goSearch();
            }catch(Exception e1){
                showStatus("搜索时发生异常:"+e1.toString());
            }
        }
    }

    public void goSearch() throws Exception{
        String str=keyword.getText();
        if(str.equals("")){
            showStatus("请填写搜索关键字!");
            return ;
        }
        String url="";
        switch(EngineName.getSelectedIndex()){          //设置URL,此处不能用https,否则得不到想要的结果
        case 0:
            url = "http://www.baidu.com/s?ie=utf-8&wd=";
            break;
        case 1:
            url = "http://www.sogou.com/web?query=";
            break;
        case 2:
            url = "http://www.so.com/s?ie=utf-8&src=hao_360so&q=";
            break;
        case 3:
            url = "http://cn.bing.com/search?q=";
            break;
        }
        url +=URLEncoder.encode(str,"UTF-8");//将关键字编码成URL格式
        URL search=new URL(url);
        BufferedReader in=new BufferedReader(           //html输入流,UTF-8格式
                new InputStreamReader(search.openStream(),"UTF-8"));
        String inputLine;
        List resultList=new ArrayList();
        while((inputLine=in.readLine())!=null){
//          int len = in.readLine().length();       //此两句神奇,若取消注释,控制台能完完整整打印整个HTML网页
//          byte[] b=new byte[len];                 //若注释,控制台只能打印HTML后部分,前部分可能因内存不够被覆盖
            switch(EngineName.getSelectedIndex()){
            case 0:
                Pattern p=Pattern.compile("</div>百度为您找到相关结果约([^</div>]*)");     //正则表达式
                Matcher m=p.matcher(inputLine);
                if(m.find()){
                    resultList.add(m.group(1));
                }
                break;
            case 3:
                Pattern p1=Pattern.compile("<span class=\"sb_count\">([^ 条结果</span>]*)");//正则表达式
                Matcher m1=p1.matcher(inputLine);
                if(m1.find()){
                    resultList.add(m1.group(1));
                }
                break;
            case 1:                     //搜狗和360没显示词条数,故此处没抓取相关内容
            case 2:
                break;
            }
            System.out.println(inputLine);//输出到控制台
        }
        in.close(); 
        switch(EngineName.getSelectedIndex()){
        case 0:
            showStatus("百度为您找到相关结果约" + resultList + " 条");      //在applet显示相关信息。
            break;
        case 3:
            showStatus("必应为您找到相关结果约" + resultList + " 条");
            break;
        case 1:
        case 2:
            showStatus("已连接搜索引擎" + url);
            break;
        }
        System.out.println(url);        //打印URL到控制台,方便复制到浏览器进行比较
    }
}
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24
  • 25
  • 26
  • 27
  • 28
  • 29
  • 30
  • 31
  • 32
  • 33
  • 34
  • 35
  • 36
  • 37
  • 38
  • 39
  • 40
  • 41
  • 42
  • 43
  • 44
  • 45
  • 46
  • 47
  • 48
  • 49
  • 50
  • 51
  • 52
  • 53
  • 54
  • 55
  • 56
  • 57
  • 58
  • 59
  • 60
  • 61
  • 62
  • 63
  • 64
  • 65
  • 66
  • 67
  • 68
  • 69
  • 70
  • 71
  • 72
  • 73
  • 74
  • 75
  • 76
  • 77
  • 78
  • 79
  • 80
  • 81
  • 82
  • 83
  • 84
  • 85
  • 86
  • 87
  • 88
  • 89
  • 90
  • 91
  • 92
  • 93
  • 94
  • 95
  • 96
  • 97
  • 98
  • 99
  • 100
  • 101
  • 102
  • 103
  • 104
  • 105
  • 106
  • 107
  • 108
  • 109

运行结果如下:
这里写图片描述
这里写图片描述

本文内容由网友自发贡献,转载请注明出处:https://www.wpsshop.cn/w/煮酒与君饮/article/detail/768278
推荐阅读
相关标签
  

闽ICP备14008679号