赞
踩
没事写了了个小Java程序,说明一下,Java是我选修的一门小课,和C++相比,Java很多细节都由编译器去实现,而不是程序员自身,某些方面来说,Java比C渣渣简单。这个是我写的为数不多的Java程序,程序内容为URL读取网页,并抓取一些内容,比如词条数。由于比较简单,注释也算啰嗦的了,直接上源码,大伙指教指教,初学难免有不足之处。
//by jiabin_h
package java_URL;
import java.applet.Applet;
import java.io.*;
import java.net.*;
import java.util.regex.Matcher;
import java.util.regex.Pattern;
import java.awt.*;
import java.awt.event.*;
import java.util.ArrayList;
import java.util.List;
//!!!!!!!!该程序在只在chrome浏览器、IE浏览器等部分浏览器测试过!!!!!!!!!
public class URL_Test extends Applet implements ActionListener{
TextField keyword=new TextField(30);//定义搜索关键字
Choice EngineName;//使用的搜索引擎列表,使用下拉框
Button go=new Button("开始搜索");
public void init(){
setBackground(Color.white);//设置背景色为白色
keyword=new TextField(20);
EngineName=new Choice();
EngineName.addItem("百度");
EngineName.addItem("搜狗");
EngineName.addItem("好360");
EngineName.addItem("必应");
add(keyword);
add(EngineName);
add(go);
go.addActionListener(this);
}
public void actionPerformed(ActionEvent e){
if(e.getSource()==go){
try{
goSearch();
}catch(Exception e1){
showStatus("搜索时发生异常:"+e1.toString());
}
}
}
public void goSearch() throws Exception{
String str=keyword.getText();
if(str.equals("")){
showStatus("请填写搜索关键字!");
return ;
}
String url="";
switch(EngineName.getSelectedIndex()){ //设置URL,此处不能用https,否则得不到想要的结果
case 0:
url = "http://www.baidu.com/s?ie=utf-8&wd=";
break;
case 1:
url = "http://www.sogou.com/web?query=";
break;
case 2:
url = "http://www.so.com/s?ie=utf-8&src=hao_360so&q=";
break;
case 3:
url = "http://cn.bing.com/search?q=";
break;
}
url +=URLEncoder.encode(str,"UTF-8");//将关键字编码成URL格式
URL search=new URL(url);
BufferedReader in=new BufferedReader( //html输入流,UTF-8格式
new InputStreamReader(search.openStream(),"UTF-8"));
String inputLine;
List resultList=new ArrayList();
while((inputLine=in.readLine())!=null){
// int len = in.readLine().length(); //此两句神奇,若取消注释,控制台能完完整整打印整个HTML网页
// byte[] b=new byte[len]; //若注释,控制台只能打印HTML后部分,前部分可能因内存不够被覆盖
switch(EngineName.getSelectedIndex()){
case 0:
Pattern p=Pattern.compile("</div>百度为您找到相关结果约([^</div>]*)"); //正则表达式
Matcher m=p.matcher(inputLine);
if(m.find()){
resultList.add(m.group(1));
}
break;
case 3:
Pattern p1=Pattern.compile("<span class=\"sb_count\">([^ 条结果</span>]*)");//正则表达式
Matcher m1=p1.matcher(inputLine);
if(m1.find()){
resultList.add(m1.group(1));
}
break;
case 1: //搜狗和360没显示词条数,故此处没抓取相关内容
case 2:
break;
}
System.out.println(inputLine);//输出到控制台
}
in.close();
switch(EngineName.getSelectedIndex()){
case 0:
showStatus("百度为您找到相关结果约" + resultList + " 条"); //在applet显示相关信息。
break;
case 3:
showStatus("必应为您找到相关结果约" + resultList + " 条");
break;
case 1:
case 2:
showStatus("已连接搜索引擎" + url);
break;
}
System.out.println(url); //打印URL到控制台,方便复制到浏览器进行比较
}
}
运行结果如下:
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。