抓网页

hwpok

浏览: 258452 次
性别:
来自: 上海

最近访客更多访客>>

xdonex

mianjifen_mianjifen

xiao_2008

kaowww153

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

Regular Exp

Java ASP.net .net ASP PHP

今天晚上,帮我一个同门师兄,解决一下问题.
题目是,抓取一个网站的所以页面,并抓下这些页码的所有网址.
代码如下:

package com.hwp.test;

import java.io.InputStream;

import java.net.HttpURLConnection;

import java.net.URL;

import java.util.ArrayList;

import java.util.HashMap;

import java.util.List;

import java.util.Map;

import java.util.Set;

import java.util.regex.Matcher;

import java.util.regex.Pattern;

public class SearchEngine

{

private Map<String, List<String>> pageNameUrls;

public SearchEngine()

{

pageNameUrls = new HashMap<String, List<String>>();

}

private String getContent(String httpUrl)

{

String htmlCode = "";

try

{

InputStream in;

URL url = new java.net.URL(httpUrl);

HttpURLConnection connection = (HttpURLConnection) url

.openConnection();

connection = (HttpURLConnection) url.openConnection();

connection.setRequestProperty("User-Agent", "Mozilla/4.0");

connection.connect();

in = connection.getInputStream();

byte[] buffer = new byte[512];

int length = -1;

while ((length = in.read(buffer, 0, 512)) != -1)

{

htmlCode += new String(buffer, 0, length);

}

catch (Exception e)

{}

if (htmlCode == null)

{

return "";

}

return htmlCode;

}

private List<String> getPageUrls(String page)

{

List<String> urls = new ArrayList<String>();

String content = this.getContent(page);

String reg = "http://([\\w-]+\\.)+[\\w-]+(/[\\w- ./?%&=]*)?";

Pattern pattern = Pattern.compile(reg);

Matcher matcher = pattern.matcher(content);

String url = "";

while (matcher.find())

{

url = matcher.group();

if (!urls.contains(url))

{

urls.add(url);

}

return urls;

}

public void test(String url, String baseUrl)

{

String content = this.getContent(url);

// System.out.println(content);

String reg = "(" + baseUrl

+ "(/[\\w-]+)*(/[\\w-]+\\.(htm|html|xhtml|jsp|asp|php)))";

Pattern pattern = Pattern.compile(reg);

Matcher matcher = pattern.matcher(content);

while (matcher.find())

{

String tempUrl = matcher.group();

if (!this.pageNameUrls.containsKey(tempUrl))

{

//System.out.println(tempUrl);

this.pageNameUrls.put(tempUrl, this.getPageUrls(tempUrl));

test(tempUrl, baseUrl);

}

public static void main(String[] args)

{

String url = "http://www.blogjava.net";

String baseUrl = "http://www.blogjava.net";

SearchEngine se = new SearchEngine();

se.test(url, baseUrl);

Map<String, List<String>> map= se.pageNameUrls;

Set<Map.Entry<String, List<String>>> set = map.entrySet();

for(Map.Entry<String, List<String>> entry: set)

{

System.out.println(entry.getKey());

System.out.println(entry.getValue());

}

分享到：

中文按拼音排序 | javascript 验证表单工具

2008-07-14 23:24
浏览 733
评论(0)
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

抓网页

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

抓网页

评论

发表评论

相关推荐

正则表达式 抓取网页面上所有图片

最近访客更多访客>>

正则表达式抓取网页面上所有图片