`
renyanwei
  • 浏览: 70057 次
  • 性别: Icon_minigender_1
  • 来自: 郑州
社区版块
存档分类
最新评论

用于编写小偷程序的通用方法(更新中)

阅读更多

最近爱好编写一些个小偷程序,汗~~ 就是上别人网站上抓取些个数据回来进行分析筛选,总结出了几个常用的方法,希望对那些同样有此爱好的初学者有所帮助

页面抓取 最少不了的就是正则表达式,没必要死记,只要会调用就可以了,O(∩_∩)O哈哈~ 这里仅罗列几个,有的是自己写的,有的是收藏的,希望可以抛砖引玉,高人可以共享出更加好的方案

/*
	 *遍历字符串所有数据库生成的HTML容器(比如商品列表)
	 *str 要遍历的字符串
	 *start 共同的开始部分
	 *end 共同的结束部分
	 *返回一个ArrayList列表
	*/
	public static ArrayList getTables(String str,String start,String end)
	{
		ArrayList list=new ArrayList();
		String reg="(?is)"+start+".*?"+end;
		Pattern p=Pattern.compile(reg);
		Matcher m=p.matcher(str);
		while(m.find())
		{
			list.add(m.group());
		}
		return list;
	}
	/*
	 *获取字符串所有超链接方法
	 *返回超链接HashMap.Key 地址,Value 标题
	*/
	public static Map<String, String> getATags(String str)
	{
		Map<String, String> map = new HashMap<String, String>();
		String regex = "(?is)<a[^>]*?href\\s*=\\s*['\"]?([^'\">]+)['\"]?[^>]*>(.+?)</a>";
		Pattern pattern = Pattern.compile(regex);
        Matcher matcher = pattern.matcher(str);
        while(matcher.find()) {
            map.put(matcher.group(1), matcher.group(2));
        }
		return map;
	}
	/*
	 *去除HTML标签的方法
	*/
	public static String filterHTML(String str)
	{
		 if (str == null || str.trim().equals("")) {  
             return "";  
         }  
         // 去掉所有html元素,  
         String result = str.replaceAll("\\&[a-zA-Z]{1,10};", "").replaceAll(  
                 "<[^>]*>", "");  
         result = result.replaceAll("[(/>)<]", "");  
     
         return result;  
	}

 高手有什么好的程序赶快共享出来吧,藏着掖着又不能生孩子

6
0
分享到:
评论
2 楼 SunShineBoy 2008-10-31  
shanghui_12 写道

比较巧,哈哈,最近也在抓。以下抓取 iframe里面的链接:
Java代码 private&nbsp;static&nbsp;String&nbsp;parseUrl(String&nbsp;line)&nbsp;{&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;Pattern&nbsp;p&nbsp;=&nbsp;Pattern.compile("&lt;iframe(.*?)src=\\\"(.*?)\\\"");&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;Matcher&nbsp;m&nbsp;=&nbsp;p.matcher(line);&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;String&nbsp;url&nbsp;=&nbsp;"";&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;while&nbsp;(m.find())&nbsp;{&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;String&nbsp;s&nbsp;=&nbsp;m.group().toString();&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;url&nbsp;=&nbsp;s.substring(s.indexOf("src=")&nbsp;+&nbsp;5,&nbsp;s.length()&nbsp;-&nbsp;1);&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;}&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;return&nbsp;url;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;}&nbsp;&nbsp;private static String parseUrl(String line) {
Pattern p = Pattern.compile("&lt;iframe(.*?)src=\\\"(.*?)\\\"");
Matcher m = p.matcher(line);
String url = "";
while (m.find()) {

String s = m.group().toString();
url = s.substring(s.indexOf("src=") + 5, s.length() - 1);
}
return url;

}

请问有没有做过JS来解析页面的例子?

我好像做过!
1 楼 shanghui_12 2008-10-31  
比较巧,哈哈,最近也在抓。以下抓取 iframe里面的链接:
private static String parseUrl(String line) {
		Pattern p = Pattern.compile("<iframe(.*?)src=\\\"(.*?)\\\"");
		Matcher m = p.matcher(line);
		String url = "";
		while (m.find()) {
			
			String s = m.group().toString();
			url = s.substring(s.indexOf("src=") + 5, s.length() - 1);
					}
		return url;

	}


请问有没有做过JS来解析页面的例子?

相关推荐

    vivi万能小偷程序 小偷程序 vivi小偷程序 php小偷程序源码 网站采集系统

    vivi万能小偷程序 v4.0 更新日志: 1.增加采集开关,关闭时将停止采集仅使用缓存 2.增加替换支持首页和内页区分 3.增加禁止手机版搜索引擎转码 4.增加目标站编码自动识别 5.增加支持首页使用目标站标题 6.优化替换...

    vivi万能小偷程序采集规则编写视频教程之初级使用.rar

    vivi万能小偷程序采集规则编写视频教程之初级使用.rar

    PT小偷程序PT小偷程序PT小偷程序

    PT小偷程序PT小偷程序PT小偷程序PT小偷程序PT小偷程序PT小偷程序PT小偷程序PT小偷程序PT小偷程序PT小偷程序PT小偷程序PT小偷程序PT小偷程序PT小偷程序PT小偷程序PT小偷程序PT小偷程序PT小偷程序PT小偷程序PT小偷程序...

    VIVI万能小偷程序 v6.1.rar

    vivi万能小偷程序只需要输入目标站地址就能全自动采集,高智能的采集程序,支持98%的单级域名站点,规则制作十分简单,菜鸟也能制作采集规则,采集不求人。 vivi万能小偷程序功能简介 后台配置采集节点,输入目标...

    企管美女图片小偷程序 8.3.zip

    企管美女图片小偷程序 8.3 更新日志:2016-03-18首页排行榜错位修复;后台取消蜘蛛访问记录功能,减轻服务器负担;增加官方最新更新等信息更新通知;首页排行榜字体修改;以及做了百度等搜索引擎SEO对程序的友好度;

    ASP中实现小偷程序

    ASP中实现小偷程序

    SOSO问问小偷程序.rar

    使小偷程序可以像自己的本地程序一样飞快的打开,也没有丢失小偷程序本身自动更新的优点。我们还可以在小偷程序里面加入伪原创技术,让你的小偷程序和源站并不完全一直,这样的好处就是让百度等搜索引擎收录我们更多...

    淘宝画报小偷程序2.3

    淘宝画报小偷程序,淘画报出品,淘宝门户画报为您提供看图购物。 淘宝画报小偷程序 2.3 使用说明: 做了首页SEO优化更加有利百度对你网站关键词收录 程序支持win主机以及Linux主机。自带根目录规则以及2级目录规则。...

    【联网制作】完美的网页搜索引擎小偷程序.zip

    【联网制作】专业承接网站程序和小偷程序制作和各种采集规则编写,优惠的价格,专业的服务,让您想拥有属于自己的网站不再那么费事,只要把您所想所需告诉我们,一切由我们来替您解决。如有任何需求,请联系 以下...

    天涯问答小偷程序(伪原创).rar

    小偷程序重在持续更新服务,本人在此承诺,只要天涯官网存在,就为大家持续升级,如果有不能正常使用或者其他相关问题,您可以随时到http://bbs.cjrdj.com/反应问题,管理员会给大家更新升级的。 此程序支持标题、...

    麦小偷外汇论坛小偷程序 v91.rar

    麦小偷网是一家专注于网络软件开发的科技公司,其主营产品“麦小偷小偷程序网站系统”是目前国内应用最广泛的Discuz小偷程序。通过多年的不断创新与完善,使系统集安全、强大、稳定、灵活于一身。目前麦小偷程序已经...

    麦小偷科技论坛小偷程序 v93

    麦小偷网是一家专注于网络软件开发的科技公司,其主营产品“麦小偷小偷程序网站系统”是目前国内应用最广泛的Discuz小偷程序。通过多年的不断创新与完善,使系统集安全、强大、稳定、灵活于一身。目前麦小偷程序已经...

    美女图片小偷程序

    ASP美女图片小偷程序

    麦小偷科技论坛小偷程序 v93.rar

    麦小偷网是一家专注于网络软件开发的科技公司,其主营产品“麦小偷小偷程序网站系统”是目前国内应用最广泛的Discuz小偷程序。通过多年的不断创新与完善,使系统集安全、强大、稳定、灵活于一身。目前麦小偷程序已经...

    小偷程序详细介绍

    小偷程序详细介绍

    漫画小偷程序

    绕看漫画小偷程序,免费完全开源,新手可以学习用,2011.11.30更新全站程序为完全开源版,代码完全公开,适合初级学习;可以用于交流修改和二次开发;无任何加密文件,可以任意修改了;本站会陆续更新所有程序为开源...

    万能小偷程序_小偷采集站.rar

    万能小偷程序_小偷采集站

Global site tag (gtag.js) - Google Analytics