`
rich8w
  • 浏览: 178761 次
  • 性别: Icon_minigender_1
  • 来自: 上海
社区版块
存档分类
最新评论

Java爬虫的相对路径转绝对路径

    博客分类:
  • Java
阅读更多
最近在做个HTMLParser抓取网页内容;
有些网页的链接写的都是相对路径;
在CSDN上找到的,记录一下。

	@SuppressWarnings("finally")
	public static String getAbsoluteURL(String baseURI, String relativePath){
		String abURL=null;
		try {
			URI base=new URI(baseURI);//基本网页URI 
			URI abs=base.resolve(relativePath);//解析于上述网页的相对URL,得到绝对URI 
			URL absURL=abs.toURL();//转成URL 
			System.out.println(absURL);
			abURL = absURL.toString();
		} catch (MalformedURLException e) {
			e.printStackTrace();
		} catch (URISyntaxException e) {
			e.printStackTrace();
		} finally{
			return abURL;
		}
	}
分享到:
评论
1 楼 rich8w 2010-02-24  
设置User-Agent属性
    parser.getConnectionManager().getDefaultRequestProperties().put("User-Agent", "Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN; rv:1.9.1.7) Gecko/20091221 Firefox/3.5.7");   
    Parser parser = new Parser();   
    parser.setEncoding("GB2312");   
    parser.setURL("http://www.xxx.com/show.jsp?id=216");  

相关推荐

    java爬虫项目实战源码.zip

    java爬虫项目实战源码,用于构建一个与电影、资源和用户相关的数据库系统。 作用于企鹅,某艺电影平台的电影名称、电影 URL 路径、电影图片路径、来源、更新日期、点击次数、下载次数、索引状态和标签状态,作用于观...

    网络爬虫完美demo

    支持网页抓取分类,非全文搜索,从前台到数据库的完整爬虫demo,项目中文档路径为绝对路径,请修改后再启动

    JAVA爬虫分发控制端源代码

    本代码为上市公司JAVA原代码,有maven构建,主要功能是接受存在Redis内的任务,通过计算路径权重,分配不同的采集通道,启动不同的采集代码。

    java爬虫工具,4.0重构版本,让你使用Java也能小巧而优雅的编写爬虫软件.zip

    郑冬冬等人利用一个预定义的领域本体知识库来识别Deep Web页面内容,同时利用一些来自Web站点导航模式来识别自动填写表单时所需进行的路径导航。 (2)基于网页结构分析的表单填写:此方法一般无领域知识或仅有有限...

    JAVA网络爬虫jsoup包

    个人从网上搜索到的java网络爬虫jar包,实测可用,自己就是用的这个,将jar包添加到构建路径即可使用, Document document=Jsoup.connect("https://www.baidu.com/").ignoreContentType(true).timeout(0).post(); //...

    java 实现简单爬虫,爬取图片

    java 实现简单爬虫,爬取图片。 根据爬取页面内容,使用jsoup解析html页面,获取需要的路径,进行循环下载。 博客:https://blog.csdn.net/qq_37902949/article/details/81257065

    强力 Java 爬虫,列表分页、详细页分页、ajax、微内核高扩展、配置灵活.zip

    Deep Web爬虫爬行过程中最重要部分就是表单填写,包含两种类型: (1)基于领域知识的表单填写:此方法一般会维持一个本体库,通过语义分析来选取合适的关键词填写表单。Yiyao Lu等人提出一种获取Form表单信息的多...

    Crawler:关于Java和Python爬虫那些事儿

    《自己动手写网络爬虫》,并基于Python3和Java实现 为什么采用宽度优先搜索策略? 深度优先遍历可能会在深度上过“深”而陷入“黑洞”; 重要的网页往往距离种子网页比较近,越深的网页的重要性越低; 万维网深度...

    基于Java和Python的爬虫项目实战源码.zip

    基于Java和Python的爬虫项目实战源码.zip 自己动手写网络爬虫》,并基于Python3和Java实现 为什么采用宽度优先搜索策略? 深度优先遍历可能会在深度上过“深”而陷入“黑洞”; 重要的网页往往距离种子网页比较近,...

    JSpiderCluster:Java + phantomjs 实现的一个分布式爬虫

    Java + phantomjs 实现的一个分布式爬虫。 java部分主要进行集群的管理,任务队列的管理和任务分发,支持jar和class热发布。 phantomjs执行实际的抓取任务,抓取逻辑采用js编写,可以方便的导入jquery, 使用jquery...

    获取网页上 xpath , css 路径的插件, 方便爬虫、自动化测试相关软件工作者快速获取页面上html元素路径

    edge chrome浏览器插件 获取网页上 xpath , css 路径的插件, 方便爬虫、自动化测试相关软件工作者快速获取页面上html元素路径

    JAVA上百实例源码以及开源项目

     util实现Java图片水印添加功能,有添加图片水印和文字水印,可以设置水印位置,透明度、设置对线段锯齿状边缘处理、水印图片的路径,水印一般格式是gif,png,这种图片可以设置透明度、水印旋转等,可以参考代码...

    JAVA上百实例源码以及开源项目源代码

     util实现Java图片水印添加功能,有添加图片水印和文字水印,可以设置水印位置,透明度、设置对线段锯齿状边缘处理、水印图片的路径,水印一般格式是gif,png,这种图片可以设置透明度、水印旋转等,可以参考代码...

    java开源包11

    J2C 将 Java 代码转成 C++ 代码,这是源码级别的转换,输出的 C++ 代码是有效的代码。 OSGi 分布式通讯组件 R-OSGi R-OSGi 是一套适用于任意满足 OSGi 架构的分布式通讯组件。它以 jar 的形式发布,部署容易,使用...

    java开源包6

    J2C 将 Java 代码转成 C++ 代码,这是源码级别的转换,输出的 C++ 代码是有效的代码。 OSGi 分布式通讯组件 R-OSGi R-OSGi 是一套适用于任意满足 OSGi 架构的分布式通讯组件。它以 jar 的形式发布,部署容易,使用...

    java开源包9

    J2C 将 Java 代码转成 C++ 代码,这是源码级别的转换,输出的 C++ 代码是有效的代码。 OSGi 分布式通讯组件 R-OSGi R-OSGi 是一套适用于任意满足 OSGi 架构的分布式通讯组件。它以 jar 的形式发布,部署容易,使用...

    java开源包4

    J2C 将 Java 代码转成 C++ 代码,这是源码级别的转换,输出的 C++ 代码是有效的代码。 OSGi 分布式通讯组件 R-OSGi R-OSGi 是一套适用于任意满足 OSGi 架构的分布式通讯组件。它以 jar 的形式发布,部署容易,使用...

    java开源包101

    J2C 将 Java 代码转成 C++ 代码,这是源码级别的转换,输出的 C++ 代码是有效的代码。 OSGi 分布式通讯组件 R-OSGi R-OSGi 是一套适用于任意满足 OSGi 架构的分布式通讯组件。它以 jar 的形式发布,部署容易,使用...

    java开源包5

    J2C 将 Java 代码转成 C++ 代码,这是源码级别的转换,输出的 C++ 代码是有效的代码。 OSGi 分布式通讯组件 R-OSGi R-OSGi 是一套适用于任意满足 OSGi 架构的分布式通讯组件。它以 jar 的形式发布,部署容易,使用...

    java开源包8

    J2C 将 Java 代码转成 C++ 代码,这是源码级别的转换,输出的 C++ 代码是有效的代码。 OSGi 分布式通讯组件 R-OSGi R-OSGi 是一套适用于任意满足 OSGi 架构的分布式通讯组件。它以 jar 的形式发布,部署容易,使用...

Global site tag (gtag.js) - Google Analytics