`
yxzkm
  • 浏览: 861 次
最近访客 更多访客>>
文章分类
社区版块
存档分类
最新评论

网页抓取时,页面包含的url的处理

阅读更多
页面上的url形式多样,建议采用java.net.URL 进行处理:
for (Element link : links) {
				//System.out.println();

				String sLink = link.attr("href").trim();
				//logger.info("sLink: "+sLink);
				if(sLink==null || sLink.trim().equals("")) continue;
				
				try {
					URL linkUrl = new URL(urlEntry,sLink);
					// 链接的主机头和 Entry 的主机头互相不包含,说明不是在同一个网站里面,丢弃。
					if(urlEntry.getHost().indexOf(linkUrl.getHost())==-1
							&& linkUrl.getHost().indexOf(urlEntry.getHost())==-1) continue;
					sLink = linkUrl + "";

                                        // do something here
				} catch (MalformedURLException e) {
					continue;
				}
}

分享到:
评论

相关推荐

    WebSpider 网页抓取 v5.1

    网页抓取工具5.1可以抓取互联网、wap网站上的任何网页,包括需要登录后才能访问的页面。对抓取到页面内容进行解析,得到结构化的信息,比如:新闻标题、作者、来源、正文等。支持列表页的自动翻页抓取,支持正文页多...

    Python抓取页面、Pthon爬虫参考资料

    本文档包括在网上搜集的众多基于Python的网页抓取实例,包括代码及说明,不是原创,只是收集了一下 里面有些例子确实很不错,看了几个例子我尝试编写了个QQ空间日志备份程序,效果还不错 (详见资源: ...

    支持抓取javascript渲染的页面的简单实用高效的python网页爬虫抓取模块.zip

    爬虫通常由搜索引擎、数据挖掘工具、监测系统等应用于网络数据抓取的场景。 爬虫的工作流程包括以下几个关键步骤: URL收集: 爬虫从一个或多个初始URL开始,递归或迭代地发现新的URL,构建一个URL队列。这些URL...

    javaURL抓取知乎explore页面上热门问题和回答的爬虫程序.zip

    爬虫通常由搜索引擎、数据挖掘工具、监测系统等应用于网络数据抓取的场景。 爬虫的工作流程包括以下几个关键步骤: URL收集: 爬虫从一个或多个初始URL开始,递归或迭代地发现新的URL,构建一个URL队列。这些URL...

    java利用url实现网页内容的抓取

    本文主要介绍了java利用url实现网页内容抓取的示例。具有很好的参考价值。下面跟着小编一起来看下吧

    蜘蛛程序,google抓取,简单

    蜘蛛,google,百度,抓取,搜索,搜索引擎。免费的,方便好用,能快速抓取页面,可以设置抓取内容,包括URL,新闻,多媒体,图片等信息

    webscraper:简单的网页抓取工具。 计算网页上定义的单词

    网络爬虫文件夹刮板包含 Maven 项目。 文件夹 scraper_jar 包含用于从命令行构建 .jar 文件的源文件和二进制文件。 您可以使用 .jar 文件并从命令行运行它。... 在此处查找有关网页抓取的更多信息: :

    golang抓取网页并分析页面包含的链接方法

    今天小编就为大家分享一篇golang抓取网页并分析页面包含的链接方法,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧

    python抓取多种类型的页面方法实例

    如果一个页面包含日期,但是不包含作者名字,那你可以将其归类 为新闻稿。如果它有标题、主图片、价格,但是没有主要内容,那么它 可能是一个产品页面。 通过页面中出现的特定标签识别页面 即使不抓取某个标签内的...

    网络蜘蛛-强势

    WebSpider蓝蜘蛛网页抓取工具5.1可以抓取互联网、wap网站上的任何网页,包括需要登录后才能访问的页面。对抓取到页面内容进行解析,得到结构化的信息,比如:新闻标题、作者、来源、正文等。支持列表页的自动翻页...

    java项目源码之网络爬虫(蜘蛛)的实现.rar

    网页抓取:通过指定的起始URL,网络爬虫会递归地抓取网页内容,包括HTML、CSS、JavaScript等,并将其保存到本地或者内存中进行处理。 页面解析:网络爬虫会解析抓取到的网页内容,提取出其中的有用信息,如链接、...

    WebScrapper:简单的网页抓取工具 (JAVA)

    网页抓取工具 简单的网页抓取工具 (JAVA) 创建时间:2014 年 11 月 6 日从控制台启动这个程序并添加如下参数: 使用示例: java -jar HireRightScraper.jar [URL_OR_URLS] [KEY_WORDS] –v –w –c –e 在哪里: ...

    python包括request的属性和方法调用,并且包含几个爬虫例子

    传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。聚焦爬虫的工作流程较为复杂,需要根据一定的网页分析算法...

    Go爬虫框架go_spider.zip

    Spider模块从Scheduler模块中获取包含待抓取url的Request对象,启动一个协程,一个协程执行一次爬取过程,此处我们把协程也看成Spider,Spider把Request对象传入Downloader,Downloader下载该Request对象中url所...

    基于node服务使用puppeteer进行页面抓取提供给爬虫进行seo优化.zip

    爬虫通常由搜索引擎、数据挖掘工具、监测系统等应用于网络数据抓取的场景。 爬虫的工作流程包括以下几个关键步骤: URL收集: 爬虫从一个或多个初始URL开始,递归或迭代地发现新的URL,构建一个URL队列。这些URL...

    基于Apache Nutch和Htmlunit的扩展实现AJAX页面爬虫抓取解析插件.zip

    爬虫通常由搜索引擎、数据挖掘工具、监测系统等应用于网络数据抓取的场景。 爬虫的工作流程包括以下几个关键步骤: URL收集: 爬虫从一个或多个初始URL开始,递归或迭代地发现新的URL,构建一个URL队列。这些URL...

    scrapy爬虫项目

    抓取网页的一般方法是,定义一个入口页面,然后一般一个页面会有其他页面的URL,于是从当前页面获取到这些URL加入到爬虫的抓取队列中,然后进入到新页面后再递归的进行上述的操作,其实说来就跟深度遍历或广度遍历...

    一个Python模块用于抓取几个搜索引擎bd,gg,soso

    2. **构建搜索请求:** 根据用户提供的关键词和其他搜索参数,构建相应的搜索请求URL,包括搜索词、页面数量、排序方式等。 3. **发送HTTP请求:** 使用Python中的HTTP库(例如Requests)发送搜索请求,并获取搜索...

    10个线程的Python多线程爬虫(采集新浪数据).rar

    一个Python多线程爬虫,在工作时,开10个线程来抓取新浪网页的数据,抓取并保存页面, 并且根据deep返回页面链接,根据key确定是否保存该页面,其中:  deep == 0时,是抓取的最后一层深度,即只抓取并保存页面,不...

    自己用java做的一个类似网页爬虫的东西

    能抓取网页,网页中的所有的URL重新生成,图片,文件,包括所有格式的文件,全部都能保持原有的路径结构 抓取下的网页,通过apache搭建成网站,能在本地保持成一个完整的网站的形式 能直接使用,也能支持二次开发...

Global site tag (gtag.js) - Google Analytics