网页抓取时，页面包含的url的处理 - - ITeye博客

`

yxzkm

浏览: 861 次

最近访客更多访客>>

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

全部博客 (1)

社区版块

存档分类

2012-05 ( 1)
更多存档...

最新评论

网页抓取时，页面包含的url的处理

阅读更多

页面上的url形式多样，建议采用java.net.URL 进行处理：

for (Element link : links) {
				//System.out.println();

				String sLink = link.attr("href").trim();
				//logger.info("sLink: "+sLink);
				if(sLink==null || sLink.trim().equals("")) continue;
				
				try {
					URL linkUrl = new URL(urlEntry,sLink);
					// 链接的主机头和 Entry 的主机头互相不包含，说明不是在同一个网站里面，丢弃。
					if(urlEntry.getHost().indexOf(linkUrl.getHost())==-1
							&& linkUrl.getHost().indexOf(urlEntry.getHost())==-1) continue;
					sLink = linkUrl + "";

                                        // do something here
				} catch (MalformedURLException e) {
					continue;
				}
}

分享到：

2012-05-30 10:55
浏览 861
评论(0)
分类:编程语言
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

WebSpider 网页抓取 v5.1: 网页抓取工具5.1可以抓取互联网、wap网站上的任何网页，包括需要登录后才能访问的页面。对抓取到页面内容进行解析，得到结构化的信息，比如：新闻标题、作者、来源、正文等。支持列表页的自动翻页抓取，支持正文页多...

Python抓取页面、Pthon爬虫参考资料: 本文档包括在网上搜集的众多基于Python的网页抓取实例，包括代码及说明，不是原创，只是收集了一下里面有些例子确实很不错，看了几个例子我尝试编写了个QQ空间日志备份程序，效果还不错（详见资源： ...

支持抓取javascript渲染的页面的简单实用高效的python网页爬虫抓取模块.zip: 爬虫通常由搜索引擎、数据挖掘工具、监测系统等应用于网络数据抓取的场景。爬虫的工作流程包括以下几个关键步骤： URL收集：爬虫从一个或多个初始URL开始，递归或迭代地发现新的URL，构建一个URL队列。这些URL...

javaURL抓取知乎explore页面上热门问题和回答的爬虫程序.zip: 爬虫通常由搜索引擎、数据挖掘工具、监测系统等应用于网络数据抓取的场景。爬虫的工作流程包括以下几个关键步骤： URL收集：爬虫从一个或多个初始URL开始，递归或迭代地发现新的URL，构建一个URL队列。这些URL...

java利用url实现网页内容的抓取: 本文主要介绍了java利用url实现网页内容抓取的示例。具有很好的参考价值。下面跟着小编一起来看下吧

蜘蛛程序，google抓取，简单: 蜘蛛，google,百度，抓取，搜索，搜索引擎。免费的，方便好用，能快速抓取页面，可以设置抓取内容，包括URL，新闻，多媒体，图片等信息

webscraper:简单的网页抓取工具。计算网页上定义的单词: 网络爬虫文件夹刮板包含 Maven 项目。文件夹 scraper_jar 包含用于从命令行构建 .jar 文件的源文件和二进制文件。您可以使用 .jar 文件并从命令行运行它。... 在此处查找有关网页抓取的更多信息： :

golang抓取网页并分析页面包含的链接方法: 今天小编就为大家分享一篇golang抓取网页并分析页面包含的链接方法，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧

python抓取多种类型的页面方法实例: 如果一个页面包含日期，但是不包含作者名字，那你可以将其归类为新闻稿。如果它有标题、主图片、价格，但是没有主要内容，那么它可能是一个产品页面。通过页面中出现的特定标签识别页面即使不抓取某个标签内的...

网络蜘蛛-强势: WebSpider蓝蜘蛛网页抓取工具5.1可以抓取互联网、wap网站上的任何网页，包括需要登录后才能访问的页面。对抓取到页面内容进行解析，得到结构化的信息，比如：新闻标题、作者、来源、正文等。支持列表页的自动翻页...

java项目源码之网络爬虫(蜘蛛)的实现.rar: 网页抓取：通过指定的起始URL，网络爬虫会递归地抓取网页内容，包括HTML、CSS、JavaScript等，并将其保存到本地或者内存中进行处理。页面解析：网络爬虫会解析抓取到的网页内容，提取出其中的有用信息，如链接、...

WebScrapper:简单的网页抓取工具 (JAVA): 网页抓取工具简单的网页抓取工具 (JAVA) 创建时间：2014 年 11 月 6 日从控制台启动这个程序并添加如下参数：使用示例： java -jar HireRightScraper.jar [URL_OR_URLS] [KEY_WORDS] –v –w –c –e 在哪里： ...

python包括request的属性和方法调用，并且包含几个爬虫例子: 传统爬虫从一个或若干初始网页的URL开始，获得初始网页上的URL，在抓取网页的过程中，不断从当前页面上抽取新的URL放入队列，直到满足系统的一定停止条件。聚焦爬虫的工作流程较为复杂，需要根据一定的网页分析算法...

Go爬虫框架go_spider.zip: Spider模块从Scheduler模块中获取包含待抓取url的Request对象，启动一个协程，一个协程执行一次爬取过程，此处我们把协程也看成Spider，Spider把Request对象传入Downloader，Downloader下载该Request对象中url所...

基于node服务使用puppeteer进行页面抓取提供给爬虫进行seo优化.zip: 爬虫通常由搜索引擎、数据挖掘工具、监测系统等应用于网络数据抓取的场景。爬虫的工作流程包括以下几个关键步骤： URL收集：爬虫从一个或多个初始URL开始，递归或迭代地发现新的URL，构建一个URL队列。这些URL...

基于Apache Nutch和Htmlunit的扩展实现AJAX页面爬虫抓取解析插件.zip: 爬虫通常由搜索引擎、数据挖掘工具、监测系统等应用于网络数据抓取的场景。爬虫的工作流程包括以下几个关键步骤： URL收集：爬虫从一个或多个初始URL开始，递归或迭代地发现新的URL，构建一个URL队列。这些URL...

scrapy爬虫项目: 抓取网页的一般方法是，定义一个入口页面，然后一般一个页面会有其他页面的URL，于是从当前页面获取到这些URL加入到爬虫的抓取队列中，然后进入到新页面后再递归的进行上述的操作，其实说来就跟深度遍历或广度遍历...

一个Python模块用于抓取几个搜索引擎bd,gg,soso: 2. **构建搜索请求：** 根据用户提供的关键词和其他搜索参数，构建相应的搜索请求URL，包括搜索词、页面数量、排序方式等。 3. **发送HTTP请求：** 使用Python中的HTTP库（例如Requests）发送搜索请求，并获取搜索...

10个线程的Python多线程爬虫（采集新浪数据）.rar: 一个Python多线程爬虫，在工作时，开10个线程来抓取新浪网页的数据，抓取并保存页面, 并且根据deep返回页面链接，根据key确定是否保存该页面,其中: 　deep == 0时，是抓取的最后一层深度，即只抓取并保存页面，不...

自己用java做的一个类似网页爬虫的东西: 能抓取网页,网页中的所有的URL重新生成,图片,文件，包括所有格式的文件,全部都能保持原有的路径结构抓取下的网页,通过apache搭建成网站,能在本地保持成一个完整的网站的形式能直接使用，也能支持二次开发...

Global site tag (gtag.js) - Google Analytics