基于Jsoup获取页面的header map,title和keywords - 泡杯茶,过来坐坐 - ITeye博客

`

小网客

浏览: 1239091 次
性别:
来自: 北京

最近访客更多访客>>

aoyouzi

jis117

emaiqi

duguyixiaono1

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

masuweng：嗯,写的很好
Mysql之Incorrect string value: '\xF0\x9F\x98\x89 \xE6...'
秋水涛静：来来来你告诉我你贴的这代码有什么用？？你给的下载包又有什么 ...
利用diyUpload做多图片上传及预览
andseny：如果可以的话，求一份源码，谢谢邮箱：846526948@q ...
利用diyUpload做多图片上传及预览
alloyer：不错！可以使用，已验证。
Spring与jcaptcha集成
bewithme：这和我去官网看有啥区别？
web之日期组件My97DatePicker

基于Jsoup获取页面的header map,title和keywords

博客分类：

Spider
Java

阅读更多

需求：

需要采集页面的title和keyword

实现：

依赖：

<dependency>
	<groupId>org.jsoup</groupId>
	<artifactId>jsoup</artifactId>
	<version>1.6.3</version>
</dependency>

代码：

Connection.Response response = connection.execute();
Map<String, String> headerMap= response.headers();
String body = response.body();
Document document = Jsoup.parse(body);
String title = document.head().select("title").text();
String keywords = document.head().select("meta[name=keywords]").attr("content");

分享到：

互联网爬虫IP列表 | eclipse注释模板中设置@author

2013-12-26 11:27
浏览 2581
评论(0)
分类:编程语言
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

基于jsoup的java爬虫项目: **基于jsoup的Java爬虫项目详解** 在Java开发领域，网页抓取和解析是常见的需求，用于数据挖掘、分析或者构建自动化工具。本项目基于Jsoup库，一个强大的Java库，专门设计用于处理HTML文档，提取和操作数据。本文将...

jsoup爬虫获取某网站的信息: 使用jsoup技术连接网站地址，通过改变参数获取网站div...项目中包括dbutil链接数据库的工具类，执行sql的helper工具类，获取网站div图片保存到本地的工具类信息，包括了jsoup1.10.1的jar包和commom-dbutils1.5的jar包；

使用jsoup获取网页内容并修改: 在Android开发中，Jsoup常用于网页数据抓取和页面内容的处理。以下将详细解释如何使用Jsoup来实现这个功能。首先，我们需要在项目中引入Jsoup库。如果是在Gradle项目中，可以在build.gradle文件中添加依赖： ```...

Java爬虫Jsoup+httpclient获取动态生成的数据: 本文主要讲述如何利用Java编程语言中的Jsoup库和HttpClient工具包来获取和解析动态生成的数据，特别是那些通过JavaScript动态加载的数据。 ### Java爬虫基础 Java爬虫是指使用Java语言编写的一类程序，这些程序...

java+jsoup抓取网页数据: 在IT行业中，网络数据抓取是一项重要的技能，它允许开发者获取和分析大量互联网上的信息。本教程将聚焦于使用Java和Jsoup库来实现这一目标。Jsoup是Java的一个库，设计用于处理真实世界的HTML，提供了强大的解析、...

基于jsoup的SpringBoot爬虫demo: 总之，"基于jsoup的SpringBoot爬虫demo"是一个集成了网页抓取和数据存储的实践项目，通过学习和研究这个项目，开发者可以更好地理解如何利用jsoup解析HTML，以及如何在SpringBoot环境下构建高效的数据抓取应用。

Jsoup解析Html获取新闻列表: 首先，让我们了解Jsoup的基本用法，然后通过实例演示如何从一个HTML页面中提取新闻列表。 1. **Jsoup简介** - Jsoup是由Jonathon Hedley开发的开源库，它实现了HTML5的DOM解析器，并提供了CSS选择器和类似于jQuery...

jsoup 网页信息抓取选择器: - **属性和文本操作**：可以方便地获取和修改元素的属性值，以及提取和替换元素的文本内容。 - **数据输出**：抓取到的数据可以轻松地转换为XML、JSON等格式，方便进一步处理或存储。 **总结** jsoup以其高效、...

jsoup获取网页正文: - 使用最新的jsoup版本以获取最新的安全更新和性能改进。 - 针对目标网站定制提取策略，以减少误判和遗漏。总之，jsoup是一个强大且易用的HTML解析库，它允许开发者高效地处理网页内容，特别是获取正文信息。...

鸿蒙开发课程设计：基于JSoup的鸿蒙教务查询软件。.zip: 鸿蒙开发课程设计：基于JSoup的鸿蒙教务查询软件。.zip

基于jsoup实现爬虫和IKAnalyzer分词器: **基于jsoup实现爬虫** jsoup是一款Java库，它提供了非常方便的API，用于处理实际世界中的HTML。它的核心功能包括抓取网页、解析HTML以及提取和操作数据。jsoup模仿了DOM API，但设计得更加简洁和高效。在这个项目...

在android中使用jsoup解析页面链接: 以下是一个简单的示例，展示了如何在Android中使用Jsoup连接到网页并获取标题： ```java // 导入必要的库 import org.jsoup.Jsoup; import org.jsoup.nodes.Document; // 创建Jsoup连接 Document doc = Jsoup....

基于Jsoup实现的淘宝爬虫项目.zip: 【标题】"基于Jsoup实现的淘宝爬虫项目"是一...总的来说，这个基于Jsoup的淘宝爬虫项目不仅是一个实用的工具，也是一次全面学习和实践Web爬虫技术的机会，尤其适合那些希望在毕业设计中展示自己编程和分析能力的学生。

Java基于jsoup实现的爬虫技术: Java基于Jsoup实现的爬虫技术是Web开发中一种常用的数据获取手段，它主要用于从HTML网页中提取结构化数据。Jsoup是一个强大的Java库，它提供了丰富的API来解析HTML，提取和操作数据，使得开发者可以方便地进行网页...

基于Jsoup的多线程java爬虫应用，爬取京东网商品信息并存入数据库。.zip: 在本项目中，我们主要探讨的是如何利用Java编程语言，结合Jsoup库构建一个多线程的网络爬虫，用于抓取京东网站的商品信息，并将这些数据有效地存储到数据库中。Jsoup是一个非常实用的Java库，它使得解析HTML文档变得...

jsoup基于java爬虫项目: 它提供了一套非常省力的API，可通过DOM，CSS以及类似于jQuery的操作方法来取出和操作数据。 Jsoup的主要功能 1）从一个URL，文件或字符串中解析HTML 2）使用DOM或CSS选择器来查找、取出数据 3）可操作HTML元素、...

android Jsoup获取网站内容（实例为新闻标题获取），android网络必学: 本实例将详细介绍如何利用Jsoup在Android中获取网站内容，特别是新闻标题，这对于构建新闻类应用至关重要。首先，我们需要了解Jsoup的基本概念。Jsoup是一个Java库，设计用于处理和解析实际世界中的HTML。它提供了...

Global site tag (gtag.js) - Google Analytics