java中根据url抓取html页面内容的方法 - 可可果 - ITeye博客

`

siye1982

浏览: 92407 次
性别:
来自: 北京

最近访客更多访客>>

胡家小将

沙洲胡杨

hz2005_2009

wushaoen

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

fncj：好文，转走了，谢谢http://www.whohelpme.c ...
java调用shell脚本,并获得结果集的例子
siye1982： http://siye1982.github.io
个人Github博客建立
dirk401：不错不错~~~
java调用shell脚本,并获得结果集的例子
wskiwwwx： ||||||||||||||||||||||||||||||| ...
java调用shell脚本,并获得结果集的例子
392807718：不错，值得学习！
spring配置文件中Bean中的id和name的区别

java中根据url抓取html页面内容的方法

博客分类：

JAVA积累

阅读更多

import java.io.BufferedReader;
import java.io.InputStreamReader;
import java.net.HttpURLConnection;
import java.net.URL;

public class URLUtil {

  public static String getHtml(String urlString) {
    try {
      StringBuffer html = new StringBuffer();
      URL url = new URL(urlString);
      HttpURLConnection conn = (HttpURLConnection) url.openConnection();
      InputStreamReader isr = new InputStreamReader(conn.getInputStream());
      BufferedReader br = new BufferedReader(isr);
      String temp;
      while ((temp = br.readLine()) != null) {
        html.append(temp).append("\n");
      }
      br.close();
      isr.close();
      return html.toString();
    } catch (Exception e) {
      e.printStackTrace();
      return null;
    }
  }

  public static void main(String[] args) {
    System.out.println(URLUtil.getHtml("http://www.163.com"));
  }
}

分享到：

用poi操作excel导出,导入的简单实现 | clob类型转换为string类型

2009-02-01 15:04
浏览 1974
评论(0)
论坛回复 / 浏览 (0 / 4398)
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

Java抓取网页内容三种方式: 本文将介绍使用 Java 语言抓取网页内容的三种方式：使用 URL 连接、使用 HttpURLConnection 和使用 Apache HttpClient。第一种方式：使用 URL 连接使用 URL 连接是最简单的抓取网页内容的方式。它使用 java.net....

java网络编程抓取指定网页信息--UrlHtml(java源码): import java.net.URL; public class UrlHtml { @SuppressWarnings("deprecation") public static void main(String[] s) throws IOException{ try { URL url = new URL("http://www.kum.net.cn"); ...

使用java-jsoup解析html页面内容，爬取想要的信息（如号段）: jsoup 是一款 Java 的 HTML 解析器，可直接解析某个 URL 地址、HTML 文本内容。它提供了一套非常省力的 API，可通过 DOM，CSS 以及类似于 jQuery 的操作方法来取出和操作数据。 jsoup 可以从包括字符串、URL 地址...

一个可以抓取网页特定内容的爬虫: 该程序是一个简单的网络爬虫，使用Java的Jsoup库来抓取指定网页的标题和链接，并根据用户输入的关键词提取包含关键词的标题和链接。程序的主要功能如下： 1.提示并获取用户输入要爬取的网页URL和关键词：使用 System...

javaURL抓取知乎explore页面上热门问题和回答的爬虫程序.zip: 请求网页：爬虫使用HTTP或其他协议向目标URL发起请求，获取网页的HTML内容。这通常通过HTTP请求库实现，如Python中的Requests库。解析内容：爬虫对获取的HTML进行解析，提取有用的信息。常用的解析工具有正则...

jsoup-1.13.1.jar Java爬虫经典框架抓取网页内容: jsoup 是一款Java 的HTML解析器，可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API，可通过DOM，CSS以及类似于jQuery的操作方法来取出和操作数据。

使用Java抓取网页数据: 一、使用 HttpClient 抓取网页数据 public String getHtml(String htmlurl) throws IOException { StringBuffer sb = new StringBuffer(); String acceptEncoding = ""; /* 1.生成 HttpClinet 对象并设置参数 */...

一个简单的java爬虫产品: 直接将内容保存到变量中，然后创建索引，即先抓取网页的内容，然后将网页的内容和URL保存到自己构建的JavaBean对象中，接着将这个对象放到一个list列表中，等所有网页抓取完毕以后，将这个列表传到创建索引的方法中...

java爬虫 webmagic 抓取egmentfault文章.zip: 请求网页：爬虫使用HTTP或其他协议向目标URL发起请求，获取网页的HTML内容。这通常通过HTTP请求库实现，如Python中的Requests库。解析内容：爬虫对获取的HTML进行解析，提取有用的信息。常用的解析工具有正则...

Boss直聘Java爬虫.zip: 请求网页：爬虫使用HTTP或其他协议向目标URL发起请求，获取网页的HTML内容。这通常通过HTTP请求库实现，如Python中的Requests库。解析内容：爬虫对获取的HTML进行解析，提取有用的信息。常用的解析工具有正则...

基于Java实现网络爬虫(蜘蛛): 网页抓取：爬虫程序根据指定的URL，访问网页并下载页面内容。信息解析：使用Jsoup等HTML解析库解析网页内容，提取信息需要的信息，如标题、内容、链接等。数据存储：可以将解析后的数据存储到数据库或文件中，...

java项目源码之网络爬虫(蜘蛛)的实现.rar: 网页抓取：通过指定的起始URL，网络爬虫会递归地抓取网页内容，包括HTML、CSS、JavaScript等，并将其保存到本地或者内存中进行处理。页面解析：网络爬虫会解析抓取到的网页内容，提取出其中的有用信息，如链接、...

Java网络蜘蛛（爬c）源码.zip: Java的网络爬虫是一种用于从互联网上获取信息的程序，通常用于抓取网页内容、收集数据或执行其他自动化任务。网络爬虫是搜索引擎、数据挖掘和信息收集等领域的重要工具。 Java的网络爬虫通常基于Java的网络编程库，...

这是关于java网络爬虫的项目,抓取京东书籍的信息.zip: 请求网页：爬虫使用HTTP或其他协议向目标URL发起请求，获取网页的HTML内容。这通常通过HTTP请求库实现，如Python中的Requests库。解析内容：爬虫对获取的HTML进行解析，提取有用的信息。常用的解析工具有正则...

java 爬网程序示例: // 这种方法是JAVA自带的URL来抓取网站内容 public String getPageContent(String strUrl, String strPostRequest, int maxLength) { // 读取结果网页 StringBuffer buffer = new StringBuffer...

JsUrl-java的爬虫.zip: 请求网页：爬虫使用HTTP或其他协议向目标URL发起请求，获取网页的HTML内容。这通常通过HTTP请求库实现，如Python中的Requests库。解析内容：爬虫对获取的HTML进行解析，提取有用的信息。常用的解析工具有正则...

Java用正则表达式如何读取网页内容: 学习java的正则表达式，抓取网页并解析HTML部分内容 package com.xiaofeng.picup; import java.io.BufferedReader; import java.io.IOException; import java.io.InputStreamReader; import java.net....

Java使用HttpClient和HtmlParser实现的爬虫Demo.zip: 请求网页：爬虫使用HTTP或其他协议向目标URL发起请求，获取网页的HTML内容。这通常通过HTTP请求库实现，如Python中的Requests库。解析内容：爬虫对获取的HTML进行解析，提取有用的信息。常用的解析工具有正则...

Java爬虫入门——使用Jsoup解析HTML页面.zip: 请求网页：爬虫使用HTTP或其他协议向目标URL发起请求，获取网页的HTML内容。这通常通过HTTP请求库实现，如Python中的Requests库。解析内容：爬虫对获取的HTML进行解析，提取有用的信息。常用的解析工具有正则...

房产数据爬虫java 房天下.zip: 请求网页：爬虫使用HTTP或其他协议向目标URL发起请求，获取网页的HTML内容。这通常通过HTTP请求库实现，如Python中的Requests库。解析内容：爬虫对获取的HTML进行解析，提取有用的信息。常用的解析工具有正则...

Global site tag (gtag.js) - Google Analytics