import java.net.*;
import java.io.*;
public class urlconnection
{
public static void main(String[] args)
{
StringBuffer document = new StringBuffer();
try
{
URL url = new URL("http://www.163.com");
URLConnection conn = url.openConnection();
BufferedReader reader = new BufferedReader(new InputStreamReader(conn.getInputStream()));
String line = null;
while ((line = reader.readLine()) != null)
document.append(line + " ");
reader.close();
}
catch (MalformedURLException e)
{
e.printStackTrace();
}
catch (IOException e)
{
e.printStackTrace();
}
System.out.println(document.toString());
}
}
==========================================================
方法二:
==========================================================
import java.net.*;
import java.io.*;
public class useSourceViewer
{
public static void main (String[] args)
{
if (args.length > 0)
{
try
{
URL u = new URL(args[0]);
InputStream in = u.openStream( );
in = new BufferedInputStream(in);
Reader r = new InputStreamReader(in);
int c;
while ((c = r.read( )) != -1)
{
System.out.print((char) c);
}
Object o = u.getContent( );
System.out.println("I got a " + o.getClass().getName( ));
}
catch (MalformedURLException e)
{
System.err.println(args[0] + " is not a parseable URL");
}
catch (IOException e)
{
System.err.println(e);
}
}
}
}
抓取HTML内容
分享到:
相关推荐
主要介绍了Nodejs抓取html页面内容的关键代码,另外还给大家附上了nodejs抓取网页内容,非常不错,对node.js抓取页面内容感兴趣的朋友一起学习吧
NULL 博文链接:https://haroldxie.iteye.com/blog/1133877
主要介绍了python抓取并保存html页面时乱码问题的解决方法,结合实例形式分析了Python页面抓取过程中乱码出现的原因与相应的解决方法,需要的朋友可以参考下
相关使用者,可以根据网站,获取前端相关界面数据,包括js,html等,但是对于某些加密的,一般抓取不到。
go_simple_grab_htmlgo抓取一个html 页面 分析内容数据 下载到本地go run main.php
主要介绍了Python实现抓取HTML网页并以PDF文件形式保存的方法,结合实例形式分析了PyPDF2模块的安装及Python抓取HTML页面并基于PyPDF2模块生成pdf文件的相关操作技巧,需要的朋友可以参考下
用Excel抓取html数据.pdf
C# 远程获取HTML代码,并通过正则表达式取得所需数据
这是自己写的一个正则表达式测试工具,专门用于测试Html数据抓取用的。
这是一个使用jsoup抓取网页内容的例子,适合从事手机开发的初学者学习
利用http协议,定时抓取指定网页内容,保存为.htm文件的程序;利用http协议,定时抓取指定网页内容,保存为.htm文件的程序;
它支持快速加载网页、使搜索引擎更快的抓取网页内容,以达到 SEO 优化的目的。代码示例:from reactipy.component import ReactComponent import os class HelloWorldComponent(ReactComponent): path...
java解析html抓取网站数据采集网站信息
html转换pdf 页面抓取内容,分页进行处理,后台进行处理,功能效果不错
能抓取桌面任何颜色的 RGB值 ,方便html颜色的设置。
JAR包—jsoup HTML抓取:可以去掉html标签或者提取部分内容
java的封装类,可以从指定网络地址,抓取地址中的网页,并分析抓取图片地址,下载到本地
(如果抓取整页信息请为空),然后点 击“开始抓取列表内容”。 四、当抓取记录操作中出现抓取日志时。网页HTML字符串已经保存完毕。可是图片可能还在陆续保存。由于是WEB 形式所以无法得知何时抓取完毕,用户需长...