/*
Function name: myGetHttpFile2
Description: 爬网页用
Input: URL 例如:http://www.126.com
Output: 字符串,网页的HTML
*/
public String myGetHttpFile2(String url){
String authentication=null;
ArrayList al=new ArrayList();
String PageURL = url;
PageURL = url ;
ArrayList urlCollection=new ArrayList();
Hashtable ht=new Hashtable();
//代理,如果要穿过代理将下面注释取消
//ht=System.getProperties();
//authentication = "Basic " + new sun.misc.BASE64Encoder().encode("代理的用户:代理的密码".getBytes());
//ht.put("proxySet", "true");
//ht.put("proxyHost", "172.16.20.2");
//ht.put("proxyPort", "80");
String urlSource=PageURL;
StringBuffer htmlBuffer=new StringBuffer();
String returnStr=null;
int codeStart=0;
int codeEnd=0;
int linkCount=0;
String getURL=null;
String realURL=null;
String urlText=null;
int from=0;
int lenURL=0;
int firstLink=0;
int endLink=0;
boolean isNewsLink=false;
try
{
URL su = new URL (urlSource);
URLConnection conn = su.openConnection();
//conn.setRequestProperty("Proxy-Authorization", authentication);
InputStream imageSource=new URL(urlSource).openStream();
int ch;
while((ch=imageSource.read())>-1)
{
htmlBuffer.append((char)ch);
}
imageSource.close();
returnStr= new String(htmlBuffer);
returnStr=new String(returnStr.getBytes("ISO8859_1"),"GBK");
}
catch(Exception e)
{
}
if(returnStr!=null){
return returnStr ;
}else{
return "empty" ;
}
}
分享到:
相关推荐
Java爬虫获取网页表格数据并保存到MySQL数据库,包含完整代码
java 开发的网页爬虫
纯Java编写爬虫框架,实现信息抓取, 附详细源码,需要的可以下载学习
java网页爬虫 java网页爬虫 java网页爬虫 java网页爬虫
java网页爬虫demo,完整demo,SpiderWidth.java为main类
爬虫文件,此Java文件可以爬取网页中所有的链接网址。
java抓取网页的爬虫
java实现的网页爬虫1.5版本聚焦爬虫抽取网页
java爬虫,可以抓取网页中图片信息,适用与爬虫学习者
java 网络爬虫 爬去别人的网页java 网络爬虫 爬去别人的网页java 网络爬虫 爬去别人的网页java 网络爬虫 爬去别人的网页java 网络爬虫 爬去别人的网页
主要介绍了Java爬虫Jsoup+httpclient获取动态生成的数据的相关资料,需要的朋友可以参考下
java实现的网页爬虫1.6版本聚焦爬虫抽取网页完整版 1,几个版本合集; 2,基本上可以完成抽取指定站点的源代码的功能; 3,网址保存到数据库中; 4,源代码写入java文件,保存到硬盘指定目录;
Java网页爬虫 JSpider
Java抓取https网页数据,解决peer not authenticated异常。导入eclipse就能运行,带有所用的jar包(commons-httpclient-3.1.jar,commons-logging.jar,httpclient-4.2.5.jar,httpcore-4.2.4.jar)
利用Java 实现了网页爬虫(正则表达式的应用)并将获得数据保存到本地。
java编写代码爬取指定网页的邮箱号码,需要的朋友可以下载!
在创建索引的时候,需要将网页的URL和网页的内容传到相应的方法中,当然URL和内容是要对应的,也许是经验太少吧,我采取的是通过构建一个JavaBean的方式来传递的,不知道大家有没有更好的方法 2.关于要创建...
Java搜索及网页爬虫视频教程.zip
基于java的开发源码-网页搜索爬虫 BlueLeech.zip 基于java的开发源码-网页搜索爬虫 BlueLeech.zip 基于java的开发源码-网页搜索爬虫 BlueLeech.zip 基于java的开发源码-网页搜索爬虫 BlueLeech.zip 基于java的开发...
搜索网页采集网络爬虫java源代码搜索网页采集网络爬虫java源代码