`
geek87
  • 浏览: 7847 次
  • 性别: Icon_minigender_1
  • 来自: 北京
最近访客 更多访客>>
社区版块
存档分类
最新评论
阅读更多

瓦力

一个完整的定向小虫,方便大家看小说,呵呵,有完整代码,实例,文档。。还可定制,这仅仅是一个小小的演试.

 

分享到:
评论
40 楼 geek87 2009-05-11  
kaki 写道
geek87 写道
谢谢,我也喜欢 机器人瓦力


我前两天才买了一个合金模型。

哦,是吗??有这个买吗??
39 楼 geek87 2009-05-11  
呵呵,很好很强大
38 楼 kaki 2009-05-11  
geek87 写道
谢谢,我也喜欢 机器人瓦力


我前两天才买了一个合金模型。
37 楼 kaki 2009-05-11  
感觉和这个差不多吧??


package org.xuancheng.service.security; 

import java.io.BufferedReader; 
import java.io.File; 

import java.io.FileOutputStream; 
import java.io.InputStreamReader; 

import java.net.URL; 
import java.util.regex.Matcher; 
import java.util.regex.Pattern; 

public class GetSina { 

/** 
* @param args 
*/ 
public static void main(String[] args) { 

try { 
//参数:1、小说分类号;2、小说起号;3、小说章节数 
getbook(82036,50202,55183); 
} catch (Exception e) { 
// TODO Auto-generated catch block 
e.printStackTrace(); 
} 
} 

private static void getbook(int fenlei,int zhangjie,int zongzhangjie){ 
String charset = "GBK"; 
StringBuffer bf = new StringBuffer(); 
String FileName = "C:\\"+fenlei+".txt"; 
File myFile = new File(FileName); 
if (myFile.exists()) { 
myFile.delete(); 
} 

for (int i = 0; i <= (zongzhangjie-zhangjie); i++) { 
System.out.println("正在抓取小说第【" + i + "】章内容......http://vip.book.sina.com.cn/book/chapter_" + fenlei + "_"+(i+zhangjie)+".html"); 

bf.append(getParagraph("http://vip.book.sina.com.cn/book/chapter_" + fenlei + "_", i+zhangjie)); 


} 

try { 
bf.append("\n\n -----------------本文由【新浪网小说抓取程序改进版0.1】获取\n\n"); 
FileOutputStream fos = new FileOutputStream(FileName); 
fos.write(bf.toString().getBytes(charset)); 
fos.flush(); 
fos.close(); 

System.out.println("文件书写完毕"); 
} catch (Exception e) { 
// TODO Auto-generated catch block 
e.printStackTrace(); 
} 


} 

private static String getParagraph(String url, int index) { 
int status = 0; 
String paragraph = ""; 
try { 
URL ebook = new URL(url + index + ".html"); 
BufferedReader reader = new BufferedReader(new InputStreamReader(ebook.openStream())); 
String line; 
while ((line = reader.readLine()) != null) { 

if (status == 0) { 
//还没有碰到标题 

Pattern pattern = Pattern 
.compile("(.*)<title>(.*)</title>(.*)"); 
Matcher matcher = pattern.matcher(line); 
if (matcher.matches()) { 
paragraph += matcher.group(2); 
paragraph += "\n\n"; 
status = 1; 
} 
} 
if (status == 1) { 
//还没有碰到文章的开头 
//System.out.print(line); 
Pattern pattern = Pattern 
.compile("(.*)<div id=\"contTxt\" class=\"contTxt1\"><p>(.*)"); 
Matcher matcher = pattern.matcher(line); 
if (matcher.matches()) { 
paragraph += matcher.group(2); 
status = 2; //碰到了正文中的画中画 
} 
} 
if (status == 2) { 

Pattern pattern = Pattern.compile("(.*)</p><p></p></div>(.*)"); 
Matcher matcher = pattern.matcher(line); 
if (matcher.matches()) { 
paragraph += matcher.group(2); 
status = 3; 
} 
} 
} 

//替换掉</p><p> 
paragraph=paragraph.replaceAll("</p><p>", "\n\n"); 
return paragraph.replaceAll("</p></div>", "\n\n"); 
} catch (Exception e) { 
System.out.println(e.toString()); 
return "抓取出错"; 
} 
} 
} 
36 楼 geek87 2009-05-11  
anson2003 写道
我有一个通用的爬虫(UI)。
可定制(服务搭建暂不提供)。

地址:http://www.box.net/shared/c9gub1hk8e

如有搭建服务器的,我可以配合。

需要jdk 1.6


有机会好好聊聊
35 楼 geek87 2009-05-11  
目前没有办法开源,商业用途。。公司产品
34 楼 anson2003 2009-05-11  
<p>我有一个通用的爬虫(UI)。<br>可定制(服务搭建暂不提供)。<br><br>地址:<a href="http://www.box.net/shared/c9gub1hk8e" target="_blank">http://www.box.net/shared/c9gub1hk8e</a><br><br>抓取说明书:<a href="http://www.box.net/shared/horu7hybcq" target="_blank">http://www.box.net/shared/horu7hybcq</a><br><br>如有搭建服务器的,我可以配合。<br><br><span style="color: red;">需要jdk 1.6</span><br><br><br><img src="/upload/attachment/102960/e1fd2d95-609a-37b7-a814-05621194d388.png" alt="" width="800" height="655"></p>
<p> </p>
33 楼 nzinfo 2009-05-11  
我做过一些开源的东西。也收到过一些热心人的增强
不开源,别人为什么要花时间 帮你做东西?
32 楼 geek87 2009-05-11  
谢谢,我也喜欢 机器人瓦力
31 楼 flyingzl 2009-05-11  
机器人瓦力 不错的电影 我冲着这个来,哈哈 支持下
30 楼 geek87 2009-05-11  
小弟才学疏浅,请大家赐教。。
29 楼 geek87 2009-05-11  
做东西方便自己,方便别人
28 楼 geek87 2009-05-11  
呵呵,纯属娱乐。。不要当真
27 楼 xiaoqulai 2009-05-11  
geek87 写道
我们现在不考虑反编译问题,我想,大家能利用这个东西,做点产品什么的就好。。

这个东东不就是用JDK里面的API

不开源谁帮你做产品哦,谁知道你是不是用JDK里面的socket类抓几个固定模板的网页然后hardcode解析一下来糊弄大家哩,那个都没技术含量滴,看你引用的包就两个,十有八九是这样的,这样的东东还想做产品啊

回帖看到了你贴的代码,哎,HttpsURLConnection~~~,其实可以使用apache的http client的,还带java版的浏览器的
26 楼 liangguanhui 2009-05-11  
哈哈,我也在做类似的东西。Direct Spider,很好。
25 楼 geek87 2009-05-11  
<p>源码是没有,不过可以贴一个相关的代码 </p>
<pre name="code" class="java">/**
* 读取一个网页全部内容
*/
public String getOneHtml(String htmlurl, String encoding)
throws IOException {
// 检查网址的有效性
if (htmlurl == null || htmlurl.trim().length() &lt;= 0) {
return null;
}
boolean bool = StringFactory.chk("^http://", htmlurl.trim()
.toLowerCase());
if (!bool) {
return null;
}
URL url;
String temp;
StringBuffer sb = new StringBuffer();
BufferedReader in = null;
InputStream is = null;
url = new URL(htmlurl);
HttpURLConnection http = (HttpURLConnection) url.openConnection(); // http请求
try {

// 提取字符编码
String contentType = http.getContentType();
String myencoding = null;
if (contentType != null) {
int index = contentType.indexOf("charset=");
if (index != -1) {
myencoding = contentType.substring(index +.trim();
}
}
// 如果在HTTP链接中找到字符集信息,则优先使用
if (myencoding != null &amp;&amp; myencoding.trim().length() &gt; 0) {
encoding = myencoding;
}
// System.out.println("编码:" + encoding);
if (encoding == null || encoding.trim().length() &lt;= 0) {
encoding = "gb2312";
}
is = http.getInputStream(); // http流
in = new BufferedReader(new InputStreamReader(is, encoding));// 读取网页全部内容
while ((temp = in.readLine()) != null) {
sb.append(temp);
}
} catch (MalformedURLException me) {
logger.error("输入的URL格式有问题! url:" + htmlurl);
me.getMessage();
throw me;
} catch (IOException e) {
e.printStackTrace();
throw e;
} finally {
try {
in.close();
is.close();
} catch (Exception e) {
}
if(http!=null){
http.disconnect();
}
}
// System.out.println("页面内容:\n"+sb.toString());
return sb.toString();
}</pre>
<p> </p>
<p> </p>
24 楼 d4114 2009-05-11  
源码给我发个吧,我最近也在做这个东西,交流交流
23 楼 geek87 2009-05-11  
我们现在不考虑反编译问题,我想,大家能利用这个东西,做点产品什么的就好。。
22 楼 geek87 2009-05-11  
呵呵,,有才
21 楼 igogo007 2009-05-11  
geek87 写道
呵呵,目前还没开放,


XJAD反编译一下不就有了。。。

相关推荐

    cmd-bat-批处理-脚本-Progress bar 1.zip

    cmd-bat-批处理-脚本-Progress bar 1.zip

    小红书2024年度Java编程开发面试题及参考答案-超详细解析

    该资源是小红书 2024 年度Java 编程开发面试题,内容非常详细,适合应届毕业生和准备寻求更高发展的Java工程师,希望给你们带来帮助。

    RISC-V指令集五级流水线CPU设计与验证:基于Verilog的实现及应用 CPU设计

    内容概要:本文详细介绍了基于RISC-V指令集的五级流水线CPU设计及其验证过程。首先,文章阐述了RISC-V指令集的特点及其在CPU设计中的优势,接着深入解析了每个流水线阶段(取指、解码、执行、访存、写回)的Verilog源代码实现。此外,提供了汇编验证代码用于测试CPU的功能,并附带详细的说明文档和PPT,确保设计的完整性和易理解性。最后,在Vivado平台上进行了全面的仿真和实际硬件测试,验证了设计的正确性和性能。 适合人群:从事嵌入式系统设计、CPU架构研究及相关领域的工程师和技术人员。 使用场景及目标:①理解和掌握RISC-V指令集在五级流水线CPU设计中的应用;②学习Verilog语言在CPU硬件设计中的具体实现方法;③通过汇编验证代码测试CPU功能,确保设计的可靠性。 其他说明:本文不仅提供了完整的Verilog源代码和汇编验证代码,还包括详细的说明文档和PPT,有助于读者更好地理解和实践CPU设计过程。

    基于51单片机与HC-05蓝牙模块的Android手机通信程序

    本程序实现了51单片机与手机之间的字符及数字通信功能,且代码中配有详尽的注释说明。关于通信原理的详细阐述,可在我的其他相关文章中查阅。

    cmd-bat-批处理-脚本-run dialogue.zip

    cmd-bat-批处理-脚本-run dialogue.zip

    多智能体编队技术中48智能体点对点转换的分布式模型预测控制及应用 多智能体系统

    内容概要:本文详细介绍了多智能体编队技术,特别是针对4智能体和8智能体的点对点转换分布式模型预测控制。首先概述了多智能体编队的概念及其广泛应用,如无人驾驶、无人机编队等。接着深入探讨了分布式模型预测控制的方法论,强调每个智能体依据自身模型和邻近智能体信息进行预测并制定控制策略,从而提升系统灵活性和鲁棒性。随后阐述了点对点转换的具体机制,即智能体间通过高效的信息交换实现状态间的平滑过渡。最后展示了简化的Python代码示例来解释这一过程,并提供了相关领域的权威参考文献。 适合人群:对多智能体系统、分布式控制系统感兴趣的科研人员和技术开发者。 使用场景及目标:适用于希望深入了解多智能体编队控制理论的研究者以及从事无人驾驶、无人机编队等相关项目的技术人员。目标在于掌握分布式模型预测控制的基本原理及其在实际工程中的应用。 其他说明:文中提供的代码仅为概念验证性质,实际部署时还需考虑更多因素如网络延迟、数据同步等。此外,附带的参考文献为读者进一步学习提供了宝贵的资料来源。

    2023年系统分析师真题及解析

    2023年系统分析师真题及解析

    IMG_20250521_201207.jpg

    IMG_20250521_201207.jpg

    基于鲸鱼算法的光伏风电选址定容优化及其经济性评估 多目标优化

    内容概要:本文探讨了利用鲸鱼算法(Whale Optimization Algorithm)对光伏和风电项目的选址和定容进行优化的方法。鲸鱼算法是一种新颖的智能算法,它模仿座头鲸的捕食行为,具有较少的参数调整需求和强大的寻优能力。文中详细介绍了该算法的核心机制,如气泡网攻击策略,并展示了如何将其应用于新能源项目的选址定容问题中。具体来说,通过定义合适的目标函数来衡量不同方案的表现,包括网损、节点电压偏差和投资成本等因素。此外,还讨论了如何通过调整权重系数来平衡各个目标之间的关系,从而获得最佳解决方案。最终,通过对实验结果的分析,证明了鲸鱼算法在处理此类多维度优化问题上的优越性能。 适合人群:从事新能源规划、电力系统工程及相关领域的研究人员和技术人员。 使用场景及目标:适用于需要对光伏和风电项目进行科学合理的选址和定容决策的情境下,旨在提高能源利用效率的同时降低成本,确保电网稳定性和可靠性。 其他说明:文中提供了具体的Python代码示例,帮助读者更好地理解和实现鲸鱼算法的应用。同时强调了在实际操作过程中应注意的一些关键因素,如数据预处理方法的选择以及参数设置的影响等。

    工业自动化领域威纶通A2触摸屏程序标准精美模板及其应用

    内容概要:本文详细介绍了威纶通标准精美模板,一套专为A2触摸屏程序开发提供的可直接套用的界面模板。模板涵盖了多个实用功能界面,如配方管理、报警记录、操作记录、登录、设备使用说明、参数设置、系统设置、权限设置、趋势显示、电机设置、IO监控、工位用时、文档设置和维修界面。每个界面均经过精心设计,确保界面清新整洁,不带复杂的宏指令,便于操作和维护。此外,模板还支持XY曲线、树状图、数据统计等功能,能够灵活配置和调用。这套模板不仅适用于快速开发,也为新手和在校生提供了宝贵的学习资源。 适用人群:工业自动化领域的开发人员、工程师、新手和在校学生。 使用场景及目标:① 开发人员可以通过直接套用或复制模板,快速完成A2触摸屏程序开发;② 新手和在校生可以利用模板学习触摸屏程序的设计和实现,掌握工业自动化领域的关键技能。 其他说明:模板中的功能和界面设计充分考虑了工业自动化的需求,确保了系统的稳定性和实用性。

    一种三元锂电池析锂特性以及检测方法研究.zip

    一种三元锂电池析锂特性以及检测方法研究.zip

    大规模无线传感 器网络中稀疏信号的数据收集策略.pdf

    大规模无线传感 器网络中稀疏信号的数据收集策略.pdf

    cmd-bat-批处理-脚本-One_Click_StockPrice.zip

    cmd-bat-批处理-脚本-One_Click_StockPrice.zip

    cmd-bat-批处理-脚本-installed-package-contents.zip

    cmd-bat-批处理-脚本-installed-package-contents.zip

    2025年网络媒体项目解决方案.docx

    2025年网络媒体项目解决方案.docx

    实证数据-2010-2023年上市公司-管理层情感语调数据-社科经管.rar

    该数据集为2010-2023年中国A股上市公司管理层情感语调的年度面板数据,覆盖45,320条样本,数据源自年报及半年报的"管理层讨论与分析"部分。通过构建中文金融情感词典(融合《知网情感分析用词典》与L&M金融词汇表),采用文本分析方法计算情感语调指标,包括:正面/负面词汇数量、文本相似度、情感语调1((积极词-消极词)/总词数)和情感语调2((积极词-消极词)/(积极词+消极词))。同时包含盈利预测偏差、审计意见类型等衍生指标,可用于研究信息披露质量、市场反应及代理问题。该数据复刻了《管理世界》《财经研究》等期刊的变量构建方法,被应用于分析语调操纵对债券市场的影响,学术常用度与稀缺度较高。

    cmd-bat-批处理-脚本-green.zip

    cmd-bat-批处理-脚本-green.zip

    心脏病发作数据集.rar

    数据文档 背景描述 心脏病是全球主要的健康威胁之一,也是导致死亡的主要原因。及早识别心脏病风险因素和预测可能的心脏问题对于预防和治疗至关重要。该数据集收集了与心脏健康相关的多种生理指标和实验室检查结果,旨在帮助开发能够区分心脏病阳性和阴性患者的预测模型。 通过分析这些数据,医疗专业人员和研究人员可以更好地理解不同因素(如年龄、性别、血压、血糖和心肌标志物)对心脏病发展的影响,从而制定更精准的诊断和治疗方案。 数据说明 字段 说明 Age 患者年龄 Gender 性别(1=男性,0=女性) Heart rate 心率(每分钟心跳次数) Systolic blood pressure 收缩压(毫米汞柱) Diastolic blood pressure 舒张压(毫米汞柱) Blood sugar 血糖水平(毫克/分升) CK-MB 肌酸激酶同工酶水平(心肌损伤标志物) Troponin 肌钙蛋白水平(心肌损伤特异性标志物) Result 诊断结果(positive=患有心脏病,negative=未患心脏病) 问题描述 该数据集适用于多种分析和预测场景,可以帮助解决以下问题: 心脏病风险预测: 基于生理指标和生化标志物预测个体患心脏病的风险。 关键指标识别: 确定对心脏病诊断最有预测价值的生理和生化指标。 人口统计学分析: 研究年龄和性别与心脏病发生率之间的

Global site tag (gtag.js) - Google Analytics