- 浏览: 618069 次
- 性别:
- 来自: 北京
文章分类
- 全部博客 (314)
- 生活 (2)
- c# (37)
- 技术 (3)
- 400电话 (0)
- 400常见问题 (0)
- 400资费 (0)
- html (7)
- css (0)
- 数据库 (7)
- javascript (16)
- php (33)
- asp.net mvc2 (10)
- mysql (9)
- C# 3.0 LinQ (10)
- vs2005或vs2008 (4)
- flash and as3 (7)
- fms (1)
- dedeCMS (11)
- java (33)
- j2me (1)
- swing (1)
- c++ (1)
- jquery easyui (3)
- jquery (5)
- android (29)
- MongoDB (9)
- VtigerCRM (1)
- test (0)
- linux (30)
- nutch (2)
- SqlServer数据库 (2)
- 数据检索 (2)
- java抓取 (11)
- 乐天 (1)
- 淘宝 (1)
- Silverlight4.0 (6)
- sphinx实时索引 (5)
- ecshop (9)
- codeigniter(CI) (3)
- axure6 (1)
- 京东店铺装修教程 (2)
- xpath (1)
- joomla (2)
- bpm (1)
- Bootstrap (2)
- knockout (4)
- ecstore (4)
- css3 (1)
- 微信 (2)
- dede (0)
- soa_edi (1)
- odoo (0)
- web (1)
最新评论
-
骑着蜗牛超F1:
在ie6下报了个stack overflow at line ...
兼容ie6和ie7 的16进制码流在html中显示为图片代码(base64) -
冰之海洋:
好像少了一句代码吧? FloatingFunc.show(th ...
android 一直在最前面的浮动窗口效果 -
yanzhoupuzhang:
连接有问题!
iis7.0官方下载 IIS 7.0(微软Web服务器组件IIS 7.0) 官方(windows 2003,XP,2000) -
whatable:
唉,楼主你都没有搞清楚重量级和轻量级。。。。既然引用了SWT, ...
java swing 内置浏览器打开网页显示flash图表-swt Browser应用 -
yy_owen:
我晕啊,你链接的什么内容额,我要的iis,你链接个视频什么意思 ...
iis7.0官方下载 IIS 7.0(微软Web服务器组件IIS 7.0) 官方(windows 2003,XP,2000)
nutch环境配置在windows系统上必须要安装【Cygwin】。cygwin是一个在windows平台上运行的unix模拟环境。
一、安装jdk
Jdk版本为1.6, 下载地址:
http://www.sun.com/download/
安装路径 :C:\Program Files\Java\jdk1.6.0_23\(安装路径不做硬性要求,可能由于版本不同路径有所区别,请注意该处 )
配置PATH环境变量 ;%JAVA_HOME%\bin;%TOMCAT_HOME%\bin
配置JAVA_HOME环境变量 C:\Program Files\Java\jdk1.6.0_23
配置JAVA_BIN环境变量 C:\Program Files\Java\jdk1.6.0_23\bin
配置CLASSPATH环境变量 %JAVA_HOME%/lib/dt.jar;%JAVA_HOME%/lib/tools.jar
二、安装Tomcat
版本为5.0 (一定要用Tomcat5.0,如果注意下载了Tomcat6.0,会导致运行时的一些不知名的异常:例如 “Attribute
value details.getValue("url") is quoted with " which must be escaped
when used within the value)
下载地址:
http://tomcat.apache.org/
设置TOMCAT_HOME环境变量 c:\tomcat
3.安装Cygwin.(在windows模拟linux环境)
下载Cygwin
三、准备windows下的Linux虚拟环境,即"Cygwin"
这里我要对Cygwin 多做点文章,因为我感觉我在配置Nutch个环境时,大部分时间还是花在Cygwin上了。首先他不同于一般的软件,不能直接下载到。只能他的一个类似于 下载器的程序去访问Cygwin在网上的镜像,我想不通为什么非要通过这样方式,也许是因为老更新吧,这样维护方便。
第一步 下载 http://www.cygwin.com/setup.exe
只有几K.但是这才开始下载
他有三种下载方式:
- 从Internet上直接安装,这个据说很费时间。
- 下载但不安装。 (推荐这样方法)
- 从本地安装。
下载完成后在运行 setup.exe
选择 【从本地安装】,点击下一步
不用改变直接点击下一步就可以(这个是cygwin要安装到哪里)
选择你在上面下载是制定的cygwin目录点击下一步开始安装。
安装完成后可以单击桌面上的【Cygwin】快捷方程式进行启动,启动后界面如下:
经过上面的过程,Cygwin就安装完成了,待用。
Nutch下载及配置
Nutch下载地址:
http://apache.etoak.com//nutch/
http://apache.etoak.com//nutch/apache-nutch-1.2-bin.zip(这里配置使用的是1.2,最新的是1.3)
Nutch配置:
- 解压Nutch到d:\nutch\nutch-1.2
- 在d:\nutch\nutch-1.2 目录下新建文件夹urls 并在其下面建立文件 urls\nutch.txt,并在nutch.txt中写入要抽取的站点地址如: 将要抓取的网站地址输入,比如http://www.my400800.cn /(注意最后的/一定要有 )
- 打开conf\crawl-urlfilter.txt文件,将
# accept hosts in MY.DOMAIN.NAME
+^http://([a-z0-9]*\.)*MY.DOMAIN.NAME/
改为
# accept hosts in MY.DOMAIN.NAME
+^http://([a-z0-9]*\.)*my400800.cn/(这里也要有/呦 ) - 打开nutch/conf/nutch-site.xml文件,修改<configuration></configuration>为:
<configuration>
<property>
<name>http.agent.name</name>
<value>HD nutch agent</value>
</property>
<property>
<name>http.agent.version</name>
<value>1.2</value>
</property>
</configuration> - 开始爬(从上面启动的【Cygwin dos窗口输入如下命令】)
/cygdrive/d/nutch/nutch-1.2/bin/nutch crawl -dir localdownweb -depth 1 -threads 1 topN 10 urls >&/crygdrive/d/nutch/nutch-1.2/ logs/log1.log
crawl:通知nutch.jar,执行crawl的main方法。
urls:存放需要爬行的url.txt文件的目录
-dir sina 爬行后文件保存的位置
-depth 2:爬行次数,或者成为深度,不过还是觉得次数更贴切,建议测试时改为1。
-threads 指定并发的进程 这是设定为 4
-topN :一个网站保存的最大页面数。
会出现如下错误
在上面的目录建立[urls]目录,在目录里面建立 【nutch.txt】,内容为:想抓取的url地址,格式为:http://www.my400800.cn/(后面的反斜杠不要忘记呀)
再次运行上面的命令出现如下窗口,启动成功。
发表评论
-
Java 线程中的Join、wait、notify,sleep
2016-06-22 17:28 4111.wait和notify这两个方法都是Object中的方法 ... -
Java多线程sleep(),join(),interrupt(),wait(),notify()
2016-06-22 17:25 468浅析 Java Thread.join() ... -
Java和C#运行命令行并获取返回值 运行bat文件
2015-08-04 10:45 1265Java运行命令行的例子 import java.io.B ... -
HttpClient的超时用法小记
2012-05-06 08:23 898HttpClient在使用中有两个超时时间,是一直接触 ... -
JDK1.5中的线程池(java.util.concurrent.ThreadPoolExecutor)使用简介
2012-05-05 21:29 739在多线程大师Doug Lea的 ... -
XPath 语法 org.dom4j.Document
2012-02-07 13:12 1235XPath 使用路径表达式 ... -
Nutch命令大全
2011-12-28 15:12 1384Nutch采用了一种命令的方式进行工作,其命令可以是对局域网方 ... -
Nutch1.2搜索引擎使用详解
2011-12-27 17:12 1613Nutch作为一款刚刚诞生 ... -
ECLIPSE java.lang.OutOfMemoryError: PermGen space 错误
2011-12-21 15:03 1069ECLIPSE 最近一段时间经常报错,看了日志,有如下错误信息 ... -
Heritrix 和 Nutch 比较与分析(java开源网络爬虫)
2011-11-15 11:01 7391Heritrix项目介绍 Heritrix工程 ... -
heritrix 下载、安装、配置、以及简单开发
2011-11-04 11:36 1341一、下载: 到www.sourcef ... -
java 如何判断Socket已断开
2011-09-14 13:34 1677最近在开发中遇到一个问题,就是如何判断远端服务器是否已经断开连 ... -
java 程序内存溢出问题查找
2011-04-10 18:00 937这段是时间用java swing做了一个小程序,但是运行一点时 ... -
jtable 隐藏表头标题行
2011-04-08 10:59 3239今天需要把JTable的表头也就是标题行给隐藏掉,在晚上找了一 ... -
java FrameView 启动最大化
2011-03-30 08:49 1487FrameViewzView = new ... -
Swing窗口Linux下不支持最大化问题
2011-03-28 10:15 967由于最近一直在Linux下工作,今天遇到了Swing窗口不能最 ... -
java 抓取网页内容,可设定代理(HttpURLConnection)
2011-03-11 09:41 1426/* * To change this template, ... -
swing下 改变窗口样式为windows风格(swing控件样式不美观解决方案)
2011-03-02 15:52 2592在windows环境下可以用下面两种方法使窗口显示window ... -
swt Browser 如何打开新url链接地址
2011-02-28 17:27 1670上一篇文章【java swing 内置浏览器打开网页显示fla ... -
java swing 内置浏览器打开网页显示flash图表-swt Browser应用
2011-02-25 16:45 3802今天在网上找了好久如何用在java swing打开网页,从而实 ...
相关推荐
nutch和cygwin在Windows系统上的配置.pdf
nutch1.4 在windows下的安装配置环境搭建
Windows下cygwin+MyEclipse 8.5+Nutch1.2+Tomcat 6.0 Windows下cygwin+MyEclipse 8.5+Nutch1.2+Tomcat 6.0 Windows下cygwin+MyEclipse 8.5+Nutch1.2+Tomcat 6.0
Nutch在windows下的安装 JDK安装 Tomcat安装 Cygwin安装
nutch 在windows下环境搭配 已经如何在eclipse下配置,有配图,很详细
eclipse配置nutch,eclipse配置nutch
windows7的环境下将nutch成功运行 整个安装图片教程: 1 cygwin的安装 2 apache-nutch的安装 3 nutch实例抓取实例
Apache Nutch 1.7 在windows和Linux下的安装,有详细的图示和步骤说明,测试过多次。
详细介绍nutch在windows下myeclipse中的配置以及执行,本人空间还有nutch1.2包,nwgwin安装包等
近来Nutch一词在网络中时有所见,但囿于平常工作繁忙而未能潜心细读与研究,只知道Nutch是Apache组织的一个开源项目,利用它用户可以建立自己内部网的搜索...下面,就让笔者对Nutch在Windows系统中的安装进行一番细解吧
参考文章 http://blog.csdn.net/handyhuang/article/details/7421553
windows下nutch的安装配置以及与tomcat的集成.doc
Linux 下 Nutch 单机配置
Nutch2.3.1 环境搭建 Nutch2.3.1 环境搭建 Nutch2.3.1 环境搭建 亲测可用,我自己安装和搭建过程的记录文档
Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫
Windows下使用Eclipse配置Nutch2图文详解
Nutch在windows下的安装.pdf
nutch 1.4 在windows下安装配置
Nutch在windows开发中程序运行环境的配置,可用于Java环境开发
Nutch是一个由Java实现的,刚刚诞生开放源代码(open-source)的web搜索引擎。