最新文章列表

nutch 01 认识nutch

1.1 什么是nutch nutch 就一个开源的java 实现的搜索引擎,它提供了我们运行自己的搜索引擎所需的全部工具,包括全文搜索和web爬虫。现在的nutch 的发展趋势是网络爬虫,全文搜索是用lucene的内核,nutch 是lucene的一个子项目,apache 又从nutch项目里面产生了hadoop,tika,gora等其他子项目,其实就是对一些公共模块的封装,重用,然后起个名字,实 ...
zhangzhanlei1988 评论(1) 有1310人浏览 2013-10-27 18:46

nutch2.1+mysql+elasticsearch整合linux单机部署

  from internet 这次主要介绍下nutch2.1和mysql和elasticsearch的整合,是在单机上运行,并不是分布式部署。 1、下载nutch2.1     nutch下载地址:http://labs.mop.com/apache-mirror/nutch/2.1/apache-nutch-2.1-src.tar.gz     下载完成后解压,  2、配置nut ...
wbj0110 评论(0) 有1461人浏览 2013-10-21 09:18

Nutch的发展历程

Nutch的创始人是Doug Cutting,他同时也是Lucene、Hadoop和Avro开源项目的创始人   下面是Nutch的发展历程:   2002年8月由Doug Cutting发起,托管于Sourceforge,之后发布了0.4、0.5、0.6三个版本 2004年9月Oregon State University
yangshangchuan 评论(0) 有4565人浏览 2013-09-29 18:18

solr环境配置、中文分词、数据库

一、配置solr环境 1、  下载solr  http://www.apache.org/dyn/closer.cgi/lucene/solr/ 此处用的是3.5 解压到D盘D:/solr/apache-solr-3.5.0 2、修改tomcat conf/server.xml   <Connector connectionTimeout="20000" port= ...
anyhuayong 评论(0) 有817人浏览 2013-09-27 22:14

nutch研究—遇到的错误和解决办法

1、cygwin 运行 bin/nutch crawl urls -dir crawled -depth 3 -topN 50 >&crawl.log     出现下面问题:bin/nutch: line 251: exec: C:\Program: not found。 解决:从新完整的 ...
anyhuayong 评论(0) 有756人浏览 2013-09-27 21:50

nutch 总结 原创-胡志广

1.      网页快照乱码解决方法 修改nutch\cached.jsp, 将content = new String(bean.getContent(details)) 修改为content = new String(bean.getContent(details),"utf-8")
saiyaren 评论(0) 有6681人浏览 2013-09-18 13:37

NUTCH公开课:从搜索引擎到网络爬虫

Hadoop是大数据的核心技术之一,而Nutch集Hadoop之大成,是Hadoop的源头。学习Hadoop,没有数据怎么办?用Nutch抓!学了Hadoop的Map Reduce以及HDFS,没有实用案例怎么办?学习Nutch!Nutch的很多代码是用Map Reduce和HDFS写的,哪里还能找到比Nutch更好的Hadoop应用案例呢?   大数据这个术语最早的引用可追溯到Nutch。 ...
yangshangchuan 评论(3) 有23132人浏览 2013-09-12 17:28

Apache nutch1.5 & Apache solr3.6詳解

第1章引言   1.1nutch和 solr   Nutch 是一个开源的、Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。 Solr 拥有像 web-services API 的独立的企业级搜索服务器。用 XML 通过 HTTP 向它添加文档(称为做索引),通过 HTTP 查询返回 XML 结果。 1.2研究 
wbj0110 评论(0) 有1223人浏览 2013-09-11 11:10

Cygwin模拟Linux在windows下的镜像安装

Cygwin是一款优秀的软件,因其能在windows上模拟Linux环境,从而给我们测试某些开发程序带来极大的方便,省去了安装虚拟机的琐碎事情,也大大的节约了 ...
qindongliang1922 评论(3) 有2540人浏览 2013-07-06 12:50

nutch1.6+solr3.6的在win7下入门部署

1,在windows平台下,使用nutch,得需要cygwin工具作为其模拟linux的运行环境,cygwin在这里的安装就不多说了,可以到http://www.cygwin.com/下下载,直接点击setup.exe即可下载,然后就点下一步下一步安装就可以了。 2,安装完cygwin,确定配置好环境变量,可以输入cygcheck -c cygwin查看版本 [img][/img],正确之后 就可 ...
qindongliang1922 评论(0) 有2271人浏览 2013-06-17 16:03

nutch crawler 解析 下

好,咱们继续。 parse $bin/nutch parse $commonOptions $skipRecordsOptions $CRAWL_PATH/segments/$SEGMENT CLASS=org.apache.nutch.parse.ParseSegment 这就是传说中的解析网页内容的操作。 map中: 首先只解析成功的内容,看上一步返回的状态码,如果不是成功的情况直 ...
sharp-fcc 评论(0) 有960人浏览 2013-05-14 12:01

从crawl 脚本看 nutch crawl过程 上

crawl 脚本用来实现 nutch 中对于网页的抓取 分析 索引工作。  把工程下下来之后 ,进入到 bin 目录: 两个脚本文件  crawl nutch   crawl 是对nutch 的进一 ...
sharp-fcc 评论(0) 有1115人浏览 2013-05-12 21:43

eclipse中导入nutch源码

1、下载并解压eclipse(集成开发环境) 下载地址:http://www.eclipse.org/downloads/,下载Eclipse IDE for Java EE Developers2、安装Subclipse插件(SVN客户端) 插件地址:http://subclipse.tigris.org/update_1.8.x,3、安装IvyDE插件(下载依赖Jar) 插件地址:http: ...
twtbgn 评论(0) 有2641人浏览 2013-05-10 16:22

nutch nutch-site.xml

1. nutch-site.xml的变更不需要重新ant,  与ycs的说法有误 2. nutch-site.xml中的 <property>   <name>http.agent.name</name>   <value>Mozilla/5.0 (Windows NT 6.1; rv:20.0) Gecko/20100101 Firefox/20.0 ...
john_doe 评论(0) 有1399人浏览 2013-05-05 17:30

nutch入门教程[更新视频下载连接]

在windows下需要使用cygwin 模拟linux环境 下载地址 : www.cygwin.com 下载之后安装 一路默认 下一步(切记不要断开网络这个安装包只是一个下载器,安装需要联网)  选择一个地址,继续下一步,我这里选择的是163的地址 继续默认下一步,会自动下载需要的文件安装完成 双击快捷图标,会出现   输入命令试试吧下面开始nutch之旅吧 nutch下载地 ...
weixiao2013 评论(0) 有1440人浏览 2013-04-03 11:14

Ubuntu上安装HADOOP多机完全分布式集群

1、三台机器 host2(NameNode、SecondaryNameNode、JobTracker、DataNode、TaskTracker) host6(DataNode、TaskTracker) host8(DataNode、TaskTracker) vi  /etc/hostname(分别给每一台主 ...
yangshangchuan 评论(1) 有9372人浏览 2013-04-02 00:45

Windows上安装HADOOP单机伪分布式集群

1、准备HADOOP运行环境 下载解压并拷贝到Cygwin的用户主目录 http://archive.apache.org/dist/hadoop/core/hadoop-0.20.2/hadoop-0.20.2.tar.gz 1.x版本有BUG,参考: https://issues.apache.org/jira/browse/HADOOP-7682https://issues.apa ...
yangshangchuan 评论(0) 有6661人浏览 2013-04-02 00:24

配置Cygwin支持无密码SSH登陆

1、安装SSH 默认的Cygwin没有安装ssh,所以重新运行http://www.cygwin.com/setup-x86_64.exe 在Select Packages的时候,在search输入ssh,选择openssh:The OpenSSH server and clien ...
yangshangchuan 评论(0) 有9475人浏览 2013-04-01 00:56

Ubuntu上安装HADOOP单机伪分布式集群

1、新建用户和组 addgroup hadoop adduser --ingroup hadoop hadoop 注销root以hadoop用户登录   2、配置SSH ssh-keygen -t rsa(密码为空,路径默认) cp .ssh/id_rsa.pub .ssh/authorized_keys   3、准备HADOOP运行环境 wget http://archiv ...
yangshangchuan 评论(0) 有8423人浏览 2013-04-01 00:35

Cygwin运行nutch报错:Failed to set permissions of path

错误信息: Exception in thread "main" java.io.IOException:Failed to set permissions of path:\tmp\hadoop-ysc\mapred\staging\ysc-2036315919\.staging to 0700   官方BUG参考: https://issues.apache.or ...
yangshangchuan 评论(6) 有8938人浏览 2013-03-31 23:37

最近博客热门TAG

Java(141744) C(73651) C++(68608) SQL(64571) C#(59609) XML(59133) HTML(59043) JavaScript(54919) .net(54785) Web(54514) 工作(54118) Linux(50905) Oracle(49875) 应用服务器(43289) Spring(40812) 编程(39454) Windows(39381) JSP(37542) MySQL(37267) 数据结构(36424)

博客人气排行榜

    博客电子书下载排行

      >>浏览更多下载

      相关资讯

      相关讨论

      Global site tag (gtag.js) - Google Analytics