- 浏览: 48746 次
- 性别:
- 来自: 福建
最新评论
-
joyhen:
感谢,要学的东西好多啊
Apache Hadoop生态系统 -
java大风车:
fffffffffffffffffffffffffffff
Apache Hadoop生态系统
文章列表
win7在使用Linux的过程中,随着软件的安装和数据的膨胀,有时候会发现划分给Linux分区需要进行调整。如果直接使用分区命令fdisk调整分区大小,往往意味着分区数据的丢失。LVM技术可以避免分区数据丢失,但在使用中有许多限制。本文介绍一种使用gparted进行Linux分区调整的方法,它比较适合个人计算机中的硬盘分区调整,同时也可避免数据丢失。gparted是一款免费、开源的Linux下的具有图形用户界面的分区软件。gparted支持的分区格式和每种格式中可进行的操作如下所示:
- 2013-12-03 08:33
- 浏览 824
- 评论(0)
解决搜索动态内容的问题:需要注意在conf下面的2个文件:regex-urlfilter.txt# skip URLs containing certain characters as probable queries, etc.-[?*!@=] (-改+)这段意思是跳过在连接中存在? * ! @ = 的页面,因为默认是跳过所以,在动态页中存在?一般按照默认的是不能抓取到的。可以在上面文件中修改成:# skip URLs containing certain characters as probable queries, etc.# -[?*!@=]另外增加允许的一行# accept URLs ...
- 2013-12-02 10:26
- 浏览 476
- 评论(0)
今天主要解决了Nutch中的一些小的问题,下面分别简述一下。
1.网页快照乱码问题
Nutch的网页快照是乱码,解决办法是修改tomcat/webapps/nutch目录下的cached.jsp文件,修改其中的第63行。
原来的代码是:content = new String(bean.getContent(details);
修改后的代码是:content = new String(bean.getContent(details),"gb2312");
2.搜索结果高亮显示
Nutch默认的搜索结果是没有高亮的,解决办法是在关键词中加 ...
- 2013-12-02 10:14
- 浏览 350
- 评论(0)
主要类分析:一、 org.apache.nutch.crawl.Injector: (注入url)
1,注入url.txt
2,url标准化
3,拦截url,进行正则校验(regex-urlfilter.txt)
4,对符URL标准的url进行map对构造<url, CrawlDatum>,在构造过程中给CrawlDatum初始化得分,分数可影响url host的搜索排序,和采集优先级!
5,reduce只做一件事,判断url是不是在crawldb中已经存在,如果存在则直接读取原来CrawlDatum,如果是新host,则把相应状态存储到里边(STATUS_D ...
- 2013-12-02 10:01
- 浏览 233
- 评论(0)
主要类分析:一、 org.apache.nutch.crawl.Injector: (注入url)
1,注入url.txt
2,url标准化
3,拦截url,进行正则校验(regex-urlfilter.txt)
4,对符URL标准的url进行map对构造<url, CrawlDatum>,在构造过程中给CrawlDatum初始化得分,分数可影响url host的搜索排序,和采集优先级!
5,reduce只做一件事,判断url是不是在crawldb中已经存在,如果存在则直接读取原来CrawlDatum,如果是新host,则把相应状态存储到里边(STATUS_D ...
- 2013-12-02 10:01
- 浏览 130
- 评论(0)
(一):Nutch的工作流程:
Crawdb、linkdb
是web link目录,存放url及url的互联关系,作为爬行与重新爬行的依据。
segments
是主目录,存放抓回来的网页。页面内容有bytes[]的raw content和parsed text的形式。nutch以广度优先的原则来爬行,因此每爬完一轮会生成一个segment目录。
index
是lucene的索引目录,是indexes目录里所有index合并后的完整索引,注意索引文件只对页面内容进行索引,没有进行存储,因此查询时要去访问segments目录才能获得页面内容。
(一):流程综述: ...
- 2013-12-02 09:53
- 浏览 354
- 评论(0)
(一):Nutch的工作流程:
Crawdb、linkdb
是web link目录,存放url及url的互联关系,作为爬行与重新爬行的依据。
segments
是主目录,存放抓回来的网页。页面内容有bytes[]的raw content和parsed text的形式。nutch以广度优先的原则来爬行,因此每爬完一轮会生成一个segment目录。
index
是lucene的索引目录,是indexes目录里所有index合并后的完整索引,注意索引文件只对页面内容进行索引,没有进行存储,因此查询时要去访问segments目录才能获得页面内容。
(一):流程综述: ...
- 2013-12-02 09:53
- 浏览 117
- 评论(0)
1. 安装bind9: apt-get install bind9;
2. /etc/bind/上创建db.192.0.1和db.test.com文件:
db.192.0.1文件内容如下:
$TTL 604800
@ IN SOA test.com. root.test.com. (
1 ; Serial
604800 ; Refresh
86400 ; Retry
2419200 ; Expire
60 ...
- 2013-12-01 22:46
- 浏览 326
- 评论(0)
今天在hadoop的基础上对hbase进行搭建(hbase安装:http://blog.csdn.net/gaokao2011/article/details/17020285),在启动的hbase的时候报错,提示未找到zookeeper;ok,那就把zookeeper给安装了(zookeeper安装:http://blog.csdn.net/gaokao2011/article/details/17020209)。接下来,先启动hadoop,然后启动hbase,进行得无比的顺利,接下来见证奇迹的时刻,进入zookeeper安装目录下启动zookeeper,此时jps发现hbase的进程HMas ...
- 2013-11-30 16:08
- 浏览 812
- 评论(0)
1、Apache Nutch
Apache Nutch是一个用于网络搜索的开源框架,它提供了我们运行自己的搜索引擎所需的全部工具,包括全文搜索和Web爬虫。
1.1、Nutch的组件结构
WebDB:存储网页数据和连接信息
- 2013-11-29 14:48
- 浏览 274
- 评论(0)
1、Apache Nutch
Apache Nutch是一个用于网络搜索的开源框架,它提供了我们运行自己的搜索引擎所需的全部工具,包括全文搜索和Web爬虫。
1.1、Nutch的组件结构
WebDB:存储网页数据和连接信息
- 2013-11-29 14:48
- 浏览 257
- 评论(0)
HRegionServer未启动的具体操作如下:
1.先查看当时的时间:date
2.根据获得的时间对系统进行同步:date -s08:42:00
再次启动hbase,成功看到HRegionServ
- 2013-11-29 10:42
- 浏览 635
- 评论(0)
一、安装需求
安装java 1.6,Hadoop 1.2.1及zookeeper
ubuntu机上已安装Hadoop 1.2.1和zookeeper 3.4.3(zookeeper的安装方法可见于ZooKeeper安装过程
http://blog.csdn.net/gaokao2011/article/details/17020209)。
此次安装的hbase版本为0.94.13。
安装成功并执行后,该虚拟机会有以下java进程:
NameNode
DataNode
SecondaryNameNode
TaskTracker
JobTracker
HMaster ...
- 2013-11-29 10:24
- 浏览 473
- 评论(0)
一、安装需求
安装java
1.6及hadoop 1.2.*
二、安装zookeeper
1、下载zookeeper
wgethttp://apache.osuosl.org/zookeeper/zookeeper-3.4.3/zookeeper-3.4.3.tar.gz(本次安装3.4.3版本)
其他版本下载地址(最好使用stable版本):http://zookeeper.apache.org/releases.html
2、解压
tar -xfzookeeper-3.4.3.tar.gz
将解压后的zookeeper-3.4.3文件 ...
- 2013-11-29 10:12
- 浏览 384
- 评论(0)
本篇介绍两种HBase的安装方式:本地安装方式和伪分布式安装方式。
安装的前提条件是已经成功安装了hadoop,而且hadoop的版本要和hbase的版本相匹配。
我将要安装的hbase是hbase-0.94.13版本,需要的hadoop是hadoop-1.2.1版本。
hbase下载地址:http://apache.fayea.com/apache-mirror/hbase/hbase-0.94.13/
将下载的hbase-0.94.13解压到相应的目录,如/usr/hbase-0.94.13
将hbase-0.94.13重命名为hbase
- 2013-11-28 16:29
- 浏览 392
- 评论(0)