双系统（win7+ubuntu）空间不足时解决方法

win7在使用Linux的过程中，随着软件的安装和数据的膨胀，有时候会发现划分给Linux分区需要进行调整。如果直接使用分区命令fdisk调整分区大小，往往意味着分区数据的丢失。LVM技术可以避免分区数据丢失，但在使用中有许多限制。本文介绍一种使用gparted进行Linux分区调整的方法，它比较适合个人计算机中的硬盘分区调整，同时也可避免数据丢失。gparted是一款免费、开源的Linux下的具有图形用户界面的分区软件。gparted支持的分区格式和每种格式中可进行的操作如下所示：

2013-12-03 08:33
浏览 824
评论(0)

nutch抓取动态网页

解决搜索动态内容的问题：需要注意在conf下面的2个文件：regex-urlfilter.txt# skip URLs containing certain characters as probable queries, etc.-[?*!@=] （-改+）这段意思是跳过在连接中存在? * ! @ = 的页面，因为默认是跳过所以，在动态页中存在？一般按照默认的是不能抓取到的。可以在上面文件中修改成：# skip URLs containing certain characters as probable queries, etc.# -[?*!@=]另外增加允许的一行# accept URLs ...

2013-12-02 10:26
浏览 476
评论(0)

Nutch中的一些小的问题解决

今天主要解决了Nutch中的一些小的问题，下面分别简述一下。 1.网页快照乱码问题 Nutch的网页快照是乱码，解决办法是修改tomcat/webapps/nutch目录下的cached.jsp文件，修改其中的第63行。原来的代码是：content = new String(bean.getContent(details); 修改后的代码是：content = new String(bean.getContent(details),"gb2312"); 2.搜索结果高亮显示 Nutch默认的搜索结果是没有高亮的，解决办法是在关键词中加 ...

2013-12-02 10:14
浏览 350
评论(0)

nutch源代码阅读心得

主要类分析：一、 org.apache.nutch.crawl.Injector: (注入url) 1，注入url.txt 2，url标准化 3，拦截url，进行正则校验（regex-urlfilter.txt） 4，对符URL标准的url进行map对构造<url, CrawlDatum>，在构造过程中给CrawlDatum初始化得分，分数可影响url host的搜索排序，和采集优先级！ 5，reduce只做一件事，判断url是不是在crawldb中已经存在，如果存在则直接读取原来CrawlDatum，如果是新host，则把相应状态存储到里边（STATUS_D ...

2013-12-02 10:01
浏览 233
评论(0)

nutch源代码阅读心得

主要类分析：一、 org.apache.nutch.crawl.Injector: (注入url) 1，注入url.txt 2，url标准化 3，拦截url，进行正则校验（regex-urlfilter.txt） 4，对符URL标准的url进行map对构造<url, CrawlDatum>，在构造过程中给CrawlDatum初始化得分，分数可影响url host的搜索排序，和采集优先级！ 5，reduce只做一件事，判断url是不是在crawldb中已经存在，如果存在则直接读取原来CrawlDatum，如果是新host，则把相应状态存储到里边（STATUS_D ...

2013-12-02 10:01
浏览 130
评论(0)

nutch的基本工作流程理解

（一）：Nutch的工作流程： Crawdb、linkdb 是web link目录，存放url及url的互联关系，作为爬行与重新爬行的依据。 segments 是主目录，存放抓回来的网页。页面内容有bytes[]的raw content和parsed text的形式。nutch以广度优先的原则来爬行，因此每爬完一轮会生成一个segment目录。 index 是lucene的索引目录，是indexes目录里所有index合并后的完整索引，注意索引文件只对页面内容进行索引，没有进行存储，因此查询时要去访问segments目录才能获得页面内容。（一）：流程综述： ...

2013-12-02 09:53
浏览 354
评论(0)

nutch的基本工作流程理解

（一）：Nutch的工作流程： Crawdb、linkdb 是web link目录，存放url及url的互联关系，作为爬行与重新爬行的依据。 segments 是主目录，存放抓回来的网页。页面内容有bytes[]的raw content和parsed text的形式。nutch以广度优先的原则来爬行，因此每爬完一轮会生成一个segment目录。 index 是lucene的索引目录，是indexes目录里所有index合并后的完整索引，注意索引文件只对页面内容进行索引，没有进行存储，因此查询时要去访问segments目录才能获得页面内容。（一）：流程综述： ...

2013-12-02 09:53
浏览 117
评论(0)

在ubuntu 12.04上搭建简单的DNS服务器

1. 安装bind9: apt-get install bind9; 2. /etc/bind/上创建db.192.0.1和db.test.com文件: db.192.0.1文件内容如下： $TTL 604800 @ IN SOA test.com. root.test.com. ( 1 ; Serial 604800 ; Refresh 86400 ; Retry 2419200 ; Expire 60 ...

2013-12-01 22:46
浏览 326
评论(0)

hadoop hbase zookeeper启动顺序笔记

今天在hadoop的基础上对hbase进行搭建（hbase安装：http://blog.csdn.net/gaokao2011/article/details/17020285），在启动的hbase的时候报错，提示未找到zookeeper；ok，那就把zookeeper给安装了（zookeeper安装：http://blog.csdn.net/gaokao2011/article/details/17020209）。接下来，先启动hadoop，然后启动hbase，进行得无比的顺利，接下来见证奇迹的时刻，进入zookeeper安装目录下启动zookeeper，此时jps发现hbase的进程HMas ...

2013-11-30 16:08
浏览 812
评论(0)

Nutch+Hadoop集群搭建

1、Apache Nutch Apache Nutch是一个用于网络搜索的开源框架，它提供了我们运行自己的搜索引擎所需的全部工具，包括全文搜索和Web爬虫。 1.1、Nutch的组件结构 WebDB:存储网页数据和连接信息

2013-11-29 14:48
浏览 274
评论(0)

Nutch+Hadoop集群搭建

1、Apache Nutch Apache Nutch是一个用于网络搜索的开源框架，它提供了我们运行自己的搜索引擎所需的全部工具，包括全文搜索和Web爬虫。 1.1、Nutch的组件结构 WebDB:存储网页数据和连接信息

2013-11-29 14:48
浏览 257
评论(0)

HBase启动后HRegionServer未启动

HRegionServer未启动的具体操作如下: 1.先查看当时的时间：date 2.根据获得的时间对系统进行同步：date -s08:42:00 再次启动hbase，成功看到HRegionServ

2013-11-29 10:42
浏览 635
评论(0)

Ubuntu下HBase安装过程

一、安装需求安装java 1.6，Hadoop 1.2.1及zookeeper ubuntu机上已安装Hadoop 1.2.1和zookeeper 3.4.3（zookeeper的安装方法可见于ZooKeeper安装过程 http://blog.csdn.net/gaokao2011/article/details/17020209）。此次安装的hbase版本为0.94.13。安装成功并执行后，该虚拟机会有以下java进程： NameNode DataNode SecondaryNameNode TaskTracker JobTracker HMaster ...

2013-11-29 10:24
浏览 473
评论(0)

Ubuntu下ZooKeeper安装过程

一、安装需求安装java 1.6及hadoop 1.2.* 二、安装zookeeper 1、下载zookeeper wgethttp://apache.osuosl.org/zookeeper/zookeeper-3.4.3/zookeeper-3.4.3.tar.gz（本次安装3.4.3版本）其他版本下载地址（最好使用stable版本）：http://zookeeper.apache.org/releases.html 2、解压 tar -xfzookeeper-3.4.3.tar.gz 将解压后的zookeeper-3.4.3文件 ...

2013-11-29 10:12
浏览 384
评论(0)

HBase的安装

本篇介绍两种HBase的安装方式：本地安装方式和伪分布式安装方式。安装的前提条件是已经成功安装了hadoop，而且hadoop的版本要和hbase的版本相匹配。我将要安装的hbase是hbase-0.94.13版本，需要的hadoop是hadoop-1.2.1版本。 hbase下载地址：http://apache.fayea.com/apache-mirror/hbase/hbase-0.94.13/ 将下载的hbase-0.94.13解压到相应的目录，如/usr/hbase-0.94.13 将hbase-0.94.13重命名为hbase

2013-11-28 16:29
浏览 392
评论(0)

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

双系统（win7+ubuntu）空间不足时解决方法

nutch抓取动态网页

Nutch中的一些小的问题解决

nutch源代码阅读心得

nutch源代码阅读心得

nutch的基本工作流程理解

nutch的基本工作流程理解

在ubuntu 12.04上搭建简单的DNS服务器

hadoop hbase zookeeper启动顺序笔记

Nutch+Hadoop集群搭建

Nutch+Hadoop集群搭建

HBase启动后HRegionServer未启动

Ubuntu下HBase安装过程

Ubuntu下ZooKeeper安装过程

HBase的安装

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

最近访客更多访客>>