`
cocoIT
  • 浏览: 48746 次
  • 性别: Icon_minigender_1
  • 来自: 福建
文章分类
社区版块
存档分类
最新评论
文章列表
win7在使用Linux的过程中,随着软件的安装和数据的膨胀,有时候会发现划分给Linux分区需要进行调整。如果直接使用分区命令fdisk调整分区大小,往往意味着分区数据的丢失。LVM技术可以避免分区数据丢失,但在使用中有许多限制。本文介绍一种使用gparted进行Linux分区调整的方法,它比较适合个人计算机中的硬盘分区调整,同时也可避免数据丢失。gparted是一款免费、开源的Linux下的具有图形用户界面的分区软件。gparted支持的分区格式和每种格式中可进行的操作如下所示:
解决搜索动态内容的问题:需要注意在conf下面的2个文件:regex-urlfilter.txt# skip URLs containing certain characters as probable queries, etc.-[?*!@=] (-改+)这段意思是跳过在连接中存在? * ! @ = 的页面,因为默认是跳过所以,在动态页中存在?一般按照默认的是不能抓取到的。可以在上面文件中修改成:# skip URLs containing certain characters as probable queries, etc.# -[?*!@=]另外增加允许的一行# accept URLs ...
今天主要解决了Nutch中的一些小的问题,下面分别简述一下。 1.网页快照乱码问题 Nutch的网页快照是乱码,解决办法是修改tomcat/webapps/nutch目录下的cached.jsp文件,修改其中的第63行。 原来的代码是:content = new String(bean.getContent(details); 修改后的代码是:content = new String(bean.getContent(details),"gb2312"); 2.搜索结果高亮显示 Nutch默认的搜索结果是没有高亮的,解决办法是在关键词中加 ...
主要类分析:一、 org.apache.nutch.crawl.Injector: (注入url) 1,注入url.txt 2,url标准化 3,拦截url,进行正则校验(regex-urlfilter.txt) 4,对符URL标准的url进行map对构造<url, CrawlDatum>,在构造过程中给CrawlDatum初始化得分,分数可影响url host的搜索排序,和采集优先级! 5,reduce只做一件事,判断url是不是在crawldb中已经存在,如果存在则直接读取原来CrawlDatum,如果是新host,则把相应状态存储到里边(STATUS_D ...
主要类分析:一、 org.apache.nutch.crawl.Injector: (注入url) 1,注入url.txt 2,url标准化 3,拦截url,进行正则校验(regex-urlfilter.txt) 4,对符URL标准的url进行map对构造<url, CrawlDatum>,在构造过程中给CrawlDatum初始化得分,分数可影响url host的搜索排序,和采集优先级! 5,reduce只做一件事,判断url是不是在crawldb中已经存在,如果存在则直接读取原来CrawlDatum,如果是新host,则把相应状态存储到里边(STATUS_D ...
(一):Nutch的工作流程: Crawdb、linkdb 是web link目录,存放url及url的互联关系,作为爬行与重新爬行的依据。 segments 是主目录,存放抓回来的网页。页面内容有bytes[]的raw content和parsed text的形式。nutch以广度优先的原则来爬行,因此每爬完一轮会生成一个segment目录。 index 是lucene的索引目录,是indexes目录里所有index合并后的完整索引,注意索引文件只对页面内容进行索引,没有进行存储,因此查询时要去访问segments目录才能获得页面内容。 (一):流程综述: ...
(一):Nutch的工作流程: Crawdb、linkdb 是web link目录,存放url及url的互联关系,作为爬行与重新爬行的依据。 segments 是主目录,存放抓回来的网页。页面内容有bytes[]的raw content和parsed text的形式。nutch以广度优先的原则来爬行,因此每爬完一轮会生成一个segment目录。 index 是lucene的索引目录,是indexes目录里所有index合并后的完整索引,注意索引文件只对页面内容进行索引,没有进行存储,因此查询时要去访问segments目录才能获得页面内容。 (一):流程综述: ...
1. 安装bind9: apt-get install bind9; 2. /etc/bind/上创建db.192.0.1和db.test.com文件: db.192.0.1文件内容如下: $TTL 604800 @ IN SOA test.com. root.test.com. ( 1 ; Serial 604800 ; Refresh 86400 ; Retry 2419200 ; Expire 60 ...
今天在hadoop的基础上对hbase进行搭建(hbase安装:http://blog.csdn.net/gaokao2011/article/details/17020285),在启动的hbase的时候报错,提示未找到zookeeper;ok,那就把zookeeper给安装了(zookeeper安装:http://blog.csdn.net/gaokao2011/article/details/17020209)。接下来,先启动hadoop,然后启动hbase,进行得无比的顺利,接下来见证奇迹的时刻,进入zookeeper安装目录下启动zookeeper,此时jps发现hbase的进程HMas ...
1、Apache Nutch Apache Nutch是一个用于网络搜索的开源框架,它提供了我们运行自己的搜索引擎所需的全部工具,包括全文搜索和Web爬虫。 1.1、Nutch的组件结构 WebDB:存储网页数据和连接信息
1、Apache Nutch Apache Nutch是一个用于网络搜索的开源框架,它提供了我们运行自己的搜索引擎所需的全部工具,包括全文搜索和Web爬虫。 1.1、Nutch的组件结构 WebDB:存储网页数据和连接信息
HRegionServer未启动的具体操作如下: 1.先查看当时的时间:date 2.根据获得的时间对系统进行同步:date -s08:42:00 再次启动hbase,成功看到HRegionServ
一、安装需求 安装java 1.6,Hadoop 1.2.1及zookeeper ubuntu机上已安装Hadoop 1.2.1和zookeeper 3.4.3(zookeeper的安装方法可见于ZooKeeper安装过程 http://blog.csdn.net/gaokao2011/article/details/17020209)。 此次安装的hbase版本为0.94.13。 安装成功并执行后,该虚拟机会有以下java进程: NameNode DataNode SecondaryNameNode TaskTracker JobTracker HMaster ...
一、安装需求 安装java 1.6及hadoop 1.2.* 二、安装zookeeper 1、下载zookeeper wgethttp://apache.osuosl.org/zookeeper/zookeeper-3.4.3/zookeeper-3.4.3.tar.gz(本次安装3.4.3版本) 其他版本下载地址(最好使用stable版本):http://zookeeper.apache.org/releases.html 2、解压 tar -xfzookeeper-3.4.3.tar.gz 将解压后的zookeeper-3.4.3文件 ...
本篇介绍两种HBase的安装方式:本地安装方式和伪分布式安装方式。 安装的前提条件是已经成功安装了hadoop,而且hadoop的版本要和hbase的版本相匹配。 我将要安装的hbase是hbase-0.94.13版本,需要的hadoop是hadoop-1.2.1版本。 hbase下载地址:http://apache.fayea.com/apache-mirror/hbase/hbase-0.94.13/ 将下载的hbase-0.94.13解压到相应的目录,如/usr/hbase-0.94.13 将hbase-0.94.13重命名为hbase
Global site tag (gtag.js) - Google Analytics