`
ancin
  • 浏览: 51840 次
  • 性别: Icon_minigender_1
文章分类
社区版块
存档分类
最新评论
文章列表
1. nutch 基本配置和安装不在赘述。 2.新建自己的plugin 只要实现对应的plugin接口即可。 3.plugin.xml 的具体配置可以参考plugins目录下的标准。 4.一个是schema.xml,在其中的fields标签下加入如下代码: <field name="test1" type="date" stored="true" indexed="true"/> <field name="test2" type="string" ...
最近要搞个数据挖掘的项目,用了开源nutch作为爬虫;一些坑记录下来;免得后续忘记。 1. 配置 regex-urlfilter.txt,配置一定要规范,行尾切记不要有特殊字符和空格。 否则nutch不给你工作,会显示0抓取记录。 2.每次抓取可以新建数据保存目录,否则 urls 里面的seed 配置不生效。依然爬去的是上一个配置。 3.和solr配合,请把conf的schema.xml 和 solr 里面的schema.xml合并。注意去重复的。有了就不要配置了。如果配置不合适,solr的core出不来。 4.solr 显示查询页面 http://localhost:8080/solr/c ...
JobTracker会接受TaskTracker的心跳,并处理。不多说,直接上源码 public synchronized HeartbeatResponse heartbeat(TaskTrackerStatus status, boolean restarted, boolean initialContact, ...
首先看看Hadoop ssh 脚本    elif [ "$COMMAND" = "jar" ] ; then       CLASS=org.apache.hadoop.util.RunJar 任务递交。 WordCount 里面有一句话:     System.exit(job.waitForCompletion(true) ? 0 : 1);   1.job.waitForCompletion:一般情况下我们提交一个job都是通过job.waitForCompletion方法提交,该方法内部会调用job.submit()方法 ...
1.选择从主菜单选择 "Boot Arch Linux" 并按回车,系统将加载并给出登录提示,自动以 'root' 登录。 2.建立网络连接 激活接口,(例如eth0): [plain] view plaincopy # ip link set eth0 up  添加地址: [plain] view plaincopy # ip addr add 192. ...
Hadoop源代码分为三大模块:MapReduce、HDFS和Hadoop Common。其中MapReduce模块主要实现了MapReduce模型的相关功能;HDFS模块主要实现了HDFS的相关功能;而Hadoop Common主要实现了一些基础功能,比如说RPC、网络通信等。 在用户使用HadoopMapReduce模型进行并行计算时,用户只需要写好Map函数、Reduce函数,之后调用JobClient将Job提交即可。在JobTracker收到提交的Job之后,便会对Job进行一系列的配置,然后交给TaskTracker进行执行。执行完毕之后,JobTracker会通知JobClien ...
g e t o p t s可以编写脚本,使控制多个命令行参数更加容易。g e t o p t s用于形成命令行处理标 准形式。原则上讲,脚本应具有确认带有多个选项的命令文件标准格式的能力。 20.2.1 getopts脚本实例 通过例子可以更好地理解g e t o p t s。以下g e t o p t s脚本接受下列选项或参数。 • a 设置变量A L L为t r u e。 • h 设置变量H E L P为t r u e。 第20章向脚本传递参数229 下载 • f 设置变量F I L E为t r u e。 • v 设置变量V E R B O S E为t r u e。 对于所有变量设置,一般 ...
脚本框架控制参数开始与停止。脚本需要两个参数,如果没有输入两个 参数,那么产生一个u s a g e语句。注意这里使用c a s e语句处理输入脚本的不同参数。 #!/bin/bash # opt.sh usage() {         echo "usage: `basename $0` start|stop proc ...
start_kernel()中调用了一系列初始化函数,以完成kernel本身的设置。这些动作有的是公共的,有的则是需要配置的才会执行的。     在start_kernel()函数中,     输出Linux版本信息(printk(linux_banner))     设置与体系结构相关的环境(setup_arch())     页表结构初始化(paging_init())     使用"arch/alpha/kernel/entry.S"中的入口点设置系统自陷入口(trap_init())     使用alpha_mv结构和entry.S入口初始化系统IRQ(init_ ...
    ===================参考天极 技术网 文章=================       当用户打开PC的电源,BIOS开机自检,按BIOS中设置的启动设备(通常是硬盘)启动,接着启动设备上安装的引导程序lilo或grub开始引导Linux,Linux首先进行内核的引导,接下来执行init程序,init程序调用了rc.sysinit和rc等程序,rc.sysinit和rc当完成系统初始化和运行服务的任务后,返回init;init启动了mingetty后,打开了终端供用户登录系统,用户登录成功后进入了Shell,这样就完成了从开机到登录的整个启动过程。 第一部分:内核的 ...
都说ArchLinux是利剑一把,最近体验了下,6秒钟系统启动完毕,不管你信不信,反正我信了。 记录gnome安装: 之前折腾了下kde,安装wiki archLinux 上面的配置下来,到最后也没有成功;不知道怎么时候,总是报错。 最后无奈之下,卸载kde,安装gnome: 1. pacman -Syu 升级系统; 2. pacman -S gnome 3. pacman -S gnome-terminal 4. pacman -S xorg xorg-xinit xorg-server xf86-video-nv 5. 耐心等待,安装后,配置下,   /etc/initta ...
基本的文件系统体系结构 Linux 文件系统体系结构是一个对复杂系统进行抽象化的有趣例子。通过使用一组通用的 API 函数,Linux 可以在许多种存储设备上支持许多种文件系统。例如,read 函数调用可以从指定的文件描述符读取一 ...
=========== 摘抄自 Archlinux wiki 供自己查阅 =========== Ext4是Linux上Ext3文件系统的进化。在很多方面,Ext4对于Ext3有着比Ext3对于Ext2更多更深的改变。Ext3主要是针对Ext2添加了日志系统,而Ext4修改了重要的文件系统的数据结构,比如用来 ...
============ 摘自ArchLinux wiki============ 修改引导文件 /etc/inittab 乱序执行 Note: 使用该方法后,不能保证所有系统服务按顺序启动。如果dbus未在X图形服务器启动前开启,某些功能可能出现异常(ck-launch-session、gnome、kde 等等)。 通过修改inittab使启动脚本乱序执行,而不必按顺序等待上一个脚本执行完毕: # 用“once”代替“wait” rc::sysinit:/etc/rc.sysinit rs:S1:wait:/etc/rc.single rm:2345:once:/etc/rc.multi ...
分析瓶颈 要优化系统,先要找到性能瓶颈。通过分析系统配置能够获取这些信息。这里给出几条分析系统性能的简单方法:     运行大型软件(比如 openoffice、firefox)时,如果系统变卡,很可能是内存不足。以下命令用来查 ...
Global site tag (gtag.js) - Google Analytics