- 浏览: 215241 次
- 性别:
- 来自: 北京
最新评论
-
javalogo:
[b][i][u]引用[list]
[*][*][flash= ...
什么是Flume -
leibnitz:
what are they meanings
Hadoop Ganglia Metric Item -
di1984HIT:
没用过啊。
akka 介绍-Actor 基础 -
di1984HIT:
写的不错。
Hadoop管理-集群维护 -
developerinit:
很好,基本上介绍了
什么是Flume
文章列表
转发:http://www.cnblogs.com/zhangmiao-chp/archive/2011/04/27/2030325.html
张淼
监控系列之一 ganglia的初步安装
1、安装ganglia
sudo yum -y install apr-devel apr-util check-devel cairo-devel pango-devel libxml2-devel rpm-build glib2-devel dbus-devel freetype-devel fontconfig-devel gcc-c++ expat-devel python-devel libX ...
Hadoop arch
- 博客分类:
- hadoop
https://cacoo.com/diagrams/93bW9otgtDletzLT
https://cacoo.com/diagrams/DaKJnOukU7XqdV6J
Lucene 是一个基于 Java 的全文信息检索工具包,它不是一个完整的搜索应用程序,而是为你的应用程序提供索引和搜索功能。Lucene 目前是 Apache Jakarta 家族中的一个开源项目。也是目前最为流行的基于 Java 开源全文检索工具包。
目前已经有很多应用程序的搜索功能是基于 Lucene 的,比如 Eclipse 的帮助系统的搜索功能。Lucene 能够为文本类型的数据建立索引,所以你只要能把你要索引的数据格式转化的文本的,Lucene 就能对你的文档进行索引和搜索。比如你要对一些 HTML 文档,PDF 文档进行索引的话你就首先需要把 HTML 文档和 PD ...
[转发] HBase 在淘宝的应用和优化
- 博客分类:
- hbase
转发:http://www.iteye.com/magazines/83
本文来自于NoSQLFan联合作者@koven2049,他在淘宝从事Hadoop及HBase相关的应用和优化。对Hadoop、HBase都有深入的了解,本文就是其在工作中对HBase的应用优化小结,分享给大家。
目 录 [ - ]
前言
原因
应 ...
Apache Mahout起源于2008年,当时它是Apache Lucene的子项目。使用Hadoop库,可以将其功能有效地扩展到Apache Hadoop云平台中。2010年4月Apache mahout最终成了Apache的顶级项目。
Apache Mahout的主要目标是建立可伸缩的机器学习算法。这种可伸缩性是针对大规模的数据集而言的。Apache Mahout的算法运行在Apache Hadoop平台下,它通过MapReduce模式实现。但是,Apache Mahout并不严格要求算法的实现要基于Hadoop平台,单个节点或非Hadoop平台也可以。
Apach ...
案例分析:基于消息的分布式架构
- 博客分类:
- mq
转发:http://www.infoq.com/cn/articles/message-based-distributed-architecture
架构师书单3rd Edition
- 博客分类:
- others
作者:江南白衣,原文出处: http://blog.csdn.net/calvinxiu/archive/2007/03/06/1522032.aspx,转载请保留。
为了2007年的目标,列了下面待读或重读的书单。
"其实中国程序员,现在最需要的是一张安静的书桌。",的确,中国架构师大多缺乏系统的基础知识,与其自欺欺人的宣扬"读书无用,重在实践变通,修身立命哲学书更重要",把大好时间用来追逐互联网上的片言只语,不如直面缺陷,系统的学习一次。
书单越读越薄,好书真的不多哇。
一、Software Architecture篇 ...
Flume最早是Cloudera提供的日志收集系统,目前是Apache下的一个孵化项目,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力 Flume提供了从console(控制台)、RPC(Thrift-RPC)、text(文件)、tail(UNIX tail)、syslog(syslog日志系统,支持TCP和UDP等2种模式),exec(命令执行)等数据源上收集数据的能力。
Flume采用了多Master的方式。为了保证配置数据的一致性,Flume引入了ZooKeeper,用于保存配置数据,Z ...
语法:
sqoop tool-name [tool-options]
tool-name:export
tool-options:--connect,--table,--export-dir
例子:
sqoop export --connect jdbc:mysql://db.example.com:3306/foo --table bar --export-dir /results/bar_data
语法:sqoop tool-name [tool-options]
tool-name: import, import-all-tables,list-tables
tool-options: --connect,--username,--password
例子:
sqoop import --username steven --password pass010 --connect jdbc:mysql://database.host.name:3306/dbname --table company
ZooKeeper CRUD API
- 博客分类:
- zookeeper
CRUD API
create #创建一个节点
delete #删除一个节点
(get/set)Data #从目标节点上(读取/写)数据
getChildren # 获得子节点列表
ZooKeeper配置样例
- 博客分类:
- zookeeper
位置:
zookeeper安装目录下/conf/zoo.cfg
配置样例
# The number of milliseconds of each tick
tickTime=2000
# The number of ticks that the initial
# synchronization phase can take
initLimit=10
# The number of ticks that can pass between
# sending a request and getting an acknowledgement
syncLimit=5
#client max l ...
Solr是一个高性能,采用Java5开发,基于Lucene的全文搜索服务器。同时对其进行了扩展,提供了比Lucene更为丰富的查询语言,同时实现了可配置、可扩展并对查询性能进行了优化,并且提供了一个完善的功能管理界面,是一款非常优秀的全文搜索引擎。
文档通过Http利用XML 加到一个搜索集合中。查询该集合也是通过http收到一个XML/JSON响应来实现。它的主要特性包括:高效、灵活的缓存功能,垂直搜索功能,高亮显示搜索结果,通过索引复制来提高可用性,提供一套强大Data Schema来定义字段,类型和设置文本分析,提供基于Web的管理界面等。
什么是Ganglia
- 博客分类:
- ganglia
Ganglia 是 UC Berkeley 发起的一个开源监视项目,设计用于测量数以千计的节点。每台计算机都运行一个收集和发送度量数据(如处理器速度、内存使用量等)的名为 gmond 的守护进程。它将从操作系统和指定主机中收集。接收所有度量数据的主机可以显示这些数据并且可以将这些数据的精简表单传递到层次结构中。正因为有这种层次结构模式,才使得 Ganglia 可以实现良好的扩展。gmond 带来的系统负载非常少,这使得它成为在集群中各台计算机上运行的一段代码,而不会影响用户性能。
在Hadoop、HBase中的度量类别
namenode metris
datanode metris
jobtr ...