- 浏览: 63690 次
- 性别:
- 来自: 北京
最新评论
文章列表
1. 给定a、b两个文件,各存放50亿个url,每个url各占64字节,内存限制是4G,让你找出a、b文件共同的url?
方案1:可以估计每个文件安的大小为50G×64=320G,远远大于内存限制的4G。所以不可能将其完全加载到内存中处理。考虑采取分而治之的方法。
s 遍历文件a,对每个url求取,然后根据所取得的值将url分别存储到1000个小文件(记为)中。这样每个小文件的大约为300M。
s 遍历文件b,采取和a相同的方式将url分别存储到1000各小文件(记为
http://www.tbdata.org/archives/1509
hbase 介绍
一、简介
history
started by chad walters and jim
2006.11 G release paper on BigTable
2007.2 inital HBase prototype created as Hadoop contrib
2007.10 First useable Hbase
2008.1 Hadoop become Apache top-level pr ...
http://www.ibm.com/developerworks/cn/java/j-jtp01255.html
Java 理论和实践: 了解泛型
识别和避免学习使用泛型过程中的陷阱
Brian Goetz
(brian@quiotix.com
), 首席顾问, Quiotix
简介:
JDK 5.0 中增加的泛型类型,是 Java 语言中类型安 ...
(1)除了在(2)中表述的有关继承方面的区别之外,在某个类中定义的protected
方法和属性(注意是定义的,不是继承而来的,对于继承而来的情况在(2)中有表述)和默认权限方法和属性是一样的。比如,某类的protected
...
http://www.spnguru.com/2010/11/hbase%E6%80%A7%E8%83%BD%E6%B7%B1%E5%BA%A6%E5%88%86%E6%9E%90/
对于Bigtable类型的分布式数据库应用来说,用户往往会对其性能状况有极大的兴趣,这其中又对实时数据插入性能更为关注。HBase作为Bigtable的一个实现,在这方面的性能会如何呢?这就需要通过测试数据来说话了。
数据插入性能测试的设计场景是这样的,取随机值的Rowkey长度为2000字节,固定值的Value长度为4000字节,由于单行Row插入速度太快,系统统计精度不够,所以将插入500行Row做一 ...
http://www.searchtb.com/2011/01/understanding-hbase.html
HBase简介
HBase – Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。
HBase是Google Bigtable的开源实现,类似Google
Bigtable利用GFS作为其文件存储系统,HBase利用Hadoop
HDFS作为其文件存储系统;Google运行MapReduce来处理Bigtable中的海量数据,HBase同样利用Ha ...
http://www.tbdata.org/archives/1509
hbase 介绍
一、简介
history
started by chad walters and jim
2006.11 G release paper on BigTable
2007.2 inital HBase prototype created as Hadoop contrib
2007.10 First useable Hbase
2008.1 Hadoop become Apache top-level project and Hbase becomes s ...
http://hadoop.apache.org/common/docs/current/fair_scheduler.html
转自http://blog.csdn.net/HEYUTAO007/archive/2010/07/10/5725379.aspx
参考:
1 caibinbupt的源代码分析http://caibinbupt.javaeye.com/
2 coderplay的avaeye
http://coderplay.javaeye.com/blog/295097
http://coderplay.javaeye.com/blog/318602
3 Javen-Studio 咖啡小屋
http://www ...
Hadoop 学习总结之一:HDFS简介
Hadoop学习总结之二:HDFS读写过程解析
Hadoop学习总结之三:Map-Reduce入门
Hadoop学习总结之四:Map-Reduce的过程解析
在使用hadoop的时候,可能遇到各种各样的问题,然而由于hadoop的运 ...
转自: http://bbs.chinaunix.net/thread-218853-1-1.html
我在 CU 的日子並不長,有幸在 shell
版上與大家結緣。
除了跟眾前輩學習到不少技巧之外,也常看到不少朋友的問題。
然而,在眾多問題中,我發現許多瓶頸都源於 shell 的基礎而已。
每次要解說,卻總有千言萬語不知從何起之感...
這次,我不是來回答,而是準備了關於 shell 基礎的十三個問題要問大家﹗
希望 shell 學習者們能夠透過尋找答案的過程,好好的將 shell 基礎打紮實一點...
當然了,這些問題我也會逐一解說一遍。只是,我不敢保證甚麼時候能夠 ...
如果服务器重启之后需要手工开启许多服务、工作及以后的维护相对比较繁琐、特地总结了下linux
下开机自动启动脚本所涉及的知识和方法、如下:
1
、相关基础知识点
1
)redhat
的启动方式和执行次序是:
加载内核
执行init
程序
/etc/rc.d/rc.sysinit #
由init
执行的第一个脚本
/etc/rc.d/rc $RUNLEVEL # $RUNLEVEL
为缺省的运行模式
/etc/r ...
Non-Blocking I/O Made Possible in Java
In this article we will review non-blocking IO, a feature
of java.nio (New I/O) package that is a part of Java v1.4,
v1.5 and v1.6 and introduce the java.nio.file (NIO.2)
package. NIO.2 will be included in the upcoming Java SE7
("Dolphin") releas ...
最近有不少人提出
Java
循环优化问题,问题分为两类:
1
)
for
(
int
i=0; i<10000; i--){
。。。
}
与
for
(
int
i = 100000; i > 0; i--){
。。。
}
这个比较无非是
i++
和
i—
的比较。
2
)
for
(
int
i=0; i<1000; i++) {
for
...
public class Test {
/**
* @param args
*/
public static void main(String[] args) {
// TODO Auto-generated method stub
//StringBuffer str=new StringBuffer("World");
String str=new String("World");
char ...