最新文章列表

redpoll is launched

We are pleased to introduce a new open source proejct today. It's another machine learning library using hadoop besides the mahout of ASF(Apache Software Foundation). The name of this project is redpol ...
coderplay 评论(0) 有4352人浏览 2008-03-23 14:30

雅虎架构师谈MapReduce和Hadoop的未来

Hadoop是一个开源的分布式计算平台,它主要由MapReduce的算法执行和一个分布式的文件系统等两部分组成。InfoQ曾经刊登过一篇Jeremy Zawodny写的有关Hadoop速 ...
masterkey 评论(0) 有1827人浏览 2008-03-21 09:45

Google 架构之学习

原文:Google Architecture Google是伸缩性的王者。Google一直的目标就是构建高性能高伸缩性的基础组织来支持它们的产品。 平台 Linux 大量语言:Python,Java,C++ 状态 在2006年大约有450,000台廉价服务器 在2005年Google索引了80亿Web页面,现在没有人知道数目 目前在Google有超过200个GFS集群。一个集群可以有1000或 ...
xiebh 评论(0) 有1126人浏览 2008-03-19 09:36

Java工具集介绍2008年第三期

Java工具集介绍2008年第三期 1、JNIEasy 新版本:1.2 JNIEasy,Java本地对象(Java Native Objects,JNO)解决方案,可完全替代JNI来整合基于Java和C/C++的库和DLLs。 新版本支持Mac OS X10.4(Tiger)及更高,另外还支持主流的Windows和Linux。 2、Apache Lucene 新版本:2.3.0 Apache L ...
jacktom 评论(0) 有1075人浏览 2008-02-23 21:09

Yahoo成为Apache基金会的白金赞助人

Yahoo在一份新闻稿上宣布成为Apache软件基金会(ASF)的白金赞助人。Yahoo表示他们的资金赞助是非盈利性质的,向ASF提供必要的营业资金,硬件基础设施,为ASF的一些项目产业化提供资源。 在公司的blog上,Yahoo特别表达了对Apache Lucene和Hadoop两个项目的兴趣,他们已经雇用了这两个项目的创始人兼 Apache副总裁Doug Cutting。Apache Luce ...
haix 评论(3) 有964人浏览 2007-12-27 12:06

通过shell在linux上运行hadoop的真面目

<!-- @page { size: 21cm 29.7cm; margin: 2cm } P { margin-bottom: 0.21cm } --> /usr/lib/jvm/java-6-sun/bin/java -Xmx1000m   -Dhadoop.log.dir=/home/hadoop01/hadoop/hadoop-0 ...
coderplay 评论(0) 有3074人浏览 2007-11-19 22:07

庖丁中文分词示例应用paoding.net已上线使用

地址:http://paoding.net 这是庖丁中文分词的示例应用。使用的分词器版本是2.0.4-alpha2。 有关心庖丁中文分词的同学,可以通过访问http://paoding.net测试庖丁的搜索效果。 (2.0.4-alpha2发布时间是2007-10-22日)。 ---------------------------------------------------------- ...
Qieqie 评论(15) 有6552人浏览 2007-10-26 04:32

开发大型高负载类网站应用的几个要点

作者:nightsailer 来源:http://www.phpchina.com/bbs/thread-15484-1-1.html 数据库   没错,首先是数据库,这是大多数应用所面临的首个SPOF。尤其是Web2.0的应用,数据库的响应是首先要解决的。 一般来说MySQL是最常用的,可能最初是一个mysql主机,当数据增加到100万以上, 那么,MyS ...
zhouxing 评论(0) 有712人浏览 2007-10-16 11:04

Google架构学习

原文:Google Architecture Google是伸缩性的王者。Google一直的目标就是构建高性能高伸缩性的基础组织来支持它们的产品。 平台 Linux 大量语言:Python,Java ...
hideto 评论(5) 有12566人浏览 2007-10-10 16:33

完成了自定义入nutch库的命令

可以利用到hadoop的map/reduce和hdfs,感觉还是很爽,需要注意的几点总结如下: 1.自定义命令类可以单独作一个jar,但要记得部署到<wbr></wbr>每个节点,否则会无法执行 2.记得启动maper服务,否则无法进行map/re<wbr></wbr>duce计算 3.自定义命令调用方法bin/nutch CLASSNAME 参数 ...
清风 评论(0) 有1658人浏览 2007-09-16 14:59

solr弯路篇

在改造solr的过程中,发现代码越写越驱近于nutc <wbr></wbr>h。。。。。再次打开nutch的代码进行研读,发现n<wbr></wbr>utch对于hadoop的支持更为自然(但nutch<wbr></wbr>不支持最新的hadoop0.14版本,只支持到had<wbr></wbr>oop- ...
清风 评论(2) 有3041人浏览 2007-09-14 17:33

Hadoop and Lucene

这几天的工作一直在围绕Hadoop进行,记录一些随手心得. Hadoop有价值的部分: 1.HDFS 一个分布式的文件系统,我们的目标是用HDFS来完成数据的分布式保存和索引文件的分布式保存 2.Map/Reduce 用来做分布式运算,摆脱SQL的束缚,完全利用索引,来进行数据的检索.然后用Map/Reduce来进行我们需要的统计计算,利用分布式机制提高运算速度 Lucene,以前只是比较皮毛 ...
清风 评论(2) 有7086人浏览 2007-09-14 00:30

Nutch 0.8笔记--Google式的搜索引擎实现

    作者:江南白衣    Nutch是一个基于Lucene,类似Google的完整网络搜索引擎解决方案,基于Hadoop的分布式处理模型保证了系统的性能,类似Eclipse的插件机制保证了系统的可客户化,而且很容易集成到自己的应用之中。    Nutch 0.8 完全使用Hadoop重写了骨干代码,另有很多地方作了合理化修正,非常值得升级。1.Nutch 0.8 的安装与运行nutch 0.7. ...
fuyangchang 评论(0) 有1767人浏览 2007-06-16 16:46

Hadoop系列-IPC之代码实现

整体结构:在IPC包中,最重要的3个类是Server,Client和RPC,它们具有层次化的结构。RPC类是对Server、Client的具体化。在RPC类中规定,客户程序发出请求调用时,参数类型必须是Invocation;从服务器返回的值类型必须是ObjectWritable。为了加强理解,可以查看测试类TestIPC。在那里,规定的参数类型与返回值类型都是LongWritable。RPC类是对S ...
zhangyu8374 评论(0) 有3668人浏览 2007-06-02 06:08

Hadoop系列-fs包之代码实现

在此包中,最重要的是FileSystem抽象类。它定义了文件系统中涉及的一些基本操作,如:create,rename,delete...另外包括 一些分布式文件系统具有的操作:copyFromLocalFile,copyToLocalFile,...类似于Ftp中put和get操作。 LocalFileSystem和DistributedFileSystem,继承于此类,分别实现了本地文件系统和分布 ...
zhangyu8374 评论(0) 有2776人浏览 2007-06-02 06:07

看《The Google File System》后的一些笔记

看了基于Google File System思想实现的Hadoop代码,重读了Google的这篇论文《The Google File System》。Paper挺长,网上已经有热心的人把翻译版奉献了出来。在这里,只是把其中的部分内容抽取出来,与大家一起分享。性能,可扩展性,可靠性,可用性仍然是GFS的目标,但它还有一些与传统分布式文件系统与众不同的东西:(1)对于大规模的集群系统,机器出现故障很正常 ...
zhangyu8374 评论(0) 有4361人浏览 2007-06-02 06:06

Hadoop系列-IPC模型

IPC 实现RPC的一种方法,具有快速、简单的特点。 它不像Sun公司提供的标准RPC包,基于Java序列化。 IPC无需创建网络stubs和skeletons。 IPC中的方法调用要求参数和返回值的数据类型必须是Java的基本类型,String和Writable接口的实现类,以及元素为以上类型的数组。接口方法应该只抛出IOException异常。 使用模型 采用客户/服务器模型 Server ...
zhangyu8374 评论(4) 有15258人浏览 2007-06-02 06:03

Hadoop-- 海量文件的分布式计算处理方案

    Hadoop 是Google MapReduce的一个Java实现。MapReduce是一种简化的分布式编程模式,让程序自动分布到一个由普通机器组成的超大集群上并发执行。就如同java程序员可以不考虑内存泄露一样, MapReduce的run-time系统会解决输入数据的分布细节,跨越机器集群的程序执行调度,处理机器的失效,并且管理机器之间的通讯请求。这样的模式允许程序员可以不需要有什么并发 ...
江南白衣 评论(0) 有2838人浏览 2007-02-09 12:25

免费的晚餐--Google技术学习

 作者:江南白衣,原文出处: http://blog.csdn.net/calvinxiu/archive/2007/01/31/1498597.aspx,转载请保留出处。   如果说Google的搜索引擎是免费的早餐,Gmail们是 ...
江南白衣 评论(0) 有2825人浏览 2007-01-31 09:40

Nutch 0.8笔记--Google式的搜索引擎实现

    作者:江南白衣    Nutch是一个基于Lucene,类似Google的完整网络搜索引擎解决方案,基于Hadoop的分布式处理模型保证了系统的性能,类似Eclipse的插件机制保证了系统的可客户化,而且很容易集成到自己的应用之中。    Nutch 0.8 完全使用Hadoop重写了骨干代码,另外很多地方作了合理化修正,非常值得升级。1.Nutch 0.8 的安装与运行nutch 0.7. ...
江南白衣 评论(0) 有1788人浏览 2006-08-09 09:40

最近博客热门TAG

Apache(33931) Lucene(5053) Hadoop(5049) nginx(3449) vim(3262) GCC(2954) memcached(2625) jfreechart(1688) Django(1602) Zend(1413) ActiveMQ(1398) Grails(1374) ActiveRecord(1349) OpenSource(1236) Emacs(870) Glassfish(858) lighttpd(810) rubygems(716) GAE(631) Blend(516)

博客人气排行榜

    博客电子书下载排行

      >>浏览更多下载

      相关资讯

      相关讨论

      Global site tag (gtag.js) - Google Analytics