`
coderplay
  • 浏览: 571378 次
  • 性别: Icon_minigender_1
  • 来自: 广州杭州
社区版块
存档分类
最新评论

hadoop上最多到底能放多少个文件?

阅读更多

这主要取决于NameNode的内存。因为DFS集群运行时,文件结构会保存在NameNode的内存当中。DFS每个文件信息和 块信息大约都要占150字节。所以如果复制因子为1,每个文件占一个block,  那么16G内存可以存 16 * (2^30) / 300 = 57 m , 即5.7 千万 个文件。

分享到:
评论
5 楼 chameleon110 2009-03-06  

Hadoop的NameNode内存存储的数据:File 为 122 + fileName.lengthDirectory 为 152 + fileName.lengthBlock 为 112 + 24 * replication0.16之后的添加8字节的数据类型为long的permission数据。

能解释一下嘛? 122+fileName.length是什么意思啊?
4 楼 coderplay 2009-02-26  
beijing.josh 写道

Hadoop的NameNode内存存储的数据:File 为 122 + fileName.lengthDirectory 为 152 + fileName.lengthBlock 为 112 + 24 * replication0.16之后的添加8字节的数据类型为long的permission数据。

谢谢给出精确值
3 楼 beijing.josh 2009-02-23  

Hadoop的NameNode内存存储的数据:

File 为 122 + fileName.length
Directory 为 152 + fileName.length
Block 为 112 + 24 * replication

0.16之后的添加8字节的数据类型为long的permission数据。
2 楼 coderplay 2009-02-17  
diddyrock 写道

java虚拟几最大支持多少内存阿,64位的jre能到16g么

我只是做个假设, 这边的机器是16G的,但不可全给jvm. 32位的机器能寻址的空间2^32 = 4G, 除非你通过软件手法,要不然不可能支持16G了,所以这儿是64位的机器. 你可以通过 -Xms,-Xmx调整初始堆大小和堆空间的上限. 
1 楼 diddyrock 2009-02-16  
java虚拟几最大支持多少内存阿,64位的jre能到16g么

相关推荐

    云计算大作业使用Hadoop对美国新冠肺炎疫情数据分析项目.zip

    将美国不同州的疫情数据输出到不同文件,属于同一个州的各个县输出到同一个结果文件中。(重写排序规则,重写分区规则)。 统计指定日期下,美国每个州的确诊案例最多前N(TopN)的县。(重写排序规则,重写分组规则...

    大数据开发技术.pdf

    FC 也有 选择谁作为 ActiveNN 的权利,因为最多只有两个节点,目前选择策略 还比较简单(先到先得,轮换)7.JournalNode 高可用情况下存放 namenode 的 editlog 文件. 在 CentOS 环境下,按照伪分布方式安装和配置 ...

    基于hadoop生态实现的的电影网站+源代码+文档说明

    比如计算出平均评分最高的前二十个电影,浏览量最多的前三十个电影等等。使用协同过滤算法实现喜好推荐:用户在对某电影评分时在MYSQL的评分表中插入一条数据,以此来收集用户评分信息(MySQL),每过一段时间就对该...

    大数据常见算法题.txt

    同样可以采用映射的方法,比如模1000,把整个大文件映射为1000个小文件,再找出每个小文中出现频率最大的IP(可以采用hash_map进行频率统计,然后再找出频率最大的几个)及相应的频率。然后再在这1000个最大的IP中,...

    基于hadoop实现的电影推荐网站+源代码+文档说明

    比如计算出平均评分最高的前二十个电影,浏览量最多的前三十个电影等等。使用协同过滤算法实现喜好推荐:用户在对某电影评分时在MYSQL的评分表中插入一条数据,以此来收集用户评分信息(MySQL),每过一段时间就对该...

    大数据基础知识入门.pdf

    CDH) HDFS HDFS ( Hadoop Distributed File System ) 是 Hadoop项目的核心组件之一,是分布式计算中数据存储 管理的基础,是基于流数据模式访问和处理超大文件的 需求而开发的,可以运行于廉价的商用服务器上。...

    CountMaxOccurrenceWord:查找文本文件中出现次数最多的词的映射和归约方法

    CountMaxOccurrenceWord 用于查找文本文件中出现次数最多的单词的映射和归约方法。 与 Hadoop 2.6.0 兼容。 countMax.jar 可随时用于运行该方法。 需要在运行时传入输入输出路径,程序才能执行。

    Airplane-MapReduce:探索hadoop mapreduce进行航空公司延误分析的项目

    哪些航空公司造成的延误最多,哪些城市与天气相关的延误最多,一天中的哪一天,一周中的几天或一年中的哪几个月是延误最差(或最好)的时间。建设项目该项目是使用ant构建的,build.xml包含在tar中。 要构建项目...

    逆向工程源码

    4、还原webapp文件夹(前台页面内容)中的内容:将放在服务器tomcat中的webapps文件夹下的.war文件拷贝出来解压将解压的内容放到原webapp文件夹中 5、还原resources文件夹(配置文件信息)中的内容:依然在解压的....

    AWS_STREAM_FIREHOSE_GLUE:通过结合AWS提供的服务,从流应用程序到etl流程的总体数据摄取最终确定目标位置

    ETL必须将多个较小的文件串联为目标存储桶的较大文件(每个文件最多32MB)。 ETL必须将数据格式更改为Parquet。 创建一个EMR集群,将数据加载到其中,然后编写Hadoop作业(MapReduce,Spark等,选择您喜欢的任何人...

    similar-sentence-mapreduce:在hadoop框架中挖掘海量数据集可选项目

    你的任务是快速找到词级编辑距离最多为 1 的句子对... 可以使用一种直接的 LSH 方法(如课堂上教授的 jaccard 相似性方法)来解决这个问题,但它不一定是更快的方法。 尝试了一堆不同的废话以使其更快,但由于此问题是

    spark_helper:使用Scala Spark进行数据处理和监视的一系列低级基本方法

    这是一组4个模块: :围绕包装程序,用于在hdfs上进行文件操作。 :通过Spark API的Hdfs文件操作(拉皮的RDD和SparkContext)。 :在左右包装,用于常规数据挖掘日期操作。 :Spark自定义监视/记录器和kpi验证器。 ...

    剖析大数据.docx

    数据存储 数据存储是大数据平台的根本,也是所有大数据技术中产品种类最多的一个组成部分。没有了存储平台,数据也就没有了载体。在数据存储的组成中,包括了高性能的内核式分布存储系统、用户级的分布式存储以及...

    大数据产品及服务能力.pptx

    国内组件支持最多,最丰富。 统一存储 数据收集及整合萃取能力 横向扩展能力 数据备份、安全存储能力 数据按策略存储能力 全文检索 基于数据的检索 对结构化、半结构化、非结构化数据的全类型检索支持 支持按类型...

    大数据与化学教育.doc

    这些数据库含有上百万的化合 物及其分析数据,但是这些数据并不是大数据,其大小最多只有TB量级。美国杜兰大学 Gibb团队预测在不久的未来,化学工作者们将会有一个数据管理系统,这个系统将会自 动分析化学文献,并...

    atsd:Axibase时间序列数据库文档

    在横向扩展模式下,ATSD部署在上的 (HDFS), 和等文件系统。 计算可扩展性 一个单节点ATSD实例每秒可以处理多达200,000个指标,而不会损失任何数值精度。 它可以处理乱序写入和微秒精度。 存储可扩展性 与相比,...

Global site tag (gtag.js) - Google Analytics