安装环境:
Ubuntu 9.10
hadoop 0.20.2
1.安装ssh服务
1) sudo apt-get install openssh-server
2) 生成key用于 ssh localhost 的时候不用输入密码
$ ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa
$ cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
这时候,如果提示:Agent admitted failure to sign using the key.
$ ssh-agent
$ ssh-add id_rsa //这行在~/.ssh/内执行的
3) ssh local
如果提示: ssh: connect to host 133.133.133.65 port 22: Connection refused
方法一(推荐):
修改/etc/passwd文件,在其中加入
sshd:x:74:74:Privilege-separated SSH:/var/empty/sshd:/sbin/nologin
参考
http://www.unixguide.net/comments/sun/ssh_installation.shtml/37.shtml
http://www.gipsky.com/modules/newbb/viewtopic.php?topic_id=966
方法二(不推荐):
修改/etc/ssh/sshd_config文件
将其中
UsePrivilegeSeparation yes
修改为
UsePrivilegeSeparation no
虽然能解决问题,但是降低了ssh的安全级别
4)这时候 ssh local 真的不需要密码就可以登录了..
2.安装jdk
这个就不需要说了..配出来java -v就行了
3.安装hadoop
1)解压到/opt/hadoop
$ tar zxvf hadoop-0.20.2.tar.gz
$ sudo mv hadoop-0.20.2 /opt/
$ sudo chown -R hadoop:hadoop /opt/hadoop-0.20.2
$ sudo ln -sf /opt/hadoop-0.20.2 /opt/hadoop
4.配置 hadoop-env.sh
1)在hadoop/conf 里面hadoop-env.sh增加
export JAVA_HOME=/usr/jdk1.6.0.18
export HADOOP_HOME=/opt/hadoop
export PATH=$PATH:/opt/hadoop/bin
5.配置文件
1)編輯 /opt/hadoop/conf/core-site.xml
<configuration>
<property>
<name>fs.default.name</name>
<value>hdfs://localhost:9000</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/tmp/hadoop/hadoop-${user.name}</value>
</property>
</configuration>
2)編輯 /opt/hadoop/conf/hdfs-site.xml
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
</configuration>
3)編輯 /opt/hadoop/conf/mapred-site.xml
<configuration>
<property>
<name>mapred.job.tracker</name>
<value>localhost:9001</value>
</property>
</configuration>
6.格式化hdfs
$ cd /opt/hadoop
$ source conf/hadoop-env.sh
$ hadoop namenode -format
提示信息一大堆...
7.启动hadoop
$ sudo ./start-all.sh //在hadoop/bin下执行
8.完成后的测试
http://localhost:50030/ - Hadoop 管理接口
后续还会继续补充...............
分享到:
相关推荐
Hadoop安装有三种模式:单机、伪分布式、完全分布式,本文档为完全分布式安装,过程很详细,设计内容包括:在win7上安装虚拟化工具VMware(用于支撑Linux系统),在VMware上安装Ubuntu系统,安装Hadoop前的准备工作...
015 Apache Hadoop 单机(本地)模式安装部署与测试 016 Hadoop 伪分布式安装部署 017 查看Hadoop 日志以及日志的格式和命名组成 018 Hadoop 守护进程服务三种启动停止方式 019 测试环境(HDFS Shell基本命令和运行...
Hadoop 单机系统 安装配置13#Hadoop 文件下载和解压13#配置 hadoop-env.sh 环境变量13#Hadoop Common组件 配置 core-site.xml13#HDFS NameNode,DataNode组建配置 hdfs-site.xml14#配置MapReduce - JobTracker ...
针对当前抓取调度数据量巨大且计算复杂耗时长的问题,根据数据集的维度特征属性,通过凝聚层次...选取MVC模式应用到实验模拟测试中:小型Hadoop分布式系统Master节点和Slave节点的运行效率比单机爬虫的效率高了近65%。
这里面的项目都可以通过搭建单机standalone模式完成整个流程 这学期云计算课程需要使用集群环境,刚好学校有云资源,记录下集群搭建过程 2. 目录结构 hadoop-train Hadoop基础与电商行为日志分析 新手入门大数据 本...
下列哪个是 Hadoop 运⾏的模式 a)单机版 b)伪分布式 c)分布式 答案 ABC 单机版,伪分布式只是学习⽤的。 1. ⾯试题 1. Hadoop的核⼼配置是什么? Hadoop的核⼼配置通过两个xml⽂件来完成:1,hadoop-default.xml;2...
京东RTF实时数据湖,是一个从底层重新构建的系统,解决了数据的接入、解析及清洗等ETL 过程,同时解决了传统离线模式达不到的实时性和流式实时数据做不到的数据清洗、还原,是一套大数据领域改革性的实时数据方案。...
建筑学整体结构先知的五项关键服务: Prophecis机器学习流程:分布式机器学习建模工具,具有独立和分布式模式模型训练功能,支持Tensorflow,Python,XGBoost和其他机器学习框架,并支持从机器学习建模到部署的完整...
现有的文本分类算法在时间复杂性和空间复杂性上遇到瓶颈,不能满足人们的需求,为此提出了基于Hadoop分布式平台的TFIDF算法,给出了算法实现的具体流程,通过MapReduce编程实现了该算法,并在单机和集群模式下进行了...
⼤数据前篇(什么是⼤数据,应⽤场景,如何学习⼤数据库,虚拟机概念和安装等)、Linux常见命令(⽂件管理、系 统管理、磁盘管理)、Linux Shell编程(SHELL变量、循环控制、应⽤)、Hadoop⼊门(Hadoop组成、单机版...
基于R和python的单机界⾯使⽤⼯具(分析挖掘) 基于spark kafka 的界⾯操作⼯具 基于预测数据的使⽤与展现 ⽀持pandas numpy ⽀持R ⽀持hive hbase spark sparksql sparkstreaming ⽀持keras matplotlib pysql 4)...
推荐序 1.6.4 使用 R 进行 K 最近邻分类…·37 前言 1.6.5 单机环境使用 Mahout 运行 引子 第一篇支持高效的运营 第 1 章方案设计和技术选型:分类 ·5 1.1 分类的基本概念…...... .…………….. 6 1.2 分类任务...