linux下设置ssh无密码登录

博客分类：

OS操作系统 Linux

ssh配置　　主机A：10.0.5.199 主机B：10.0.5.198 需要配置主机A无密码登录主机A，主机B 先确保所有主机的防火墙处于关闭状态。在主机A上执行如下：　1.　$cd ~/.ssh 　2.　$ssh-keygen -t rsa --------------------然后一直按回车键，就会按照默认的选项将生成的密钥保存在.ssh/id_rsa文件中。　3.　$cp id_rsa.pub authorized_keys 这步完成后，正常情况下就可以无密码登录本机了，即ssh localhost，无需输入密码。 ...

2012-11-06 16:35
浏览 931
评论(0)
分类:互联网

用Sqoop把数据从HDFS导入到MYSQL

博客分类：

云计算

转自：http://www.kaifajie.cn/mySQL/6263.html sqoop是一个能把数据在关系型数据库和HDFS之间互相传输的工具。在这里，我写一下用java 程序来实现sqoop把数据从HDFS写入到MYSQL。在接触sqoop之前，我自己写了一个传输类来实现数据从HDFS到MYSQL。这里简单说一下时间的思想: 1、在MYSQL中创建一个参数表A，用来记录要传输的表的表名B和字段。 2、HDFS上的数据的格式和MYSQL中参数表A中B表的字段的数量一样。 3、从MYSQL的参数表A中，读取要传输的表B。把这些字段拼凑成一个insert语句，例如 ...

2012-10-27 23:30
浏览 2315
评论(0)
分类:互联网

Solr 4.0: Realtime GET

博客分类：

搜索引擎

he next functionality I decided to look at, from the upcoming Solr 4.0, is the so called “Realtime Get”. It allows you to see the data even though it was not yet added to the index, thus before the commit operation being sent to Solr. Let’s see how it works. Some theory Data update in Lucene and So ...

2012-09-15 14:54
浏览 1173
评论(0)
分类:互联网

大数据的储存：百度HDFS集群的数据压缩

博客分类：

云计算

2012年4月13日，由IT168(ITPUB、IXPUB、ChinaUnix)主办的2012中国数据库技术大会(DTCC)在北京隆重召开。大会第三天，百度基础架构部高级工程师孙桂林发表了主题为“百度HDFS集群的数据压缩”的演讲。　　当前，数字信息急剧膨胀。根 ...

2012-08-30 17:48
浏览 1152
评论(0)
分类:互联网

用sqoop进行mysql和hdfs系统间的数据互导

博客分类：

云计算

转自：http://abloz.com/2012/07/19/data-between-the-mysql-and-hdfs-system-of-mutual-conductance-using-sqoop.html sqoop 是apache下用于RDBMS和HDFS互相导数据的工具。本文档是sqoop的使用实例，实现从mysql到hdfs互导数据，以及从Mysql导数据到HBase。下载： http://www.apache.org/dyn/closer.cgi/sqoop/ [zhouhh@Hadoop48 ~]$ wget http://labs.renren ...

2012-07-31 16:32
浏览 1879
评论(0)
分类:互联网

从hive将数据导出到mysql

博客分类：

云计算

转自：http://abloz.com/2012/07/20/export-data-to-mysql-from-the-hive.html http://abloz.com 2012.7.20 author:周海汉在上一篇文章《》中，提到sqoop可以让RDBMS和HDFS之间互导数据，并且也支持从mysql中导入到HBase，但从HBase直接导入mysql则不是直接支持，而是间接支持。要么将HBase导出到HDFS平面文件，要么将其导出到Hive中，再导出到mysql。本篇讲从hive中导出到mysql。从hive将数据导出到mysql 一、创建mysql表 ...

2012-07-31 16:31
浏览 1783
评论(0)
分类:互联网

mysql的distinct用法-mysql中如何筛选出非重复的数据

博客分类：

数据库

使用mysql时，有时需要查询出某个字段不重复的记录，虽然mysql提供有distinct这个关键字来过滤掉多余的重复记录只保留一条，但往往只用它来返回不重复记录的条数，而不是用它来返回不重记录的所有值。其原因是distinct只能返回它的目标字段，而无法返回其它字段下面先来看看例子： table id name 1 a 2 b 3 c 4 c 5 b 比如我想用一条语句查询得到name不重复的所有数据，那就必须使用distinct去掉多余的重复记录。 select distinct name from table 得到的 ...

2012-07-31 16:03
浏览 1168
评论(0)
分类:数据库

Hive SQL

博客分类：

云计算

转自：http://www.tbdata.org/archives/581 Hive 的官方文档中对查询语言有了很详细的描述，请参考：http://wiki.apache.org/hadoop/Hive/LanguageManual ，本文的内容大部分翻译自该页面，期间加入了一些在使用过程中需要注意到的事项。 Create Tabl ...

2012-07-19 13:49
浏览 1399
评论(0)
分类:互联网

Hive优化总结

博客分类：

云计算

优化时，把hive sql当做map reduce程序来读，会有意想不到的惊喜。理解hadoop的核心能力，是hive优化的根本。这是这一年来，项目组所有成员宝贵的经验总结。长期观察hadoop处理数据的过程，有几个显著的特征: 1.不怕数据多� ...

2012-07-09 15:18
浏览 4265
评论(0)
分类:互联网

Redis命令总结

博客分类：

Cache缓存

Redis提供了丰富的命令（command）对数据库和各种数据类型进行操作，这些command可以在Linux终端使用。在编程时，比如使用Redis 的Java语言包，这些命令都有对应的方法，比如上面例子中使用的sadd方法，就是对集合操作中的SADD命令。下面将Redis提供的命令做一总结。连接操作相关的命令 quit：关闭连接（connection） auth：简单密码认证对value操作的命令 exists(key)：确认一个key是否存在 del(key)：删除一个key type(key)：返回值的类型 keys(pa ...

2012-07-06 18:08
浏览 889
评论(0)
分类:开源软件

Linux服务介绍一，关闭你不需要的服务

博客分类：

OS操作系统 Linux

转自：http://blog.cnr.cn/18/viewspace-8092.html 服务列表（按字母顺序排列）服务名必需（是/否）用途描述注解 acon 否语言支持特别支持左手书写语言:阿拉伯语,波斯语和希伯莱语

2012-06-19 14:43
浏览 1181
评论(0)
分类:操作系统

hadoop/mapred 优化方法

博客分类：

云计算

从三个方面着手优化 : 1. hadoop配置 2. 设计mapred/job 3. 代码级别. 4. 改造hadoop 一. conf/hadoop-site.xml配置. 经验要求高, 特别需要结合实际情况. 典型参数如复制因子, mapred.child.java.opts, mapred.tasktracker.map.tasks.maximum, mapred.tasktracker.reduce.tasks.maximum, mapred.map.tasks, mapred.reduce.tasks, fs.inmemory.size.mb ...

2012-06-12 11:47
浏览 1369
评论(0)
分类:互联网

hadoop集群dfs.data.dir目录权限问题导致节点无法启动

博客分类：

云计算

安装使用Hive的时候发现文件无法从本地拷贝到hadoop集群系统，老是报错，错误内容为： java.io.IOException: File … could only be replicated to 0 nodes, instead of 1。查找namenode的日志，也是报这个错，而且非常多，即便在启动的时候也是报类似的错误。这个学习环境为单namenode+2个datanode，使用dfsadmin -report报无数据节点，如下： [hadoop@namenode hadoop]$ hadoop dfsadmin -report Configure ...

2012-06-11 18:32
浏览 6186
评论(0)
分类:互联网

hadoop中的balancer

博客分类：

云计算

对于HDFS集群，经常长时间的运行，尤其是大量的delete操作后，集群中各个Datanode上的空间使用率可能会存在比较大的差异。所以需要一种机制使各个Datanode保持平衡，防止少数Datanode存储过多的文件。少数使用率过高的Datanode会导致对其的数据访问效率变低，并且如果该Datanode挂掉，需要更多的时间进行恢复，对集群也会造成更大的影响。 Hadoop中已经提供了balancer的机制。 hadoop balancer -threshold <threshold> 通过上面的命令可以是Hadoop对各个Datanode进行评估并使他们保持 ...

2012-06-11 15:49
浏览 1103
评论(0)
分类:互联网

设置CXF的WebService客户端超时时长

博客分类：

WebService

背景: 　　在使用WebService的时候,我们可能需要一个备份的WebService服务器.一旦主服务器down了,我们可以使用备份的服务器.那么这里就需要对客服端连接服务器的时间做一个修改. 　　在Spring+CXF的WebService环境下,客户端有两个时间属性是可配置的,分别是ConnectionTimeout和ReceiveTimeout. 　　ConnectionTimeout--WebService以TCP连接为基础,这个属性可以理解为tcp的握手时的时间设置,超过设置的时间长则认为是连接超时.以毫秒为单位,默认是30000毫秒,即30秒. 　　ReceiveTime ...

2012-06-11 11:20
浏览 1246
评论(0)
分类:互联网

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

linux下设置ssh无密码登录

用Sqoop把数据从HDFS导入到MYSQL

Solr 4.0: Realtime GET

大数据的储存：百度HDFS集群的数据压缩

用sqoop进行mysql和hdfs系统间的数据互导

从hive将数据导出到mysql

mysql的distinct用法-mysql中如何筛选出非重复的数据

Hive SQL

Hive优化总结

Redis命令总结

Linux服务介绍一，关闭你不需要的服务

hadoop/mapred 优化方法

hadoop集群dfs.data.dir目录权限问题导致节点无法启动

hadoop中的balancer

设置CXF的WebService客户端超时时长

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

最近访客更多访客>>