转载：分布式系统互斥性与幂等性实现及原理分析

博客分类：

SOA

转载：http://blog.csdn.net/shukebai/article/details/60955497 随着互联网信息技术的飞速发展，数据量不断增大，业务逻辑也日趋复杂，对系统的高并发访问、海量数据处理的场景也越来越多。如何用较低成本实现系统的高可用、易伸缩、可 ...

2018-02-26 15:02
浏览 277
评论(0)
分类:互联网

转载：http://www.importnew.com/25189.html 概述 canal是阿里巴巴旗下的一款开源项目，纯Java开发。基于数据库增量日志解析，提供增量数据订阅&消费，目前主要支持了MySQL（也支持mariaDB）。起源：早期，阿里巴巴B2B公司因为存在杭州和美国双机房部署，存在跨机房同步的业务需求。不过早期的数据库同步业务，主要是基于trigger的方式获取增量变更，不过从2010年开始，阿里系公司开始逐步的尝试基于数据库的日志解析，获取增量变更进行同步，由此衍生出了增量订阅&消费的业务，从此开启了一段新纪元。基于日志增量订阅&消费支持的业 ...

2017-12-29 16:18
浏览 425
评论(0)
分类:互联网

kettle部署

博客分类：

大数据云计算

kettle

1.将jmbi sql先上生产环境, 参考附件jmbi.sql 2.kettle安装部署选好目标机器，装好jdk1.8 然后登录测试环境192.168.1.142，复制kettle安装文件，job，shell脚本 scp -r /d1/usr/kettle root@目标IP:/d1/usr/kettle scp -r /root/.kettle root@目标IP:/root/.kettle scp -r /root/.pentaho root@目标IP:/root/.pentaho 修改.kettle文件夹下的kettle.properties配置为生产环境DB连接，hdfs 修改ke ...

2017-12-26 16:04
浏览 651
评论(0)
分类:互联网

crontab定时运行MR不行，手动shell可以执行成功问题排查过程

博客分类：

大数据云计算

crontab MR

设置了定时任务，但MR任务没有执行。第一步：手动执行shell脚本，如果有问题，检查相关设置，如source /etc/profile, 绝对路径之类这里不是重点，手动可以执行成功第二步：检查shell脚本文件格式，设置测试输出，确保crontab任务调度没有问题，测试hymtest.sh #!/bin/bash DATE=$(date +%Y%m%d:%H:%M:%S) echo $DATE + "every minute test">>/bigdata/shell/hymoutput.txt echo 导入每天指数涨跌排行数据 {存到：hb ...

2017-12-26 15:48
浏览 775
评论(0)
分类:互联网

Flume+kafka+Spark Steaming demo2

博客分类：

大数据云计算

flume kafka scala spark

一，flume配置 # Name the components on this agent a1.sources = tailsource-1 a1.sinks = remotesink a1.channels = memoryChnanel-1 # Describe/configure the source a1.sources.tailsource-1.type = exec a1.sources.tailsource-1.command = tail -F /var/log/test/raw_data.txt a1.sources.tailsource-1.cha ...

2017-11-22 13:15
浏览 422
评论(0)
分类:互联网

Flume+Kafka+Spark Steaming demo

博客分类：

大数据云计算

flume kakfa spark

一.准备flume配置 a1.sources = r1 a1.sinks = k1 a1.channels = c1 a1.sources.r1.type = spooldir a1.sources.r1.channels = c1 a1.sources.r1.spoolDir = /var/log/test a1.sources.r1.fileHeader = true a1.channels.c1.type = memory a1.channels.c1.capacity = 10000 a1.channels.c1.transactionCapacity = 10000 a1.ch ...

2017-11-21 15:21
浏览 401
评论(0)
分类:互联网

HBase表导出成HDFS

博客分类：

大数据云计算

hbase hdfs、

导出步骤：在old cluster上/opt/cloudera/parcels/CDH/lib/hbase/bin 执行：./hbase org.apache.hadoop.hbase.mapreduce.Export my_user hdfs://new cluster ip:8020/test/my_user 例如：./hbase org.apache.hadoop.hbase.mapreduce.Export my_user hdfs://172.18.203.111:8020/test/my_user 导入步骤：在new cluster上/opt/cloudera/parcels/ ...

2017-10-19 19:40
浏览 853
评论(0)
分类:互联网

zepplin实战

博客分类：

大数据云计算

zepplin

一句话介绍Zeppelin 以笔记（Note）的形式展示的数据可视化工具。一.下载安装启动 http://zeppelin.apache.org/download.html wget http://mirrors.tuna.tsinghua.edu.cn/apache/zeppelin/zeppelin-0.7.3/zeppelin-0.7.3-bin-all.tgz tar -zvxf zeppelin-0.7.3-bin-all.tgz -C /opt bin/zeppelin-daemon.sh start 二.配置Interpreters 连接 hive default.dri ...

2017-10-13 16:10
浏览 326
评论(0)
分类:互联网

Azkaban安装

博客分类：

大数据云计算

一.下载 https://github.com/azkaban/azkaban git clone https://github.com/azkaban/azkaban.git 或wget azkaban.version url 二.编译 o build Azkaban packages from source, run: ./gradlew distTar The above command builds all Azkaban packages and packages them into GZipped Tar archives. To build Zip archives, run ...

2017-10-10 18:32
浏览 869
评论(0)
分类:互联网

KYKIN安装

博客分类：

大数据云计算

hadoop kylin、

1. Kylin的一些概念 No. 关键字解释 1 Kylin 一款基于Hive的开源OLAP工具，我们可以设计Hive表的字段为维度和度量，通过Kylin来构建Cube，Kylin会将Cube结构存储在 HBase 之上，基于Cube我们可以做各种多维分析。参考：https://mp.weixin.qq.com/s/kfFh7I_V5haghV6qUzHtag 2 Kylin核心思想 Kylin的核心思想是预计算，用空间换时间，即对多维分析可能用到的度量进行预计算，将计算好的结果保存成Cube，供查询时直接访问。把高复杂度的聚合运算、多表连接等操作转换成对预计算结果的查询，这决定了Ky ...

2017-09-30 17:40
浏览 323
评论(0)
分类:互联网

Logstash安装部署配置

博客分类：

大数据云计算

logstash

为了实现各业务平台日志信息采集到大数据平台hdfs上。之前的定技术栈是 flume->kafka->storm->hdfs. 其中通过storm需要写代码，稳定性，可扩展性，维护性不好。从kafka到hdfs，有专门的日志工具logstash可以解决这个问题. 目前已经在我们的开发环境稳定的运行了一个礼拜（http://192.168.23.31:50070/explorer.html#/data/logstash）。现请部署到生产环境。 logstash安装配置如下： 1. logstash下载安装, 下载比较慢的话，可以传给你。 wget -c htt ...

2017-04-28 10:24
浏览 939
评论(0)
分类:互联网

HBASE API

博客分类：

大数据云计算

hbase

package org.jumore.test; import java.io.IOException; import java.util.ArrayList; import java.util.List; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.hbase.HBaseConfiguration; import org.apache.hadoop.hbase.HColumnDescriptor; import org.apache.hadoop.hbase.HTableDescriptor; ...

2017-04-18 11:01
浏览 437
评论(0)
分类:开源软件

Ambari卸载shell

博客分类：

大数据云计算

ambari

#!/bin/bash # Program: # uninstall ambari automatic # History: # 2014/01/13 - Ivan - 2862099249@qq.com - First release PATH=/bin:/sbin:/usr/bin:/usr/sbin:/usr/local/bin:/usr/local/sbin:~/bin export PATH #取得集群的所有主机名，这里需要注意：/etc/hosts配置的IP和主机名只能用一个空格分割 hostList=$(cat /etc/hosts ...

2017-03-28 17:28
浏览 422
评论(0)
分类:互联网

linux ssh 相互密码登录

博客分类：

大数据云计算

ssh linux

1.修改集群各机器名称 vim /etc/sysconfig/network NETWORKING=yes HOSTNAME=server01 2.修改hosts，机器名和IP地址映射 172.18.203.21 server01 172.18.203.22 server02 172.18.203.23 server03 172.18.203.24 server04 172.18.203.25 server05 3.集群中的每台主机上执行下面命令，一路回车，可生成本机的rsa类型的密钥 ssh-keygen -t rsa 4. 把自己的公钥拷贝到集群中的Master机 ...

2017-02-22 13:40
浏览 344
评论(0)
分类:操作系统

Kettle Linux 安装部署

博客分类：

大数据云计算

hadoop kettle mysql

一.安装JDK环境：根据自己的linux系统选择相应的版本，比如我的centos7是x64的，所以我选择jdk-8u74-linux-x64.tar.gz下载下载下来以后，我们将其移到我们创建的一个目录中,存放tar包的目录为/usr/local/src/jdk,然后解压： tar -zxf /usr/local/src/jdk/jdk-7u65-linux-x64.tar.gz 编辑 vi /etc/profile 文件在文件后面添加： export JAVA_HOME=/usr/local/src/jdk/jdk1.8.0_74 export JRE_HOME=${JAVA_HOME}/ ...

2017-02-15 17:20
浏览 1269
评论(0)
分类:开源软件

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

转载：分布式系统互斥性与幂等性实现及原理分析

Canal相关理解

kettle部署

crontab定时运行MR不行，手动shell可以执行成功问题排查过程

Flume+kafka+Spark Steaming demo2

Flume+Kafka+Spark Steaming demo

HBase表导出成HDFS

zepplin实战

Azkaban安装

KYKIN安装

Logstash安装部署配置

HBASE API

Ambari卸载shell

linux ssh 相互密码登录

Kettle Linux 安装部署

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

最近访客更多访客>>