`
381573578
  • 浏览: 70062 次
  • 性别: Icon_minigender_2
  • 来自: 北京
社区版块
存档分类
最新评论
文章列表

Storm基本概念

2.1 Storm基本概念 在运行一个Storm任务之前,需要了解一些概念: Topologies Streams Spouts Bolts Stream groupings Reliability Tasks Workers Configuration   Storm集群和Hadoop集群表面上看很类似。但是Hadoop上运行的是MapReduce jobs,而在Storm上运行的是拓扑(topology),这两者之间是非常不一样的。一个关键的区别是: 一个MapReduce job最终会结束, 而一个topolog

linux 日期转换

date -d '1970-01-01 UTC 946684800 seconds' +"%Y-%m-%d %T %z"    start_time=`date -d "1970-01-01 UTC  $date_start seconds" +"%Y-%m-%d %H:%M:%S"`;

crontab与环境变量

2. crontab与环境变量不要假定cron知道所需要的特殊环境,它其实并不知道。所以你要保证在shelll脚本中提供所有必要的路径和环境变量,除了一些自动设置的全局变量。所以注意如下3点:1)脚本中涉及文件路径时写全局路径;2)脚本执行要用到java或其他环境变量时,通过source命令引入环境变量,如:cat start_cbp.sh#!/bin/shsource /etc/profile

mysql小技巧

order by null 用途是强制对查询结果禁用排序。通过explain检查查询语句时候,如果看到Extra列中有Using filesort,这是对性能有一定影响的,特别是使用了group by时,就算你没有显示的指定order by,mysql会默认按照分组字段进行排序。某些情况下是没有必要使用排序的,例如在处理表报数据的时候(把原始表数据统计后插入到一个用于报表查询的表),则完全可以可以使用order by null来取消排序。如: insert into reportTable(day, clicks, revenue) select day, count(*), sum( ...

hive sql 优化

Hive是将符合SQL语法的字符串解析生成可以在Hadoop上执行的MapReduce的工具。使用Hive尽量按照分布式计算的一些特点来设计sql,和传统关系型数据库有区别, 所以需要去掉原有关系型数据库下开发的一些固有思维。   基本原则: 1. 尽量尽早地过滤数据,减少每个阶段的数据量,对于分区表要加分区,同时只选择需要使用到的字段 select ... from A join B on A.key = B.key where A.userid>10

oracle 相关

找表 select * from all_tables where table_name like '%NGINX_LOG_REPORT%'   =========任务运行===============   ---任务列表 select spend_time/60,t.* from SPEND_TIME t --where lower(t_name)=lower('P_TADU_CHANNEL_NEW') order by begin_time desc,end_time

hive查询相关

一、嵌套查询统计数量去重问题 描述:如果子查询中对统计的字段已经去重,外面一层就不能同时有distinct(目标统计字段)和group by操作,否则查询结果不是统计的数量而是统计的字段数据。 如: select platform_id, count(distinct user_id) uv_count from ( select platform_id, user_id, sum(pv) pv from depot_user_browse where day = '20140201' and ( platform_id = 12 or p ...

shell 时间处理

start_dt="20130101"; end_dt="20131231"; for ((i=0;i<= $(($(date +%s -d "$end_dt") - $(date +%s -d "$start_dt")))/86400 |bc ;i++)) ;do report_day=$(date -d "$start_dt +$i day" +%Y%m%d) echo $report_day done     if [ "$1" ! ...
遇到问题以后先查看日志,以下是常见的错误情况及解决方法,希望对大家有所帮助。 1、启动hadoop时没有NameNode的可能原因: (1) NameNode没有格式化 (2) 环境变量配置错误 (3) Ip和hostname绑定失败 2、地址占用 报错:org.apache.hadoop.hdfs.server.namenode.NameNode: Address already in use
rm -rf 慎用 命令敲得多了,常在河边走,难免会湿鞋 rm 特别是rm -rf之前,小心,三思,提前做好备份 为了避免因为误操作而导致文件无法恢复的问题,特在hadoop集群的每台机器上添加了"回收站"机制。 首先,在~下 .bashrc(或者.bash_profile)加入 mkdir -p /ty/.trash alias rm=trash alias r=trash alias rl='ls /ty/.trash'
plsql中 perferences 下的 user interface 下的editor 中的 autoreplace。在definition file中指定自己定义的文件的路径就可以了。   f = FROM s* = SELECT COUNT(*) FROM w = T WHERE st = SELECT T.*,T.ROWID FROM s = SELECT * FROM l = LIKE '%%' r = region = d = DELETE FROM
http://www.mydigitallife.info/2008/06/13/convert-and-upgrade-windows-xp-home-to-professional-without-reinstalling/   1 依次点击:开始->运行,输入regedit 2 找到 HKEY_LOCAL_MACHINE/SYSTEM/ControlSet00X/Control/ProductOptions,  注意:ControlSet00X 是数值最大的那一个。 3 删除ProductSuite 注册表键。 4 然后,创建一个新的DWORD 值,名称为Brand ...
oracle 建立数据库1、怎么查看我总共建了几个库?答:一个叫install的文件夹下的portlist.ini2、开始菜单里的oracle文件夹的配置和移植工具Database Configuration Assistant 菜单3、建好了后再去看那个.ini文件,里面应该有你这个库的管理配 ...

Ue使用技巧

Ctrl+b     选中括号内的 F3           查找下一个相同的选中的内容 ctrl+tab  多个文件切换 ctrl+g     到所在的行 ctrl+f2     建立标签,然后alt+f2切换 ctrl+e      删除整行 F7           插入系统时间
假如我们需要确定谁占用了我们的9050端口 1、Windows平台在windows命令行窗口下执行: C:\>netstat -aon|findstr "9050" TCP 127.0.0.1:9050 0.0.0.0:0 LISTENING 2016 看到了吗,端口被进程号为2016的进程占用,继续执行下面命令: C:\>tasklist|findstr "2016" tor.exe 2016 Console ...
Global site tag (gtag.js) - Google Analytics