`
SimonLei
  • 浏览: 175950 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

ElasticSearch 的一次非正常master脱离的调查

 
阅读更多

 

一共有4个节点的cluster,其中es4 master,某个时间突然es1脱离了整个cluster,调查过程如下:

[es@bigdata1 logs]$ date; ssh bd4 date

2012年 09月 03日 星期一 09:41:26 CST

2012年 09月 03日 星期一 09:41:00 CST

es4比 es1 慢 26 秒,以下日志时间修改为es1的时间

es4的日志中:

 写道
[2012-09-01 04:43:52,174][INFO ][cluster.service ] [es4] removed {[es1][VMFIvWAhRQuYoCcPIeedIQ][inet[/192.168.2.11:9300]],}, reason: zen-disco-node_failed([es1][VMFIvWAhRQuYoCcPIeedIQ][inet[/192.168.2.11:9300]]), reason failed to ping, tried [3] times, each with maximum [30s] timeout
 

这个时候,es4已经重试了3次,每次30s,也就是说90s以前,es1就已经出问题了,也就是42.22秒的时候。这个时间段es1发生了什么?

 写道
[2012-09-01 04:41:07,849][INFO ][monitor.jvm ] [es1] [gc][PS Scavenge][145683][1813] duration [5.9s], collections [1]/[6.5s], total [5.9s]/[46.1m], memory [21.8gb]->[15.7gb]/[23.3gb], all_pools {[Code Cache] [12.3mb]->[12.3mb]/[48mb]}{[PS Eden Space] [6.1gb]->[2.5mb]/[6.5gb]}{[PS Survivor Space] [289.5mb]->[214.6mb]/[820.4mb]}{[PS Old Gen] [15.3gb]->[15.5gb]/[16.2gb]}{[PS Perm Gen] [33.1mb]->[33.1mb]/[82mb]}
[2012-09-01 04:41:31,398][INFO ][monitor.jvm ] [es1] [gc][PS Scavenge][145701][1814] duration [5.8s], collections [1]/[6.5s], total [5.8s]/[46.2m], memory [22gb]->[15.8gb]/[23.3gb], all_pools {[Code Cache] [12.3mb]->[12.3mb]/[48mb]}{[PS Eden Space] [6.2gb]->[932.2kb]/[6.5gb]}{[PS Survivor Space] [214.6mb]->[259.8mb]/[815.8mb]}{[PS Old Gen] [15.5gb]->[15.6gb]/[16.2gb]}{[PS Perm Gen] [33.1mb]->[33.1mb]/[82mb]}
[2012-09-01 04:43:59,621][INFO ][monitor.jvm ] [es1] [gc][PS Scavenge][145745][1817] duration [8.9s], collections [1]/[1.6m], total [8.9s]/[46.5m], memory [22.8gb]->[2.1gb]/[23.3gb], all_pools {[Code Cache] [12.3mb]->[12.3mb]/[48mb]}{[PS Eden Space] [6.5gb]->[53.4kb]/[6.7gb]}{[PS Survivor Space] [318.4mb]->[0b]/[737.2mb]}{[PS Old Gen] [15.9gb]->[2.1gb]/[16.2gb]}{[PS Perm Gen] [33.1mb]->[33.1mb]/[82mb]}
[2012-09-01 04:43:59,621][WARN ][monitor.jvm ] [es1] [gc][PS MarkSweep][145745][14] duration [1.4m], collections [1]/[1.6m], total [1.4m]/[4.9m], memory [22.8gb]->[2.1gb]/[23.3gb], all_pools {[Code Cache] [12.3mb]->[12.3mb]/[48mb]}{[PS Eden Space] [6.5gb]->[53.4kb]/[6.7gb]}{[PS Survivor Space] [318.4mb]->[0b]/[737.2mb]}{[PS Old Gen] [15.9gb]->[2.1gb]/[16.2gb]}{[PS Perm Gen] [33.1mb]->[33.1mb]/[82mb]}
[2012-09-01 04:44:00,795][WARN ][transport.netty ] [es1] Exception caught on netty layer [[id: 0x3b3b2835, /192.168.2.14:55393 => /192.168.2.11:9300]]
java.io.IOException: 断开的管道
 

 

这期间,发生了 5.9s5.8s8.9s1.4mgc动作,特别是最后一个gc,长达1.4分钟,接近90s了。感觉应该正是这个gc导致es1无响应,从而从cluster当中被踢出去了。

 

很有意思的是,es1发现master es4不在了,它重新选举es3做为master,但是紧接着es3也失效了,日志如下:

 写道
[2012-09-01 04:44:03,756][INFO ][discovery.zen ] [es1] master_left [[es4][uAc5D7jkT_esrUTEBMmATQ][inet[/192.168.2.14:9300]]], reason [do not exists on master, act as master failure]
[2012-09-01 04:44:04,631][INFO ][cluster.service ] [es1] master {new [es3][F4mB4HYkTfu9umD8CSkcnw][inet[/192.168.2.13:9300]], previous [es4][uAc5D7jkT_esrUTEBMmATQ][inet[/192.168.2.14:9300]]}, removed {[es4][uAc5D7jkT_esrUTEBMmATQ][inet[/192.168.2.14:9300]],}, reason: zen-disco-master_failed ([es4][uAc5D7jkT_esrUTEBMmATQ][inet[/192.168.2.14:9300]])
[2012-09-01 04:44:06,782][INFO ][discovery.zen ] [es1] master_left [[es3][F4mB4HYkTfu9umD8CSkcnw][inet[/192.168.2.13:9300]]], reason [no longer master]
[2012-09-01 04:44:06,782][INFO ][cluster.service ] [es1] master {new [es1][VMFIvWAhRQuYoCcPIeedIQ][inet[/192.168.2.11:9300]], previous [es3][F4mB4HYkTfu9umD8CSkcnw][inet[/192.168.2.13:9300]]}, removed {[es3][F4mB4HYkTfu9umD8CSkcnw][inet[/192.168.2.13:9300]],}, reason: zen-disco-master_failed ([es3][F4mB4HYkTfu9umD8CSkcnw][inet[/192.168.2.13:9300]])
 

我们看一下es3当时发生了什么事情:

[es@bigdata1 logs]$ date; ssh bd3 date

2012年 09月 03日 星期一 09:51:14 CST

2012年 09月 03日 星期一 09:51:11 CST

它们只差3秒,es3的日志如下:

 写道
[2012-09-01 04:43:45,985][INFO ][cluster.service ] [es3] removed {[es1][VMFIvWAhRQuYoCcPIeedIQ][inet[/192.168.2.11:9300]],}, reason: zen-disco-receive(from master [[es4][uAc5D7jkT_esrUTEBMmATQ][inet[/192.168.2.14:9300]]])
[2012-09-01 04:44:12,631][DEBUG][action.admin.indices.status] [es3] [xabindex3][2], node[hLoNg9d0T1GYz1tqUSJwUA], [R], s[INITIALIZING]: Failed to execute [org.elasticsearch.action.admin.indices.status.IndicesStatusRequest@50d8a381]
org.elasticsearch.transport.RemoteTransportException: [es2][inet[/192.168.2.12:9300]][indices/status/s]
 

奇怪,04:44:06左右,es3啥都没发生,感觉就是es3没理睬es1,因此es1只好又抛弃es3,把自己组建成独立的master

 

现象找到了,该怎么解决了。两个思路:

1. gc的时间尽量再压缩,哪怕多进行几次gc,每次时间不要太长

2. 修改zen的配置,把fault detectiontimeout时间和retry times 都增加。

第一步比较麻烦,还是第二步比较简单,先把retries修改为6试试看。

 

0
0
分享到:
评论
1 楼 di1984HIT 2016-11-02  
好恐怖~~~

相关推荐

    elasticsearch-HQ-master.zip

    Elasticsearch-HQ是一款强大的Elasticsearch管理工具,尤其对于那些需要通过图形用户界面来监控、管理和查询Elasticsearch集群的用户来说,它是一个不可或缺的辅助插件。这个"elasticsearch-HQ-master.zip"文件包含...

    Elasticsearch组件elasticsearch-head-master

    elasticsearch-head-master是该组件的一个版本,它包含了所有必要的源代码和资源,使得开发者和管理员能够直接在本地运行和调试。 Elasticsearch是一个开源的全文搜索引擎,基于Lucene构建,设计为分布式、RESTful...

    elasticsearch5.5-head-master.tar.gz

    Elasticsearch 5.5-Head-Master 是一个针对 Elasticsearch 的特定版本的插件,名为 "es-head"。这个插件提供了一个用户友好的Web界面,使得管理和监控Elasticsearch集群变得更加直观和方便。Elasticsearch,简称 ES...

    elasticsearch-head-chrome-master.zip

    总的来说,"elasticsearch-head-chrome-master.zip" 提供了一个便捷的 Elasticsearch 监控解决方案,尤其适合开发者和运维人员进行日常检查和调试。只需简单的安装步骤,即可在浏览器中享受丰富的功能,提升 Elastic...

    elasticsearch-head-master安装及下载.rar

    Elasticsearch Head是一款非常实用的Elasticsearch管理工具,它提供了直观的图形用户界面,使得开发者和管理员能够方便地查看和操作Elasticsearch集群的状态、索引、文档等信息。这款工具无需安装,只需将其部署在...

    Elasticsearch-Head-Master

    **Elasticsearch-Head-Master** 是一个专为 Elasticsearch 设计的全文检索可视化工具,它提供了用户友好的界面,使得对 Elasticsearch 集群的管理、监控和数据操作变得更加直观和简便。Elasticsearch 是一个分布式、...

    elasticsearch-head-master-master.zip

    "elasticsearch-head-master-master.zip"是这个插件的一个版本,通常包含源码或者编译后的可执行文件,用于部署在服务器上以提供Web界面供用户操作ES服务。 Elasticsearch(简称ES)是一种基于Lucene的开源分布式...

    elasticsearch-head-master.zip

    在“elasticsearch-head-master.zip”这个压缩包中,包含的是Elasticsearch Head的最新版本,这使得用户能够方便地监控、管理和操作Elasticsearch实例。 Elasticsearch本身是一个开源的全文搜索引擎,基于Lucene...

    elasticsearch-head-master

    Elasticsearch-Head-Master是针对Elasticsearch搜索引擎的一款强大且直观的Web界面工具,主要用于帮助用户更方便地管理和监控Elasticsearch集群。Elasticsearch,作为一个分布式、RESTful风格的搜索和分析引擎,广泛...

    elasticsearch-master.zip

    "elasticsearch-master.zip" 文件很可能是Elasticsearch的源码或者一个配置齐全的Elasticsearch集群镜像,用于学习、测试或部署。 在深入探讨Elasticsearch之前,我们先理解一下“es测试”这个标签。这通常意味着该...

    elasticsearch-head-chrome-master.rar

    "elasticsearch-head-chrome-master.rar"文件正是Elasticsearch Head插件的Chrome浏览器扩展程序的一个版本。 **Elasticsearch Head Chrome Extension** Elasticsearch Head Chrome Extension是一款非常实用的...

    Elasticsearch5.2可视化插件 elasticsearch-head-master

    1. 下载:首先,你需要从官方源或 GitHub 上下载 Elasticsearch-Head 的源代码,如 `elasticsearch-head-master.zip`。 2. 解压:解压下载的文件到本地目录。 3. 配置:进入解压后的目录,找到 `Gruntfile.js` 文件...

    elasticsearch-kopf-master.zip

    kopf则是针对Elasticsearch开发的一款管理工具,它的全称为"elasticsearch-kopf",并以"master"分支的版本进行发布,即我们这里的"elasticsearch-kopf-master.zip"。 kopf的核心功能是提供了一个直观且易用的Web...

    elasticsearch-head-master-5.0.0版本.zip

    Elasticsearch-Head-Master-5.0.0版本是一个专为Elasticsearch设计的开源可视化管理工具,它基于Node.js开发,提供了直观且友好的界面,帮助用户更轻松地管理和监控Elasticsearch集群。这款工具是开发者和管理员的...

    包含elasticsearch+ik+elasticsearch-head-master的各个版本资源

    本人整理了了好几天的时间download...elasticsearch-head-master elasticsearch-head-master.zip 另附一份文档,包含各个版本的百度网盘下载资源(linux版本和Windows): 7.3.2 7.4.2 7.5.0 7.5.1 7.5.2 7.6.0 7.4.0

Global site tag (gtag.js) - Google Analytics