一次线上问题的排查过程——时钟精度变化导致的cpu占用率高的问题

yueyemaitian

浏览: 369276 次
性别:
来自: 杭州

最近访客更多访客>>

cctvq85218

ouaijsun

rjhjq111

岁月之眸

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

java
jvm
linux

时钟精度 High Resolution Timer

最近升级了一次tair（缓存系统）的client jar包——一个完全被重写了的版本，发布到线上的时候，发现某个新上线机房机器cpu占用率比较高，一般50%—100%之间（5核的虚拟机），而另外两个机房机器的cpu使用率却比较低。

1、用top查看是java进程的占用的绝大多数cpu

2、用top H或者top -p PID H查看发现是只有一个线程占用cpu比较多

3、printf %x tid，拿到线程id的16进制表示后jstack pid | grep 0xtid -A 10拿到占用cpu比较多的线程的堆栈：

[admin@hostname001 ~]$ jstack 36776 | grep 0x9003 -A 10
"Xxxx-Timeout-Channel-Checker" daemon prio=10 tid=0x00007fa39438d000 nid=0x9003 runnable [0x00000000431b9000]
   java.lang.Thread.State: TIMED_WAITING (parking)
	at sun.misc.Unsafe.park(Native Method)
	- parking to wait for  <0x0000000752803898> (a java.util.concurrent.locks.AbstractQueuedSynchronizer$ConditionObject)
	at java.util.concurrent.locks.LockSupport.parkNanos(LockSupport.java:196)
	at java.util.concurrent.locks.AbstractQueuedSynchronizer$ConditionObject.awaitNanos(AbstractQueuedSynchronizer.java:2025)
	at java.util.concurrent.DelayQueue.take(DelayQueue.java:164)
	at com...........net.TairBgWorker.run(TairBgWorker.java:52)

是缓存系统超时扫描线程在检查超时队列的时候出问题了，按道理说DelayQueue没有取到超时数据，应该一直park在那的，没啥问题呀，为何会导致cpu占用很多呢？难道跟自旋锁有关？

4、想不通.......，把问题丢给了缓存团队的哥们儿，但是他们太忙，从第一次反馈到自己花时间着手解决，都一周时间了，感觉完全是你把他们新版上去了，没把你搞成线上故障，剩下的他们都不放在心上了一样.....

5、于是在稍微有点时间的情况下，自己着手解决吧，google了一把DelayQueue占用cpu的问题，竟然发现有哥们儿也遇到了类似的问题，浏览一遍觉得这哥们儿说的挺靠谱，检查一下我们的代码，发现果然getDelay的时候，直接返回的是毫秒值：

	public long getDelay(TimeUnit unit) {
		return delayed - System.currentTimeMillis();
	}

而在DelayQueue.take里边，获取到这个时间后是当做ns来使用的！！：

    public E take() throws InterruptedException {
        final ReentrantLock lock = this.lock;
        lock.lockInterruptibly();
        try {
            for (;;) {
                E first = q.peek();
                if (first == null) {
                    available.await();
                } else {
                    long delay =  first.getDelay(TimeUnit.NANOSECONDS);
                    if (delay > 0) {
                        long tl = available.awaitNanos(delay);
                    } else {
                        E x = q.poll();
                        assert x != null;
                        if (q.size() != 0)
                            available.signalAll(); // wake up other takers
                        return x;

                    }
                }
            }
        } finally {
            lock.unlock();
        }
    }

那问题估计就是这个了，但是之前在日常和性能压测环境，全然没有注意到这个问题呀，而且为啥有些机房有这些问题，而另外的没有呢？如果是这个问题，解释不了呀！由于线上发布不是想发就发，所以就算改了也不能立即验证，如果不是这个原因，每周仅有的1-2次发布点就浪费，只能等到下次发布才能解决了。于是就想着写个程序先简单重现一把，再看是否解决了！

6、自己写了个程序，找个DelayQueue，一个线程塞数据，一个线程等超时取数据，本地跑了不重现！丢掉两个不同机房的机器上，仍然不重现！难道还有别的原因？但是想想，如果请求量比较大，或者超时时间不长，每次DelayQueue.take都能拿到超时的东西，超时后又去处理一堆超时队列的数据，然后sleep 5ms，应该不会这么占用cpu的。

7、继续5的分析，既然怀疑ConditionObject.awaitNanos调用次数过多，那就用btrace查看执行次数，果然：

import com.sun.btrace.*;
import com.sun.btrace.annotations.*;
import static com.sun.btrace.BTraceUtils.*;
@BTrace
public class HelloWorld {
        private static java.util.concurrent.atomic.AtomicInteger ai = new java.util.concurrent.atomic.AtomicInteger(0);
        private static long start = System.currentTimeMillis();
@OnMethod(clazz="java.util.concurrent.locks.AbstractQueuedSynchronizer$ConditionObject",method="awaitNanos")
        public static void func(AnyType[] args) {
                if(ai.incrementAndGet() % 1000 == 0){
                        println("1000 spends " + (System.currentTimeMillis() - start));
                        start = System.currentTimeMillis();
                }
        }
}

两台机器上的执行结果：

DEBUG: received com.sun.btrace.comm.MessageCommand@67eb366
100,000 spends 116
DEBUG: received com.sun.btrace.comm.MessageCommand@6833f0de
100,000 spends 184
这是2.6.18 kernel 10w次调用的时间

DEBUG: received com.sun.btrace.comm.MessageCommand@474b5f4a
1000 spends 1320
DEBUG: received com.sun.btrace.comm.MessageCommand@49bdc9d8
1000 spends 1388
这个是2.6.32 kernel 1000次调用间隔时间

8、btrace之后继续对6的分析，而后来分析发现，线上超时队列两个任务之间的超时时间点是有一定间隔的，并不是紧紧挨着的，也就是说当前超时任务跟下次超时任务之间可能有几十ms，甚至更多，sleep 5ms后，仍然会每隔几十ns就循环一次在等待，于是就很耗cpu，修改了demo程序，重新跑，重现了问题：

public class Test {
	static class MyDelayed implements Delayed {
		long id;
		long delay;
		long timeout;
		public MyDelayed(long id, long timeout) {
			this.id = id;
			this.timeout = timeout;
			this.delay = timeout + System.currentTimeMillis();
		}

		@Override
		public int compareTo(Delayed o) {
			MyDelayed md = (MyDelayed) o;
			return md.delay < this.delay ? 1 : -1;
		}

		@Override
		public long getDelay(TimeUnit unit) {
			return this.delay - System.currentTimeMillis();//unit.convert(this.delay - System.currentTimeMillis(), TimeUnit.MILLISECONDS);
		}
		public String toString(){
			return this.id + " delay " + timeout + " ms ";
		}
	}

	private static long id = 0;
	protected static final int COUNT = 50;
	static DelayQueue<MyDelayed> dq = new DelayQueue<MyDelayed>();
	public Test() {
	}
	public static void main(String[] args) {
		new Thread(new Runnable() {
			@Override
			public void run() {
				while (!Thread.interrupted()) {
					try {
						List<MyDelayed> list = new ArrayList<MyDelayed>();
						list.add(dq.take());
						dq.drainTo(list);
						for (int i = 0, size = list.size(); i < size; i++) {
						}
						Thread.sleep(5L);
					} catch (InterruptedException e) {
						e.printStackTrace();
					}
				}
			}

		}).start();

		new Thread(new Runnable() {
			@Override
			public void run() {
				while (!Thread.interrupted()) {
					for (int i = 0; i < COUNT; i++) {
						dq.add(new MyDelayed(id++, 100));//这里如果是很随机的，出现的占用cpu的概率很低的
					}
					try {
						Thread.sleep(50L);
					} catch (InterruptedException e) {
						e.printStackTrace();
					}
				}
			}
		}).start();;
	}
}

9、问题找到了，但是为啥会这样呢，是因为硬件原因？cat /proc/cpuinfo分别看了有问题和没问题机器的cpu，果然不一样！

2.6.32 kernel（cpu使用率高）的cpu：
model name    : Intel(R) Xeon(R) CPU           E****  @ 2.*0GHz
stepping    : 5
cpu MHz        : 2400.086
cache size    : 8192 KB
physical id    : 4
siblings    : 1
core id        : 0
cpu cores    : 1
fpu        : yes
fpu_exception    : yes
cpuid level    : 11
wp        : yes
flags        : fpu de tsc msr pae cx8 apic sep cmov pat clflush acpi mmx fxsr sse sse2 ss ht syscall nx lm constant_tsc pni ssse3 cx16 sse4_1 sse4_2 popcnt

2.6.18 kernel（cpu使用率低）的cpu：
model name    : Intel(R) Xeon(R) CPU           E****  @ 2.*0GHz
stepping    : 5
cpu MHz        : 2400.086
cache size    : 8192 KB
physical id    : 4
siblings    : 1
core id        : 0
cpu cores    : 1
fpu        : yes
fpu_exception    : yes
cpuid level    : 11
wp        : yes
flags        : fpu de tsc msr pae cx8 apic sep cmov pat clflush acpi mmx fxsr sse sse2 ss ht syscall nx lm constant_tsc pni ssse3 cx16 sse4_1 sse4_2 popcnt lahf_lm

10、【方向已经歪了.....】然后既然cpu不一样，那么是不是支持的指令也不一样，比如说运行期优化或者intrisinc之类的；查了一些非标准的命令，用PrintCompilation只能看到哪些方法编译成了本地方法；想用PrintOptoAssembly参数看编译成的汇编指令，发现该参数只在debug版本可用，且只是java代码编译成的，native不行....；用pstack查看发现，park用的是pthread_cond_timedwait，其实两者一样：

2.6.18内核
[admin@hostnameXXX~]$ pstack 9307 | grep 9307 -A 10
Thread 221 (Thread 0x45a0b940 (LWP 9307)):
#0  0x00000034f7a0ae00 in pthread_cond_timedwait@@GLIBC_2.3.2 ()
#1  0x00002b0017a17177 in os::Linux::safe_cond_timedwait ()
#2  0x00002b00176e19dc in Unsafe_Park ()
#3  0x00002aaaacc2282f in ?? ()
#4  0x00000007912ff020 in ?? ()
.......

2.6.32的kernel
[admin@hostnameXXX bin]$ pstack 174038
Thread 1 (process 174038):
#0  0x000000354260b14a in pthread_cond_timedwait@@GLIBC_2.3.2 () from /lib64/libpthread.so.0
#1  0x00007f7fdd8b4177 in os::Linux::safe_cond_timedwait(pthread_cond_t*, pthread_mutex_t*, timespec const*) () from /.../jdk-1.6.0_32/jre/lib/amd64/server/libjvm.so
#2  0x00007f7fdd57e9dc in Unsafe_Park () from /.../jdk-1.6.0_32/jre/lib/amd64/server/libjvm.so
#3  0x00007f7fd932ba27 in ?? ()
#4  0x0000000752824210 in ?? ()
#5  0x00000000430cdc78 in ?? ()
#6  0x0000000000000001 in ?? ()
#7  0x00000000430cdc70 in ?? ()
#8  0x0000000000000000 in ?? ()

11、中午吃饭，跟老大聊了两句，os版本，虽然想这有啥关系，但是还是看看再说吧。os的确不一样:

老机器：
2.6.18-***.*.*.***.***

新机器：
2.6.32-***.*.*.***.***.x86_64

然后老大发了个关于High Resolution Timer的资料，这绝对超过我的知识范围了，完全没想到会是这个原因。

12、既然说的有道理，就按照那链接上验证下，cat /proc/timer_list，2.6.32是hr timer，2.6.18不是

2.6.32 kernel机器
[admin@hostnameXXX ~]$ cat /proc/timer_list
Timer List Version: v0.5
HRTIMER_MAX_CLOCK_BASES: 2
now at 3511439984437741 nsecs

cpu: 0
 clock 0:
  .base:       0000000000000000
  .index:      0
  .resolution: 1 nsecs
  .get_time:   ktime_get_real
  .offset:     1375286460793426172 nsecs
active timers:
 clock 1:
  .base:       0000000000000000
  .index:      1
  .resolution: 1 nsecs
  .get_time:   ktime_get
  .offset:     0 nsecs
active timers:
 #0: <0000000000000000>, tick_sched_timer, S:01, hrtimer_start, swapper/0
 # expires at 3511439985000000-3511439985000000 nsecs [in 562259 to 562259 nsecs]
 #1: <0000000000000000>, hrtimer_wakeup, S:01, hrtimer_start_range_ns, DragoonAgent/247215
 # expires at 3511439987840327-3511439987940326 nsecs [in 3402586 to 3502585 nsecs]
…………
 #50: <0000000000000000>, hrtimer_wakeup, S:01, hrtimer_start_range_ns, java/193871
 # expires at 51000553286044185-51000553286094185 nsecs [in 47489113301606444 to 47489113301656444 nsecs]
  .expires_next   : 3511439985000000 nsecs
  .hres_active    : 1
  .nr_events      : 1359911422
  .nr_retries     : 132555
  .nr_hangs       : 0
  .max_hang_time  : 0 nsecs
  .nohz_mode      : 2
  .idle_tick      : 3511439976000000 nsecs
  .tick_stopped   : 1
  .idle_jiffies   : 7806107272
  .idle_calls     : 1603082563
  .idle_sleeps    : 1141722573
  .idle_entrytime : 3511439982234812 nsecs
  .idle_waketime  : 3511439982233361 nsecs
  .idle_exittime  : 3511439975020148 nsecs
  .idle_sleeptime : 3356315902706452 nsecs
  .iowait_sleeptime: 85456657539562 nsecs
  .last_jiffies   : 7806107278
  .next_jiffies   : 7806107281
  .idle_expires   : 3511439985000000 nsecs
jiffies: 7806107280

…… ……
…… ……
…… ……


Tick Device: mode:     1
Broadcast device
Clock Event Device: hpet
 max_delta_ns:   149983005959
 min_delta_ns:   13409
 mult:           61496114
 shift:          32
 mode:           3
 next_event:     9223372036854775807 nsecs
 set_next_event: hpet_legacy_next_event
 set_mode:       hpet_legacy_set_mode
 event_handler:  tick_handle_oneshot_broadcast
tick_broadcast_mask: 00000000
tick_broadcast_oneshot_mask: 00000000

…………
…………

Tick Device: mode:     1
Per CPU device: 23
Clock Event Device: lapic
 max_delta_ns:   1341990326
 min_delta_ns:   2399
 mult:           26847282
 shift:          32
 mode:           3
 next_event:     3511441485000000 nsecs
 set_next_event: lapic_next_event
 set_mode:       lapic_timer_setup
 event_handler:  hrtimer_interrupt

12、dmesg找"Switched to high resolution mode on CPU0" (or something similar)信息来确认是否启用high resolution timer，不过两台机器上没有找到这个信息。

13、内核参数，在内核参数中查找CONFIG_HIGH_RES_TIMERS=y 配置型，来确认启用high resolution timer，我们线上linux 2.6.32的机器的配置是在/proc/config.gz，gunzip解压后可以看到这个配置项；而2.6.18的机器的配置项在/boot/config-2.6.18-**.*.*.***.***，不过没有这个配置项，至此可以确定没有启用high resolution timer。

分享到：

一些数据切分、缓存、rpc框架、nosql方案 ... | 从汇编和寄存器层面，简单描述下方法调用的 ...

2013-09-16 21:14
浏览 4066
评论(2)
分类:互联网
查看更多

2 楼 yueyemaitian 2014-01-14

qhfrose 写道

能知道后续是怎么处理的吗?我们也是碰到了一样的问题,只是那个代码是框架内部的,不好改.

最根本的原因是由于awaitNanos的时候，2.6.32内核传入了几ns的值，所以每几ns就唤醒一次，执行一堆检查，然后再wait。
所以把这个地方要么改成await ms级别，要么ns的值大点

1 楼 qhfrose 2014-01-02

能知道后续是怎么处理的吗?我们也是碰到了一样的问题,只是那个代码是框架内部的,不好改.

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论