Linux性能监控与分析之--- CPU

wsql

浏览: 11811043 次
性别:
来自: 深圳

最近访客更多访客>>

GDGZWQZ

IT_way

qq_33632159

mhx1535

博主相关

博客

微博

相册

留言

关于我

文章分类

全部博客 (14573)

社区版块

存档分类

2013-03 ( 19)
2013-02 ( 15)
2013-01 ( 268)
更多存档...

CPU性能指标

1. 用户进程使用CPU的比率

2. 系统进程使用CPU的比率

3. WIO, 等待I/O 而是CPU处于空闲状态的比率。

4. CPU的空闲率

5. CPU用于上下文交换的比率

6，nice

7，real-time

8，运行进程队列的长度

9，平均负载

Linux下常用监控CPU性能的工具有

1. iostat

只能查看所有CPU的平均信息

2. vmstat

能查看所有CPU的平均信息，

能查看CPU队列信息

3. mpstat

能查看单个和所有的CPU信息。

4. sar

与mpstat类似

5. top

6. nmon

iostat

[plain]view
 plaincopy

<spanstyle="font-size:18px;">$iostat

Linux2.6.18-92.el508/30/2012

avg-cpu:%user%nice%system%iowait%steal%idle

1.160.010.620.180.0098.03

</span>

vmstat

[plain]view
 plaincopy

<spanstyle="font-size:18px;">$vmstat-n5

procs-----------memory-------------swap-------io------system-------cpu------

rbswpdfreebuffcachesisobiboincsussyidwast

0096126119698189236388720001611119800

</span>

-n 5 参数的意义是每隔 5 秒刷新一次

procs

r -- 下面的数字代表运行的序列。如果这个值连续大于系统的CPU个数表示系统运行较慢，有多数进程等待CPU。如果r的个数大于CPU的4倍的话，则系统面临CPU短缺或是CPU的速率过低，造成系统运行过慢。

System

in -- 每秒产生的中断次数

cs -- 每秒产生的上下文切换次数。

这两个值越大，系统进程消耗的CPU的时间越大。

CPU

us -- 用户进程消耗CPU的时间百分比。长期居高不下，就需要优化程序了。

sy -- 系统进程消耗CPU的时间百分比。 sy 值高，并不是良性的表现。

wa -- IO等待消耗的CPU时间百分比，值高时，说明IO等待比较严重，可能由于磁盘大量随机访问造成，也有可能磁盘出现瓶颈。

id -- CPU 处于空闲时间百分比。如果持续为0且出现sy 是us 两倍状况，则系统面临CPU资源短缺。当发生此问题的时候请先调整应用程序对CPU的占用情况.使得应用程序能够更有效的使用CPU.同时可以考虑增加更多的CPU.

mpstat - (Multiprocessor Statistics)

实施监控，信息存放在 /proc/stat文件中

[sql]view
 plaincopy

<spanstyle="font-size:18px;">$mpstat-PALL210

Linux2.6.18-92.el5()08/30/2012

08:16:34PMCPU%user%nice%sys%iowait%irq%soft%steal%idleintr/s

08:16:36PMall0.780.000.260.260.000.260.0098.441058.85

08:16:36PM00.520.000.520.000.000.520.0098.441058.85

08:16:36PM10.520.000.000.000.000.000.0099.480.00</span>

以上意思是：每隔2秒采样所有CPU的使用状况，总过采样10次。语法如下：

mpstat [-P {|ALL}] [internal [count]]

-P 监控哪个CPU, 一般使用ALL就可以了

Internal 间隔的时间

count 采样的次数

输出参数意义

%user -- 用户态CPU时间比

%nice -- 负进程的CPU时间

%system - 核心态时间

iowait -- IO 等待时间

irq --

soft

idle

intr/s 每秒CPU接收中断的次数

sar

[plain]view
 plaincopy

<fontsize="4"><spanstyle="color:#990000;"><strong><spanstyle="color:#990000;"><spanstyle="font-family:Arial;color:#000000;">$sar-u210

Linux2.6.18-92.el5()08/30/2012

08:28:36PMCPU%user%nice%system%iowait%steal%idle

08:28:38PMall0.260.000.000.780.0098.97

08:28:40PMall0.520.000.520.000.0098.97</span></span></strong></span></font>

sar [options] [-A] [-o file] t [n]

在命令行中，n 和t 两个参数组合起来定义采样间隔和次数，t为采样间隔，是必须有
的参数，n为采样次数，是可选的，默认值是1，-o file表示将命令结果以二进制格式
存放在文件中，file 在此处不是关键字，是文件名。options 为命令行选项，sar命令
的选项很多，下面只列出常用选项：

-A：所有报告的总和。
-u：CPU利用率
-v：进程、I节点、文件和锁表状态。
-d：硬盘使用报告。
-r：内存和交换空间的使用统计。
-g：串口I/O的情况。
-b：缓冲区使用情况。
-a：文件读写情况。
-c：系统调用情况。
-q：报告队列长度和系统平均负载
-R：进程的活动情况。
-y：终端设备活动情况。
-w：系统交换活动。
-x { pid | SELF | ALL }：报告指定进程ID的统计信息，SELF关键字是sar进程本身的统计，ALL关键字是所有系统进程的统计

%user：CPU处在用户模式下的时间百分比。
%nice：CPU处在带NICE值的用户模式下的时间百分比。
　%system：CPU处在系统模式下的时间百分比。
　%iowait：CPU等待输入输出完成时间的百分比。
%steal：管理程序维护另一个虚拟处理器时，虚拟CPU的无意识等待时间百分比。
　%idle：CPU空闲时间百分比。
在所有的显示中，我们应主要注意%iowait和%idle，%iowait的值过高，表示硬盘存在I/O瓶颈，%idle值高，表示CPU较空闲，如果%idle值高但系统响应慢时，有可能是CPU等待分配内存，此时应加大内存容量。%idle值如果持续低于10，那么系统的CPU处理能力相对较低，表明系统中最需要解决的资源是CPU。

用sar进行运行进程队列长度分析：
#sar -q 2 10
Linux 2.6.18-53.el5PAE (localhost.localdomain) 03/28/2009
07:58:14 PM runq-sz plist-sz ldavg-1 ldavg-5 ldavg-15
07:58:16 PM 0 493 0.64 0.56 0.49
07:58:18 PM 1 491 0.64 0.56 0.49
07:58:20 PM 1 488 0.59 0.55 0.49
07:58:22 PM 0 487 0.59 0.55 0.49
07:58:24 PM 0 485 0.59 0.55 0.49
07:58:26 PM 1 483 0.78 0.59 0.50
07:58:28 PM 0 481 0.78 0.59 0.50
07:58:30 PM 1 480 0.72 0.58 0.50
07:58:32 PM 0 477 0.72 0.58 0.50
07:58:34 PM 0 474 0.72 0.58 0.50
Average: 0 484 0.68 0.57 0.49

runq-sz 准备运行的进程运行队列。
plist-sz 进程队列里的进程和线程的数量
ldavg-1 前一分钟的系统平均负载(load average)
ldavg-5 前五分钟的系统平均负载(load average)
ldavg-15 前15分钟的系统平均负载(load average)

顺便说一下load avarage的含义
load average可以理解为每秒钟CPU等待运行的进程个数.
在Linux系统中，sar -q、uptime、w、top等命令都会有系统平均负载load average的输出，那么什么是系统平均负载呢？
　　系统平均负载被定义为在特定时间间隔内运行队列中的平均任务数。如果一个进程满足以下条件则其就会位于运行队列中：
　　- 它没有在等待I/O操作的结果
　　- 它没有主动进入等待状态(也就是没有调用'wait')
　　- 没有被停止(例如：等待终止)
　　例如：
# uptime
　　20:55:40 up 24 days, 3:06, 1 user, load average: 8.13, 5.90, 4.94
　　命令输出的最后内容表示在过去的1、5、15分钟内运行队列中的平均进程数量。
　　一般来说只要每个CPU的当前活动进程数不大于3那么系统的性能就是良好的，如果每个CPU的任务数大于5，那么就表示这台机器的性能有严重问题。对于上面的例子来说，假设系统有两个CPU，那么其每个CPU的当前任务数为：8.13/2=4.065。这表示该系统的性能是可以接受的