Linux服务器性能评估

前言

Web服务在部署到Linux系统运行期间,可能会遇到各种问题。程序上的BUG,数据上的问题,这些排查起来较为简单。当排除这些问题后,往往需要深入到服务器
层面来寻找影响程序运行的稳定因素。

基本信息查看

CPU信息查看

  1. 查看CPU个数

    1
    cat /proc/cpuinfo | grep "physical id" | sort | uniq | wc -l
  2. 查看CPU中core个数

    1
    cat /proc/cpuinfo | grep "cpu cores" | wc -l
  3. 查看CPU逻辑个数

    1
    cat /proc/cpuinfo | grep "processor" | wc -l

逻辑CPU数 = 物理CPU个数*核心数

内存信息查看

  1. 内存使用情况
    1
    2
    3
    4
    5
    #free -m
    total used free shared buffers cached
    Mem: 64376 37881 26494 0 308 17273
    -/+ buffers/cache: 20299 44076
    Swap: 16383 0 16383
  • total: 总内存数
  • used: 已用内存数
  • free: 空闲内存
  • shared: 多进程共享的内存总数
  • - buffers/cache: 已用缓存总数 used-buffer-cached
  • + buffers/cache: 可用缓存数 free+buffer+cached
  • Buffer Cache 用于针对磁盘块的写
  • Page Cache用于针对文件inode的读写,这些cache能够缩短I/O时间
  • free / used是系统可用/暂用的内存

对于程序来说 -/+ buffers/cache是可用/占用内存,因为 buffers/cache很容易就会被使用到

硬盘查看

  1. 查看硬盘分区信息

    1
    fdisk -l
  2. 查看文件系统磁盘暂用情况

    1
    df -h
  3. 查看硬盘的I/O性能

    1
    2
    3
    4
    5
    6
    7
    iostat -d -k 1

    Linux 2.6.32-358.el6.x86_64 (fzck-10-59-107-216.h.173ops.com) 2017年11月21日 _x86_64_ (32 CPU)

    Device: tps kB_read/s kB_wrtn/s kB_read kB_wrtn
    sda 13.35 31.70 161.99 2867672698 14655271354
    sdb 0.86 17.77 29.61 1607620286 2679034433

参数解释:

  • tps:该设备每秒的传输次数(Indicate the number of transfers per second that were issued to the device.)。”一次传输”意思是”一次I/O请求”。多个逻辑请求可能会被合并为”一次I/O请求”。”一次传输”请求的大小是未知的。
  • kB_read/s:每秒从设备(drive expressed)读取的数据量;
  • kB_wrtn/s:每秒向设备(drive expressed)写入的数据量;
  • kB_read:读取的总数据量;
  • kB_wrtn:写入的总数量数据量;这些单位都为Kilobytes。

指定监控的设备名称为sda,该命令的输出结果和上面命令完全相同。

1
iostat -d sda 2

默认监控所有的硬盘设备,现在指定只监控sda。

-x 参数
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
iostat -d -x -k 1 10

Linux 2.6.32-358.el6.x86_64 (fzck-10-59-107-216.h.173ops.com) 2017年11月21日 _x86_64_ (32 CPU)

Device: rrqm/s wrqm/s r/s w/s rkB/s wkB/s avgrq-sz avgqu-sz await r_await w_await svctm %util
sda 0.01 28.67 1.47 11.89 31.70 161.99 29.01 0.01 0.57 2.76 0.30 0.16 0.21
sdb 0.00 0.00 0.47 0.39 17.77 29.61 109.69 0.00 1.61 0.55 2.87 0.38 0.03

Device: rrqm/s wrqm/s r/s w/s rkB/s wkB/s avgrq-sz avgqu-sz await r_await w_await svctm %util
sda 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
sdb 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00

Device: rrqm/s wrqm/s r/s w/s rkB/s wkB/s avgrq-sz avgqu-sz await r_await w_await svctm %util
sda 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
sdb 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
  • rrqm/s:每秒这个设备相关的读取请求有多少被Merge了(当系统调用需要读取数据的时候,VFS将请求发到各个FS,如果FS发现不同的读取请求读取的是相同Block的数据,FS会将这个请求合并Merge);
  • wrqm/s:每秒这个设备相关的写入请求有多少被Merge了.
  • rsec/s:每秒读取的扇区数.
  • wsec/:每秒写入的扇区数。
  • rKB/s:The number of read requests that were issued to the device per second;
  • wKB/s:The number of write requests that were issued to the device per second;
  • avgrq-sz 平均请求扇区的大小
  • avgqu-sz 是平均请求队列的长度。毫无疑问,队列长度越短越好。
  • await: 每一个IO请求的处理的平均时间(单位是微秒毫秒)。这里可以理解为IO的响应时间,一般地系统IO响应时间应该低于5ms,如果大于10ms就比较大了。
    这个时间包括了队列时间和服务时间,也就是说,一般情况下,await大于svctm,它们的差值越小,则说明队列时间越短,反之差值越大,队列时间越长,说明系统出了问题。
  • svctm 表示平均每次设备I/O操作的服务时间(以毫秒为单位)。如果svctm的值与await很接近,表示几乎没有I/O等待,磁盘性能很好,如果await的值远高于svctm的值,则表示I/O队列等待太长, 系统上运行的应用程序将变慢。
    %util: 在统计时间内所有处理IO时间,除以总共统计时间。例如,如果统计间隔1秒,该设备有0.8秒在处理IO,而0.2秒闲置,那么该设备的%util = 0.8/1 = 80%,所以该参数暗示了设备的繁忙程度
    。一般地,如果该参数是100%表示设备已经接近满负荷运行了(当然如果是多磁盘,即使%util是100%,因为磁盘的并发能力,所以磁盘使用未必就到了瓶颈)。

内存性能指标

磁盘性能指标

网络IO指标

系统评估指标

性能因素 糟糕
CPU user% + sys% < 70% user% + sys% =85% user% + sys% >= 90%
内存 Swap In(si) = 0 Swap Out(so) = 0 Per CPU with 10 pages/s More Swap In & Swap Out
磁盘 iowait%< 20% iowat%=35% iowat% >= 50%