Linux服务器性能评估

前言

Web服务在部署到Linux系统运行期间，可能会遇到各种问题。程序上的BUG，数据上的问题，这些排查起来较为简单。当排除这些问题后，往往需要深入到服务器
层面来寻找影响程序运行的稳定因素。

基本信息查看

CPU信息查看

查看CPU个数

1	cat /proc/cpuinfo \| grep "physical id" \| sort \| uniq \| wc -l

查看CPU中core个数

1	cat /proc/cpuinfo \| grep "cpu cores" \| wc -l

查看CPU逻辑个数
1
cat /proc/cpuinfo | grep "processor" | wc -l
逻辑CPU数 = 物理CPU个数*核心数

内存信息查看

内存使用情况

#free -m
             total       used       free     shared    buffers     cached
Mem:         64376      37881      26494          0        308      17273
-/+ buffers/cache:      20299      44076
Swap:        16383          0      16383

total: 总内存数
used: 已用内存数
free: 空闲内存
shared: 多进程共享的内存总数
- buffers/cache: 已用缓存总数 used-buffer-cached
+ buffers/cache: 可用缓存数 free+buffer+cached
Buffer Cache 用于针对磁盘块的写
Page Cache用于针对文件inode的读写，这些cache能够缩短I/O时间
free / used是系统可用/暂用的内存

对于程序来说 -/+ buffers/cache是可用/占用内存，因为 buffers/cache很容易就会被使用到

硬盘查看

查看硬盘分区信息
1
fdisk -l
查看文件系统磁盘暂用情况
1
df -h

查看硬盘的I/O性能

iostat -d -k 1

Linux 2.6.32-358.el6.x86_64 (fzck-10-59-107-216.h.173ops.com) 	2017年11月21日 	_x86_64_	(32 CPU)

Device:            tps    kB_read/s    kB_wrtn/s    kB_read    kB_wrtn
sda              13.35        31.70       161.99 2867672698 14655271354
sdb               0.86        17.77        29.61 1607620286 2679034433

参数解释：

tps：该设备每秒的传输次数（Indicate the number of transfers per second that were issued to the device.）。”一次传输”意思是”一次I/O请求”。多个逻辑请求可能会被合并为”一次I/O请求”。”一次传输”请求的大小是未知的。
kB_read/s：每秒从设备（drive expressed）读取的数据量；
kB_wrtn/s：每秒向设备（drive expressed）写入的数据量；
kB_read：读取的总数据量；
kB_wrtn：写入的总数量数据量；这些单位都为Kilobytes。

指定监控的设备名称为sda，该命令的输出结果和上面命令完全相同。

1	iostat -d sda 2

默认监控所有的硬盘设备，现在指定只监控sda。

-x 参数

iostat -d -x -k 1 10

Linux 2.6.32-358.el6.x86_64 (fzck-10-59-107-216.h.173ops.com) 	2017年11月21日 	_x86_64_	(32 CPU)

Device:         rrqm/s   wrqm/s     r/s     w/s    rkB/s    wkB/s avgrq-sz avgqu-sz   await r_await w_await  svctm  %util
sda               0.01    28.67    1.47   11.89    31.70   161.99    29.01     0.01    0.57    2.76    0.30   0.16   0.21
sdb               0.00     0.00    0.47    0.39    17.77    29.61   109.69     0.00    1.61    0.55    2.87   0.38   0.03

Device:         rrqm/s   wrqm/s     r/s     w/s    rkB/s    wkB/s avgrq-sz avgqu-sz   await r_await w_await  svctm  %util
sda               0.00     0.00    0.00    0.00     0.00     0.00     0.00     0.00    0.00    0.00    0.00   0.00   0.00
sdb               0.00     0.00    0.00    0.00     0.00     0.00     0.00     0.00    0.00    0.00    0.00   0.00   0.00

Device:         rrqm/s   wrqm/s     r/s     w/s    rkB/s    wkB/s avgrq-sz avgqu-sz   await r_await w_await  svctm  %util
sda               0.00     0.00    0.00    0.00     0.00     0.00     0.00     0.00    0.00    0.00    0.00   0.00   0.00
sdb               0.00     0.00    0.00    0.00     0.00     0.00     0.00     0.00    0.00    0.00    0.00   0.00   0.00

rrqm/s：每秒这个设备相关的读取请求有多少被Merge了（当系统调用需要读取数据的时候，VFS将请求发到各个FS，如果FS发现不同的读取请求读取的是相同Block的数据，FS会将这个请求合并Merge）；
wrqm/s：每秒这个设备相关的写入请求有多少被Merge了.
rsec/s：每秒读取的扇区数.
wsec/：每秒写入的扇区数。
rKB/s：The number of read requests that were issued to the device per second；
wKB/s：The number of write requests that were issued to the device per second；
avgrq-sz 平均请求扇区的大小
avgqu-sz 是平均请求队列的长度。毫无疑问，队列长度越短越好。
await：每一个IO请求的处理的平均时间（单位是微秒毫秒）。这里可以理解为IO的响应时间，一般地系统IO响应时间应该低于5ms，如果大于10ms就比较大了。
这个时间包括了队列时间和服务时间，也就是说，一般情况下，await大于svctm，它们的差值越小，则说明队列时间越短，反之差值越大，队列时间越长，说明系统出了问题。
svctm 表示平均每次设备I/O操作的服务时间（以毫秒为单位）。如果svctm的值与await很接近，表示几乎没有I/O等待，磁盘性能很好，如果await的值远高于svctm的值，则表示I/O队列等待太长，系统上运行的应用程序将变慢。
%util：在统计时间内所有处理IO时间，除以总共统计时间。例如，如果统计间隔1秒，该设备有0.8秒在处理IO，而0.2秒闲置，那么该设备的%util = 0.8/1 = 80%，所以该参数暗示了设备的繁忙程度
。一般地，如果该参数是100%表示设备已经接近满负荷运行了（当然如果是多磁盘，即使%util是100%，因为磁盘的并发能力，所以磁盘使用未必就到了瓶颈）。

内存性能指标

磁盘性能指标

网络IO指标

系统评估指标

性能因素	好	坏	糟糕
CPU	user% + sys% < 70%	user% + sys% =85%	user% + sys% >= 90%
内存	Swap In(si) = 0 Swap Out(so) = 0	Per CPU with 10 pages/s	More Swap In & Swap Out
磁盘	iowait%< 20%	iowat%=35%	iowat% >= 50%