第十六章
第十六章. 性能分析与故障诊断. 第十六章 性能分析与故障诊断. 第十六章 性能分析与故障诊断 (2). 本章要点. 掌握基本的性能调试工具 掌握基本的故障诊断工具. 16.1.1 一般性能分析过程. vmstat sar nice ps. CPU 瓶颈?. Y. N. vmstat ps lsps svmon. iostat lslv filemon fileplace. 内存瓶颈?. I/O 瓶颈?. Y. N. Y. N. netstat nfsstat. nfso no ifconfig netpmon.
第十六章
E N D
Presentation Transcript
第十六章 性能分析与故障诊断
第十六章 性能分析与故障诊断(2) 本章要点 掌握基本的性能调试工具 掌握基本的故障诊断工具
16.1.1 一般性能分析过程 vmstat sar nice ps CPU瓶颈? Y N vmstat ps lsps svmon iostat lslv filemon fileplace 内存瓶颈? I/O瓶颈? Y N Y N netstat nfsstat nfso no ifconfig netpmon 网络瓶颈? Y N More test
16.1.2 性能分析工具 iostat vmstat sar topas no svmon
iostat 查看系统I/O状态信息
iostat(2) TTY的I/O状态 -tin 每秒从tty那里读取的字符数 -tout 每秒写到tty那里的字符数 (其中tty设备包括真实(real)和虚拟 (pseudo)的tty)
iostat(3) CPU的使用状态 -% user,表示平均用户占用时间 -% sys,表示系统花费CPU时间 -% idle,表示CPU空闲时间 -% iowait,表示CPU等待I/O所花费时间
iostat(4) 分析: 如果%idle数值都很高而且%iowait数值也很高,大于25,这个说明系统存在I/O或 则硬盘瓶颈 高数值的%iowait有可能下面几个原因: • 内存不够而引起频繁的swap空间的数据交换,导致数据存取存在交换空间的 I/O瓶颈 • 硬盘上面数据不合理的分布 • 数据的fragment不合理
iostat(5) 硬盘使用状态 -% tm_act 表示某个硬盘处于active状态的百分比 -tps 表示每秒某个硬盘有多少个数据传输次数 -Kb_read Kb_wrtn 分别显示从开机到运行iostat这个命令这段时间内对 硬盘的read和write的总数据 量,单位kb
vmstat 查看系统虚拟内存状态信息
vmstat(2) CPU空闲时间百分比 = id % + wa % 算CPU平均一分钟空闲多少时间 • (99+92+95+86+7+96)÷100÷5×60=56.16(秒)
vmstat(3) kthr 参数 -r 等待CPU运行的队列个数 若r 数值偏大,表明CPU太忙 -b 等待I/O操作的阻塞队列个数 若b 数值偏大,表明系统I/O出现瓶颈
vmstat(4) CPU 瓶颈 如果sy 和us参数的数值加起来接近100,表示系统CPU使用率太高,同时也会看到r 的数值也大于1 内存瓶颈 内存不足,换页将变得频繁,这时pi(page-in )和po(page-out ) 参数将不是0,同时avm 和fre 数值的比值悬殊很大,fre 数值很小.
sar 查看系统活动状态信息 查看系统所有活动状态信息
topas 哪个进程使用CPU最多
no 显示某个内核参数 修改某个内核参数 no 命令用来修改内核参数,调整系统性能
svmon svmon 命令用来查看系统当前的内存的具体使用 通过不同的选项参数,可以查看某个命令、进程、用户等使用内存的具体状态
16.2.1 系统诊断工具 errpt diag
errpt 命令 每个管理员例行查错命令
errpt 常用选项 列出错误日志的详细信息 # errpt –a 显示具体某个错误项的详细信息 # errpt -a -j E18E984F
diag 命令(2) • 强大功能的用来检测硬件问题 简捷的菜单界面
Telnet问题诊断 如果网络上的客户端可以ping通服务器,但是telnet不成功,显示拒绝连接的消息,有可能原因是: • inetd进程没有启动;用startsrc –s inetd命令启动 • 换页空间不足;用chps -s命令添加空间 如果telnet时候要等很久才有响应,可能原因是/、/tmp或/var文件系统空间不够,用df 命令查看
16.2.2 测试题(1) 1、当要从CD-ROM安装系统时,系统进入了diagnostics 模式,查看发觉所有设备都连接正确,可能是下面哪个原因? • The battery on the machine is bad • The root volume group is corrupt • The low-level debugger is not enabled • A hardware problem with the CD-ROM
测试题(2) 2、新的磁带机线路连接是正确的,但是要用这个磁带机进行备份恢复时,it fails。这种情况,要诊断问题,第一步要做是哪个? • Replace the tape drive • Run cfgmgr to reconfigure the tape device • Check the error log for tape drive errors • Use SMIT to change the compression attribute on the tape device
测试题(3) 3、A user is able to get a login prompt for the server but gets a failed login error message when trying to login with an ID. Which of the following is the most likely cause of this problem? • The hard drive is bad • The /home file system is full • The server is low on paging space • User has entered an invalid ID or password
测试题(4) 4、what is the average CPU idle time as a percentage? • 45.5 • 75.3 • 44.04 • 73.4
测试题(5) 5、What can be concluded from this output? • The machine is CPU bound • The machine needs memory optimized • The machine needs a FDDI card installed • A user program is causing unnecessary paging
测试题(6) 答案 1、D 2、C 3、D 4、D 5、A