背景知识

服务器分类-按处理器架构:

1240

PC服务器(x86服务器)

1240

基于Intel处理器的x86架构,通用开发的处理器架构。x86系统最早起源于8086芯片组,而芯片组的主处理器是由Intel和AMD所制造。

小型机

1240

小型机是指采用8-32颗处理器,超过32GB的海量内存容量,性能和价格介于PC服务器和大型主机之间的一种高性能 64 位计算机。在服务器市场中小型机处于中高端位置。习惯上用来指UNIX服务器,所以可见小型机的操作系统多是Unix系的操作系统。

大型机

1240

大型机(Mainframe)的功能、价格以及性能上都在小型机和x86服务器之上,是一种用于大规模计算的计算机系统。大型机通常用于政府、银行、交通、保险公司和大型制造企业。

在往期的文章中我们分享了如何管理X86服务器,本期我们以中国银行某分行运维监控项目为例,介绍如何从多角度管理IBM Power小型机。

入门篇

操作系统

行业内常用的监控方式主要有SNMP 、SSH、telnet、Agent代理。SNMP配置复杂度3星,能获取的性能指标很有限(CPU/内存/系统分区)。telnet方式配置复杂度1星,通信明文传输,安全性极低。SSH方式配置复杂度1星,协议本身传输内容密匙加密,同时产品对用户密码信息MD5/SHA双重加密,安全性更可靠。SSH监控方式,除了能采集CPU利用率、内存利用率、磁盘利用率这些常用指标外,还能深入检查系统进程资源开销,进程可用性、网络端口流量、文件一致性。

1240

1240

1240

1240

“相对于我以前使用的国外大厂的监控产品,让我头疼的Agent软件部署工作也省去了,现在我只用输入一个普通账号就能快速完成系统监控;MD5方式监测系统核心文件是否有被篡改,这是我以前手工才能完成的工作,而它也帮我实现了!”这是用户最直观的感受。

进阶篇

HMC监控

IBM硬件管理控制台(Hardware Management Console)提供了标准的用户接口来配置和管理Power System系列服务器以及服务器上的分区。系统管理员通过HMC对Power System服务器上的分区进行配置和日常管理。

基于HMC技术对小型机LPAR分区监控效果:

1240

逻辑分区实时显示在线情况与资源状态

1240

相对繁琐的命令行操作,图形化显示分区情况更加清晰和直观,配合灵活的指标阈值告警策略,LPAR分区资源实时动态一览无余。

专业篇

硬件日志

对服务器的系统日志监控,多数运维厂商基本都偏向于Syslog的信息分析,优点是容易实施。而在AIX平台上面硬件故障是无法体现在Syslog中,所以这个时候使用常规的syslog日志监控手段已经失去意义。

ERRPT命令专门用AIX下面的监控服务器硬件损坏的错误日志查看命令。一旦系统的某个功能模块检测到一个错误或定义的需要记录日志的事件,则记录到/dev/error设备,把它保存在NVRAM中,这样可以保证即使在系统崩溃的情况下也不会丢失最新的错误日志。

虽然ERRPT好处多多,但其有一个不太灵活的弊端:用more或者其他文本的查看命令来打开errlog文件我们看到的只是一对乱码,要查阅故障信息只能通过ERRPT来实时查看。那么,如何才能实现当ERRPT有告警信息能及时通知到运维管理员呢?

在此分享一下OneCenter功能实现的思路:

1. 第一次获取errpt日志,存放本地文件【Aix_curr.log】;

2. 第二次获取epprt日志【Aix_aft.log】,与第一次文件对比;

3. 若前后两次文件对比结果不同,将新增差异数据放本地文件AIX_ERR.LOG,同时将最后一次获取的ERRPT全文内容给【Aix_aft.log】,作为下一次对比基准;

4. 循环调度,3分钟一次文件对比;

6. 运维系统获取告警关键词产生告警。

实例代码:

1240

平台告警:

1240

上图为磁盘故障时系统发送的硬件告警事件信息

1240

至此,基于操作系统与硬件两方面,应该说已能较为全面的对小型机进行主动的运维管理。即使不能让作为运维者的你高枕无忧,至少可以让你睡的更安稳。