摘 要:随着高校信息化建设持续深入,日益严峻的it运维管理难题已成为高校信息化建设的拦路虎。使用nagios和cacti开源软件构建了it运维管理系统平台,具有成本低、覆盖广、可视化和响应快等优势,提高了高校it服务的整体效率和服务水平,用户的体验也大大提升。
关键词: it运维管理;nagios;cacti
中图分类号:g642 文献标识码:a 文章编号:1673-9795(2013)06(b)-0000-00
it技术迅猛发展改变了信息的获取、处理和传播方式,高校的教学、科研、管理和对外交流等业务对it系统的依赖越来越高。随着高校信息化建设持续深入,其网络规模不断扩大、网络结构日益复杂与网络应用业务日新月异,必然要考虑到it系统的稳定性、可靠性与安全性等问题。
高校的it系统管理面临着以下问题:监控不同的网络设备和业务系统可能需要购买几种监控软件,导致监控软件整体成本较高。这些监控软件各自为政,相互独立,导致监控覆盖面断裂,没有对整个it系统的进行统一监控。由于没有it系统管理范围整体可视化监控界面,it系统管理员很难直接判定问题是出在基础网络、系统服务器、数据库还是应用系统自身,不便于故障的追根溯源。故障难以定位将直接导致业务恢复时间的推迟,影响业务系统的正常运行,大大降低服务质量,用户体验较差。日益严峻的it运维管
理难题成为高校信息化建设的拦路虎,建立统一的it运维管理系统平台迫在眉睫。
1 it运维管理系统的选择
it运维管理的概念是从传统的网络管理延伸而来的。it运维管理是指单位 it 部门采用相关的方法、手段、技术、制度、流程和文档等,对it 运行环境(如硬软件环境、网络环境等)、it 业务系统和 it 运维人员进行的综合管理。it运维管理其实对底层it基础设施、应用服务和业务服务的综合管理。其中主要包括:主机管理、网络设备管理、应用服务管理、机房环境管理、it 运维人员权限管理和各类故障预警告警。
近年来,it运维管理系统主要是在hp openview、ibm tivoli、ca unicenter和 bmc patrol这四家商业软件的推动之下成长和演变的。但四大商业软件的成本较高且难以定制,开源软件作为一种替代性选择开始得到越来越多的关注。最终用户不光可以免费使用,还可以根据it系统实际配置灵活自由的对软件进行定制,并且可以通过开源软件社区获得技术支持。
nagios是一个监控系统运行状态和网络信息的开源监控系统。nagios所有的监控是由插件(nagios plugins)完成的,插件将监控的结果返回给nagios,nagios分析这些结果,同时提供相应的报警功能(由插件完成的)。在http://www.nagios.org/上可以下载到nagios xi和 nagios plugins 1.4.16。
cacti 是一款界面非常友好的开源软件,是基于php、mysql、snmp
及rrdtool开发的网络流量监测图形分析工具。通过snmpget来获取数据,使用 rrdtool绘画图形,以web方式很直观的查看主机的性能负载,磁盘利用率等情况。 2 开源it运维管理系统平台的构建
nagios比较注重于主机、网络、应用和机房的监控,并且报警功能也很强大,其监控与报警功能均由插件完成,nagios plugins 1.4.16中包含官方提供的50个naigos插件,在http://exchange.nagios.org/网站上面还有427个类别3810个扩展插件。如果所要监控的设备或应用比较特殊,也可编写自己的插件,只要自定义的插件符合脚本输出原则与状态代码原则就可以被nagios支持。但nagios对像流量这样的持续数据的展现能力却比较弱,而这方面是cacti的强项,cacti比较着重于直观数据的监控,易于生成图形,很容易得到一段时间内某项数据指标的变化趋势(比如网络流量的增长趋势、服务器负载的趋势等)。利用npc(nagios plugin for cacti)插件把两者结合起来,既可以使报警机制高效及时,又可以得到可视化的运维管理图并很容易的查看各项数据的情况。本文构建的it开源运维管理系统是由nagios和cacti两大部分利用其各自的优势互补组成的。
其中使用nagios监控主机资源(windows、unix、linux等操作系统的cpu的利用率,磁盘读写速率,内存占用率,文件系统的利用率,重要的进程的启动、停止和状态改变情况,主机的系统日志等);监控网络设备(路由器、交换机、防火墙、负载均衡、语音
设备、存储和入侵检测系统等设备可用性、设备性能、流量等指标);监控应用服务(web、dns、文件服务、邮件系统、数据库、以及各种erp,crm系统等可用性、系统资源占用和性能指标的管理等);监控机房环境(机房的温度、湿度,ups电压电量,精密空调工作状态等),并可以对各监控项目设定多个预警报警阈值,利用电子邮件、手机短信、预录语音和即时通讯等方式对不同权限的it系统管理员进行即时报警,精确定位故障点,迅速完成故障诊断,实施有效的故障解决方案,实现降低系统故障率,为用户提供良好的体验。利用cacti的weathermap插件以图形化地图的方式直观地显示网络链路的带宽和负载状况。cacti也提供了非常强大的用户管理功能,与ldap结合进行用户验证,可以指定每一个用户能查看的树状结构、host以及任何一张图。 3 结语
利用开源的 cacti 和 nagios 软件,成功搭建了it运维管理系统平台,实现了对主机、网络设备、应用业务、机房环境的运行状态实时监控,并实现了系统管理员权限的管理和多途径的即时报警功能。此it运维管理系统平台使用开源软件大幅减少了建设成本,覆盖全部it设备和应用服务,可视化的运维管理图可精确定位故障点,即时报警使得系统管理员快速响应,可迅速完成故障诊断,并实施有效的故障解决方案。系统管理员由原来的救火队员变为保健医生,同时提高了高校it服务的整体效率和服务水平,用户的体验也将大大提升。
参考文献:
[1]何海涛.数字校园亟需建立it运维管理体系[j].中国教育网络,2007(8):58-60.
[2]张四海,张万光. 高校it运维服务面临的挑战与机遇[j].中山大学学报(自然科学版),2009(s1):235-237.
因篇幅问题不能全部显示,请点此查看更多更全内容