Nagios是一个系统和网络监控软件,它可以监测所指定的主机和服务,并在出现问题以及问题恢复后发出报警。Nagios最早是被设计运行于Linux环境下的,但在大多数Unix操作系统下也可以使用。同时它是一个开源软件,我们可以免费获得它的源码,和使用它。Nagios是个不错的系统监控软件,应用的范围也比较广泛。
本文将介绍Nagios在Solaris10操做系统下的安装过程,其中包括,源码的编译、安装;Apache的安装、Nagios CGI的配置;Nagios监控配置等。
本文参考了Nagios的官方文档和Nagios社区的文章,以及互联网上其他人的相关帖子。
Solaris10下NDOUtils的安装
NDOUtils的主要用途是将Nagios的监控信息记录到后台数据库中,本文件介绍了NDOUtils的安装、配置过程,以Solaris10x86为操作系统,包括MySql的安装、Perl的安装等。
同时也指出了在安装NDOUtils-1.4b7容易出现的错,如Makefile文件中本身存在的错误等等。
本文主要介绍如何通过Nagios软件来监控Weblogic服务运行状况,其中主要包括Weblogic Server以及Weblogic JDBC Pool的运行状态。Nagios的插件中本身并不提供对于Weblogic服务监控的功能,所以要根据Nagios Plugin API编写自己的脚本,扩展其插件,完成我们所需要的功能。对于Weblogic运行状态信息的获得需通过JMX。
本文参考了Nagios3的官方文档中有关Nagios Plugin部分,以及Weblogic官方文档有关JMX和命令行部分,具体的Weblogic版本是8.14。
近期利用手头的空余机器搭建了Oracle物理Data guard用于学习,现将过程与大家分享。
一次服务器被入侵的经历
入侵发生在2009年11月的某一天,当时我正在机房忙碌着为新机器上架做准备,接到同事的电话,说某某服务不能用了,也不能启动了,说什么文件未找到。当时觉得很疑惑,以前没有遇到过类似的问题。
赶紧登录服务器看个究竟,提示root用户密码不对,难道谁把用户密码改了?换一般用户登录,进去了,发现服务进程(java进程)不存在了,home目录的下文件都被删除了,我意识到事情有些不妙了,一定是有人动过这台服务器。
last查看一下历史登录记录,发现有两个外网地址以root登录过,顺手把这两个外网IP ..
NagiosQL是一个基于Web方式的Nagios配置管理工具,它使用PHP语言开发,可运行在Apache下,后台使用Mysql数据库。同时,NagiosQL也是一个开源软件。
如果你使用过Nagios,那么你一定感知到了它的强大监控功能,以及它的可扩展性。然而,它的监控配置信息都存放于文件中,配置和修改都需要手工编辑文件,这样十分不便,尤其当监控的内容增多时,问题就更加明显。NagiosQL就是一款解决此类问题的软件,它提供了可视化的配置环境(基于Web方式)。本文介绍一下该款软件的安装和配置过程。
最近,在Redhat4.8 x86_64上安装了Oracle 10g,在安装过程中遇到了一些问题,尤其令人头疼的 gcc 32位编译器的问题。
现将此期间遇到的问题和解决方法总结一下,与大家分享。
之前有篇文章中介绍了如何通过编写自己的脚本,并通过Nagios监控Weblogic服务。近日在实践中配置该监控,发现了之前脚本中的一些不足,进行了脚本修改。现将脚本共享。
本文将介绍一款日志分割软件cronolog。日志对于每位从事IT技术领域工作的人员来说都是相当重要的,对于系统管理员来说,系统日志、系统服务的日志以及应用软件的日志是他们每天都需要关注的,从日志中可以发现系统存在的问题以及一些危险的征兆等等;对于开发人员来说,应用软件日志、debug日志对于了解系统当时的环境、重演或模拟故障以及分析软件bug都是十分有用的。
然而一些软件本身的日志维护功能却很薄弱。其中最主要的表现就是将所有的信息都写到了同一文件中,而且又没有对其归档。这样给查看和分析日志文件带来很大不便。还有一些软件本身就没有日志功能,仅仅将信息输出到标准输出设备。为了解决这些软件先天上日志功能的不足,我们需要对日志做进一步的处理,具体来说就是分割,将其按我们需要的规格进行分割,以便日后的查看、分析、备份以及归档等。cronolog就是一款在这方面值得推崇的开源软件,本文将介绍该软件的安装以及使用,并列举几个实例。
对于一个网站来说,外部用户能够看到就是该网站的页面。网站页面能否被正常访问,以及显示是否正常势必会成为网站整体水平最直接的外在表现。
那么,如何才能在第一时间检测到网页是否正常,并且给相应的技术人员发出报警来及时解决问题,而不是等接到用户抱怨的电话后才在慌忙中仓促的解决问题呢?解决这个问题的关键就是要在第一时间发现问题,发现那些不能显示的网页或是显示不正常的网页,并及时发出报警。当然我们可以通过人工的方法去监测,但对于一些大型的、复杂的网站来说就不是很合适了,我们可以使用监控软件来解决这个问题。我所使用的就是Nagios软件,它提供的插件(Plugins)中有相应的命令可以完成对网页的监控。
本文介绍在CentOS5.2下安装Oracle10g(10.2)的过程。本文参考了Oracle官方网站上提供的安装手册。Oracle提供的Linux版安装手册没有包括CentOS操作系统,所以参考其中有关Red Hat Enterprise Linux部分的内容进行安装和调试。大致过程相同,只需做略微改动,比如有些软件包的名字不一样等。
本文介绍了实际工作中遇到的一个数据迁移问题的分析、解决、实施的过程。数据迁移工作需要考虑的因素很多,有时环境也很复杂,所以要认真分析和考虑、制定出合适实施方案。本文描述了实际工作中所做的一次数据迁移过程,一次简单的web服务数据(文件)迁移过程,其中包括前期问题的分析,关键点的预判,综合考虑各种可能出现的问题,并提出相应的解决方法或变通做法。指定实施方案,并列明了具体的实现过程。文中所述问题的关键是系统停机时间不能太长,尤其是在工作时间绝对不能停机,针对这个要求我们采用增量拷贝的方法巧妙的缩短了系统停机时间。
本文介绍了我在使用Nagios监控系统时遇到的一个具体问题,以及解决过程、方法。在解决这个问题的时候用到了timeperiod。文中介绍了问题的产生、分析以及解决的方法。由于监控的环境复杂、多变,在使用Nagios的过程中会遇到各种特殊的问题、和特殊的需要。不过还好,Nagios的整体设计架构比较强大,大部分的问题都能得以解决。当然如果有时间还是仔细看看Nagios的官方文档,会从中受益匪浅。
由于错误配置了/etc/fstab文件,在系统重启时,无法识别卷标(/other),从而导致无法正常启动。如果在修改/etc/fstab文件后,运行mount -a命令验证一下配置是否正确,则可以避免此类问题。文章给出了该问题的修复方法。
问题的修复方法不仅适用于以上所描述的问题,同样可以处理由于错误修改配置导致系统无法启动的其他问题。问题的解决过程中,重新mount /是比较关键的一步(mount -n -o remount,rw /)。如果没有此步操作,则文件系统处于只读状态,导致不能修改配置文件并保存,修复存在的问题。
Nagios Plugins的check_oracle脚本可以监控Oracle数据库的cache、tns、tablespace等信息,但是通过“--tablespace”选项监控表空间时,我们发现这个脚本不能监控临时表空间。仔细查看该脚本,发现其中的确没有对临时表空间进行处理,现对该脚本做修改,使之能够监控Oracle的临时表空间。本文以Oracle10g作为实验数据库。