监控的方法与核心
1 了解监控的对象 | 我们要监控的对象你是否了解呢?比如CPU到底是如何工作的? | |
2 性能基准指标 | 我们要监控这个东西的什么属性?比如CPU的使用率、负载、用户态、内核态、上下文切换。 | |
监控的方法 | 3 报警阀值定义 | 怎么样才算是故障,要报警呢?比如CPU的负载到底多少算高,用户态、内核态分别跑多少算高? |
4 故障处理流程 | 收到了故障报警,我们怎么处理呢?有什么更高效的处理流程吗? | |
1 发现问题 | 当系统发生故障报警,我们会收到故障报警的信息。 | |
监控的核心 | 2 定位问题 | 故障邮件一般都会写某某主机故障、具体故障的内容,我们需要对报警内容进行分析 |
3 解决问题 | 当然我们了解到故障的原因后,就需要通过故障解决的优先级去解决该故障 | |
4 总结问题 | 当我们解决完重大故障后,需要对故障原因以及防范进行总结归纳,避免以后重复出现。 |
站长好人