运维四个关键指标

目录

告警事件数量:要么是基础设施有故障,要么是监控工具配置错误需要调整。通过告警,知道能做什么操作,而不是大量时间来关闭冗余报警? 可以通过周报/日报进行数据的性能分析来指导优化我们的工作,而不是仅仅是告警。

平均解决时间( MTTR ):规范化的操作手册、自动化的基础设施管理、可靠的告警升级策略都有助于减少事件,和提升 MTTR。平均解决事件需要和上面告警数量一样,需要记录和统计分析,

平均响应时间( MTTA ):可以理解为告警越快发现,越快有人响应,就能够越快的解决。 一般是从职责责任制、协调机制、工作进程透明、工作量和时间可衡量进行提升 MTTA 。

事件管理:建立起有效的一线、二线、甚至三线响应机制,告警及时通知到一线,如果一线没有及时处理,可以自动升级至二线运维,保障每一个重要事件能够得到及时响应和处理。 你可能有一个 NOC,一线支持团队或者自动修复工具,可根据内容来升级或分诊输入事件。 类似SaaS云告警平台有几个,大家可以参考下:国外的 PagerDuty , VictorOps , OpsGenie ,国内 OneAlert 。

三伏磨就是基本是已这个4个指标作为运维服务的基准。

https://wd-jishu.oss-cn-hangzhou.aliyuncs.com/wd/2019/11/运维四个关键指标-三伏磨.png@!full

随机文章