运维四个关键指标
目录
告警事件数量:要么是基础设施有故障,要么是监控工具配置错误需要调整。通过告警,知道能做什么操作,而不是大量时间来关闭冗余报警? 可以通过周报/日报进行数据的性能分析来指导优化我们的工作,而不是仅仅是告警。
平均解决时间( MTTR ):规范化的操作手册、自动化的基础设施管理、可靠的告警升级策略都有助于减少事件,和提升 MTTR。平均解决事件需要和上面告警数量一样,需要记录和统计分析,
平均响应时间( MTTA ):可以理解为告警越快发现,越快有人响应,就能够越快的解决。 一般是从职责责任制、协调机制、工作进程透明、工作量和时间可衡量进行提升 MTTA 。
事件管理:建立起有效的一线、二线、甚至三线响应机制,告警及时通知到一线,如果一线没有及时处理,可以自动升级至二线运维,保障每一个重要事件能够得到及时响应和处理。 你可能有一个 NOC,一线支持团队或者自动修复工具,可根据内容来升级或分诊输入事件。 类似SaaS云告警平台有几个,大家可以参考下:国外的 PagerDuty , VictorOps , OpsGenie ,国内 OneAlert 。
三伏磨就是基本是已这个4个指标作为运维服务的基准。