运维四个关键指标

告警事件数量:要么是基础设施有故障,要么是监控工具配置错误需要调整。通过告警,知道能做什么操作,而不是大量时间来关闭冗余报警? 可以通过周报/日报进行数据的性能分析来指导优化我们的工作,而不是仅仅是告警。

平均解决时间( MTTR ):规范化的操作手册、自动化的基础设施管理、可靠的告警升级策略都有助于减少事件,和提升 MTTR。平均解决事件需要和上面告警数量一样,需要记录和统计分析,

平均响应时间( MTTA ):可以理解为告警越快发现,越快有人响应,就能够越快的解决。
一般是从职责责任制、协调机制、工作进程透明、工作量和时间可衡量进行提升 MTTA 。

事件管理:建立起有效的一线、二线、甚至三线响应机制,告警及时通知到一线,如果一线没有及时处理,可以自动升级至二线运维,保障每一个重要事件能够得到及时响应和处理。
你可能有一个 NOC,一线支持团队或者自动修复工具,可根据内容来升级或分诊输入事件。
类似SaaS云告警平台有几个,大家可以参考下:国外的 PagerDuty , VictorOps , OpsGenie ,国内 OneAlert 。

三伏磨就是基本是已这个4个指标作为运维服务的基准。

三伏磨.png@!full" alt="" width="757" height="556" srcset="https://wd-jishu.oss-cn-hangzhou.aliyuncs.com/wd/2019/11/运维四个关键指标-三伏磨.png@!full 757w, https://wd-jishu.oss-cn-hangzhou.aliyuncs.com/wd/2019/11/运维四个关键指标-三伏磨.png?x-oss-process=image/resize,m_fill,h_441,w_600@!full 600w, https://wd-jishu.oss-cn-hangzhou.aliyuncs.com/wd/2019/11/运维四个关键指标-三伏磨.png@!medium 300w" sizes="(max-width: 757px) 100vw, 757px" />

 

 

赞(2) 打赏
特别声明:除特殊标注,本站文章均为原创,遵循CC BY-NC 3.0,转载请注明出处。三伏磨 » 运维四个关键指标

评论 抢沙发

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

微信扫一扫打赏