构建立体化的运维监控体系

2017-10-10 08:05:00 58集团 龚诚 CIO之家

随着互联网产品规模的爆发式增长,大型分布式系统的监控复杂性也日益显现。工程师们发现:监控遗漏导致宕机的黑天鹅现象频繁发生;出现故障时很难从海量监控指标中迅速找到故障根因;报警风暴极大地干扰了工程师定位问题的速度;故障恢复速度基本依赖于工程师的操作速度。


由此,我们尝试建立一个智能运维监控系统,希望用智能化的手段去帮助工程师解决这些问题。我们的监控工作其实可以划分为四个阶段:第一阶段,如何快速获得监控收益,最开始的时候监控的情况不是很好,所以要快速的实现基本的监控功能;第二阶段,构建立体化的监控体系,各个端、各个层面的监控都要比较完整和完善;第三阶段,提升监控系统用户体验,基本的功能都有了,怎么能让大家用的更爽呢,就是要提升用户体验;第四阶段,智能化监控和发送告警。




龚诚

现任职于58集团,技术工程平台群,高级技术经理;

• 硕士毕业于哈尔滨工业大学,计算机应用专业;

• 曾任职于百度、新浪微博等公司;

• 负责运维及自动化团队的技术和管理工作;

• 在网站的稳定性建设、网站优化等方面有丰富的经验。


延伸阅读

文档推荐 (输入数字编号即可查看)

  • 基于zabbix的大规监控实践 模(NO.414779112 )

  • 智能运维安全监控引擎实践 (NO.221861488)

  • 唯品会数据库监控体系建设之路 (NO.422135158 )

  • 小米监控实践之路 (NO.414779112 )

  • 混合云架构设计及性能监控 (NO.21407173 )

  • 微服务架构的应用性能监控 (NO.414731158 )

昨日热文


Tip:输入关键字 IT运维 或 自动化运维 可以获得更多内容

CIO之家-CIO的知识库

  • 微信号:imciow 网站: www.ciozj.com

  • CIO必备公众号 | CIO最有影响力公众号之一

点击下方“阅读原文”每天都有精彩发现