飞行照

首页 » 常识 » 诊断 » 系统设计指标监控和告警系统
TUhjnbcbe - 2025/6/6 17:26:00

在本文中,我们将探讨如何设计一个可扩展的指标监控和告警系统。一个好的监控和告警系统,对基础设施的可观察性,高可用性,可靠性方面发挥着关键作用。

下图显示了市面上一些流行的指标监控和告警服务。

接下来,我们会设计一个类似的服务,可以供大公司内部使用。

设计要求

从一个小明去面试的故事开始。

面试官:如果让你设计一个指标监控和告警系统,你会怎么做?

小明:好的,这个系统是为公司内部使用的,还是设计像Datadog这种SaaS服务?

面试官:很好的问题,目前这个系统只是公司内部使用。

小明:我们想收集哪些指标信息?

面试官:包括操作系统的指标信息,中间件的指标,以及运行的应用服务的qps这些指标。

小明:我们用这个系统监控的基础设施的规模是多大的?

面试官:1亿日活跃用户,个服务器池,每个池台机器。

小明:指标数据要保存多长时间呢?

面试官:我们想保留一年。

小明:好吧,为了较长时间的存储,可以降低指标数据的分辨率吗?

面试官:很好的问题,对于最新的数据,会保存7天,7天之后可以降低到1分钟的分辨率,而到30天之后,可以按照1小时的分辨率做进一步的汇总。

小明:支持的告警渠道有哪些?

面试官:邮件,电钉钉,企业

1
查看完整版本: 系统设计指标监控和告警系统