控制台和仪表板

人们很容易想在仪表板上显示尽可能多的数据,特别是当像 Prometheus 这样的系统提供了对应用程序进行如此丰富的仪表化能力时。但这可能导致控制台因信息过多而变得难以理解,即使是系统专家也很难从中获取有意义的信息。

对于运营控制台,与其试图呈现您拥有的所有数据,不如思考最可能出现的故障模式,以及如何使用控制台来区分它们。利用您服务的结构。例如,如果您在在线服务系统中有一个庞大的服务树,某个底层服务的延迟是一个典型问题。与其在单个大型仪表板上显示每个服务的信息,不如为每个服务构建单独的仪表板,其中包括其所依赖的每个服务的延迟和错误。这样,您就可以从顶层开始,逐步向下排查到有问题的服务。

我们发现以下准则非常有效

  • 一个控制台上不要超过 5 个图表。
  • 每个图表上不要超过 5 条曲线(线)。如果是堆叠/面积图,可以多一些。
  • 使用提供的控制台模板示例时,右侧表格中的条目避免超过 20-30 个。

如果您发现自己超出了这些限制,那么降低不太重要信息的可见性可能是明智之举,甚至可以将某些子系统拆分到新的控制台中。例如,您可以绘制聚合数据而非细分数据,将其移动到右侧表格中,或者如果数据很少有用,甚至可以完全删除它——您随时可以在表达式浏览器中查看!

最后,一套控制台很难服务于多个主要目标。您在值班时想知道的(哪里出问题了?)往往与您在开发功能时想知道的(有多少人遇到了极端情况 X?)非常不同。在这种情况下,两套独立的控制台可能很有用。

本页内容