控制台和仪表板

当系统(如 Prometheus)提供了如此丰富的应用程序仪表盘功能时,很容易陷入显示尽可能多数据的诱惑。这可能会导致控制台因信息过多而难以理解,即使是系统专家也难以从中得出有意义的结论。

与其试图表示所有数据,不如为操作控制台考虑最可能的故障模式,以及如何使用控制台来区分它们。利用服务的结构。例如,如果您在一个在线服务系统中拥有一个庞大的服务树,那么较低服务的延迟是一个典型问题。与其在一个大型仪表板上显示每个服务的信息,不如为每个服务构建单独的仪表板,其中包含每个服务与其通信的服务之间的延迟和错误。然后,您可以从顶部开始,向下追溯到有问题服务的具体位置。

我们发现以下指南非常有效:

  • 每个控制台最多包含 5 个图表。
  • 每个图表最多包含 5 条绘图线。如果是堆积面积图,则可以容纳更多。
  • 使用提供的控制台模板示例时,避免在右侧表格中包含超过 20-30 个条目。

如果您发现自己超出了这些限制,则可能需要降低不太重要信息的可见性,或者将某些子系统拆分到新的控制台中。例如,您可以绘制聚合数据而不是细分数据,将其移至右侧表格,甚至删除很少使用的数据——您始终可以在 表达式浏览器 中查看它!

最后,一套控制台很难服务于多个主人。您在值班时想知道的(什么出错了?)通常与您在开发功能时想知道的(有多少人遇到了某个角落情况 X?)非常不同。在这种情况下,两套独立的控制台可能很有用。

本页内容