子查询支持

2019年1月28日作者 Ganesh Vernekar

简介

顾名思义，子查询是查询的一部分，它允许您在查询中进行范围查询，这在以前是不可能实现的。这是一个长期以来的功能请求：prometheus/prometheus/1227。

子查询支持的拉取请求最近已合并到 Prometheus 中，并将在 Prometheus 2.7 版本中提供。下面让我们了解更多相关信息。

动机

有时，您可能希望使用较低分辨率/范围（例如 5m）的 rate 函数来发现问题，同时又将这些数据聚合到更高范围（例如 1h 的 max_over_time）。

以前，上述操作无法通过单个 PromQL 查询实现。如果您想为您的告警规则或图表绘制对查询进行范围选择，您需要基于该查询创建一条记录规则（recording rule），然后对该记录规则创建的指标执行范围选择。例如：max_over_time(rate(my_counter_total[5m])[1h])。

当您想要快速获取跨越数天或数周的数据结果时，可能需要等待相当长的时间，直到您的记录规则中积累了足够的数据才能使用。忘记添加记录规则可能会令人沮丧。而且为查询的每一步都创建记录规则会很繁琐。

有了子查询支持，所有等待和沮丧都将不复存在。

子查询

子查询类似于 /api/v1/query_range API 调用，但它嵌入在即时查询中。子查询的结果是一个范围向量。

Prometheus 团队在慕尼黑举行的 2018 年 Prometheus 开发者峰会上就子查询的语法达成了一致。这些是峰会关于子查询支持的笔记，以及用于实现子查询支持的语法设计文档。

<instant_query> '[' <range> ':' [ <resolution> ] ']' [ offset <duration> ]

<instant_query> 等同于 /query_range API 中的 query 字段。
<range> 和 offset <duration> 类似于范围选择器。
<resolution> 是可选的，它等同于 /query_range API 中的 step。

当未指定分辨率时，全局评估间隔将作为子查询的默认分辨率。此外，子查询的步长是独立对齐的，不依赖于父查询的评估时间。

示例

min_over_time 函数内部的子查询返回 http_requests_total 指标在过去 30 分钟内以 1 分钟分辨率计算的 5 分钟速率。这等同于一个 /query_range API 调用，其参数为 query=rate(http_requests_total[5m]), end=<now>, start=<now>-30m, step=1m，并取所有接收到的值的最小值。

min_over_time( rate(http_requests_total[5m])[30m:1m] )

解析

rate(http_requests_total[5m])[30m:1m] 是子查询，其中 rate(http_requests_total[5m]) 是要执行的查询。
rate(http_requests_total[5m]) 将从 start=<now>-30m 到 end=<now>，以 1m 的分辨率执行。请注意，start 时间是独立于 1m 步长对齐的（对齐后的步长为 0m 1m 2m 3m ...）。
最后，所有上述评估的结果都将传递给 min_over_time()。

下面是一个嵌套子查询的示例，以及默认分辨率的使用。最内层的子查询获取 distance_covered_meters_total 在一段时间范围内的速率。我们使用该结果再次在一段时间范围内获取这些速率的 deriv()。最后取所有导数的最大值。请注意，最内层子查询的 <now> 时间是相对于外部 deriv() 子查询的评估时间而言的。

max_over_time( deriv( rate(distance_covered_meters_total[1m])[5m:1m] )[10m:] )

在大多数情况下，您会需要默认的评估间隔，即规则默认评估的间隔。自定义分辨率在您希望计算频率更低/更高的情况下会很有用，例如，您可能希望不那么频繁地计算昂贵的查询。

结语

尽管子查询在替代记录规则时非常方便，但不必要地使用它们会对性能产生影响。为了提高效率，繁重的子查询最终应转换为记录规则。

也不建议在记录规则中使用子查询。如果您确实需要在记录规则中使用子查询，请创建更多的记录规则。