查询示例

简单时间序列选择

返回所有指标为 http_requests_total 的时间序列

http_requests_total

返回所有指标为 http_requests_total 且具有给定 jobhandler 标签的时间序列

http_requests_total{job="apiserver", handler="/api/comments"}

为相同的向量返回整个时间范围(在本例中为查询时间之前的 5 分钟),使其成为一个范围向量

http_requests_total{job="apiserver", handler="/api/comments"}[5m]

请注意,生成范围向量的表达式不能直接绘制成图表,但可以在表达式浏览器的表格(“控制台”)视图中查看。

使用正则表达式,您可以仅选择名称与特定模式匹配的作业的时间序列,在本例中,所有以 server 结尾的作业

http_requests_total{job=~".*server"}

要选择除 4xx 之外的所有 HTTP 状态代码,您可以运行

http_requests_total{status!~"4.."}

子查询

返回过去 30 分钟内,以 1 分钟分辨率计算的 http_requests_total 指标的 5 分钟速率

rate(http_requests_total[5m])[30m:1m]

这是一个嵌套子查询的示例。deriv 函数的子查询使用默认分辨率。请注意,不必要地使用子查询是不明智的。

max_over_time(deriv(rate(distance_covered_total[5s])[30s:5s])[10m:])

使用函数、运算符等

返回所有指标名称为 http_requests_total 的时间序列的每秒速率,该速率是在过去 5 分钟内测量的

rate(http_requests_total[5m])

假设 http_requests_total 时间序列都具有标签 job(按作业名称扇出)和 instance(按作业实例扇出),我们可能希望对所有实例的速率求和,以便我们获得更少的时间序列输出,但仍然保留 job 维度

sum by (job) (
  rate(http_requests_total[5m])
)

如果我们有两个具有相同维度标签的不同指标,我们可以对它们应用二元运算符,并且两侧具有相同标签集的元素将被匹配并传播到输出。 例如,此表达式返回每个实例的未使用内存(以 MiB 为单位)(在虚构的集群调度器上公开有关它运行的实例的这些指标)

(instance_memory_limit_bytes - instance_memory_usage_bytes) / 1024 / 1024

相同的表达式,但按应用程序求和,可以这样编写

sum by (app, proc) (
  instance_memory_limit_bytes - instance_memory_usage_bytes
) / 1024 / 1024

如果同一虚构的集群调度器公开了每个实例的 CPU 使用率指标,如下所示

instance_cpu_time_ns{app="lion", proc="web", rev="34d0f99", env="prod", job="cluster-manager"}
instance_cpu_time_ns{app="elephant", proc="worker", rev="34d0f99", env="prod", job="cluster-manager"}
instance_cpu_time_ns{app="turtle", proc="api", rev="4d3a513", env="prod", job="cluster-manager"}
instance_cpu_time_ns{app="fox", proc="widget", rev="4d3a513", env="prod", job="cluster-manager"}
...

...我们可以像这样获取按应用程序 (app) 和进程类型 (proc) 分组的前 3 个 CPU 用户

topk(3, sum by (app, proc) (rate(instance_cpu_time_ns[5m])))

假设此指标每个正在运行的实例包含一个时间序列,您可以像这样计算每个应用程序正在运行的实例数

count by (app) (instance_cpu_time_ns)

如果我们正在探索一些指标的标签,例如能够对其中一些标签进行聚合,我们可以使用以下方法

limitk(10, app_foo_metric_bar)

或者,如果我们希望返回的时间序列被更均匀地采样,我们可以使用以下方法来获得大约 10% 的时间序列

limit_ratio(0.1, app_foo_metric_bar)

本文档是开源的。请通过提交问题或拉取请求来帮助改进它。