查询示例
简单时间序列选择
返回指标为 http_requests_total 的所有时间序列
http_requests_total
返回指标为 http_requests_total 且具有给定 job 和 handler 标签的所有时间序列
http_requests_total{job="apiserver", handler="/api/comments"}
返回相同向量的整个时间范围(此处为从查询时间开始的 5 分钟),使其成为一个范围向量
http_requests_total{job="apiserver", handler="/api/comments"}[5m]
请注意,直接生成范围向量的表达式无法直接以图形方式显示,但可以在表达式浏览器的表格(“控制台”)视图中查看。
使用正则表达式,您可以仅选择名称匹配特定模式的作业的时间序列,在此情况下,匹配所有以 server 结尾的作业。
http_requests_total{job=~".*server"}
要选择所有 HTTP 状态码,但排除 4xx 码,可以运行
http_requests_total{status!~"4.."}
子查询
返回过去 30 分钟内 http_requests_total 指标每分钟的速率,分辨率为 1 分钟。
rate(http_requests_total[5m])[30m:1m]
这是一个嵌套子查询的示例。deriv 函数的子查询使用默认分辨率。请注意,不必要地使用子查询是不明智的。
max_over_time(deriv(rate(distance_covered_total[5s])[30s:5s])[10m:])
使用函数、运算符等
返回过去 5 分钟内,所有具有 http_requests_total 指标名称的时间序列的每秒速率。
rate(http_requests_total[5m])
假设 http_requests_total 时间序列都具有 job (按作业名称扇出) 和 instance (按作业实例扇出) 标签,我们可能希望对所有实例的速率求和,这样可以得到更少输出时间序列,但仍保留 job 维度。
sum by (job) (
rate(http_requests_total[5m])
)
如果我们有两个具有相同维度标签的不同指标,我们可以对它们应用二进制运算符,并且两侧具有相同标签集的元素将被匹配并传播到输出。例如,此表达式返回每个实例未使用的内存 (以 MiB 为单位) (在一个虚构的集群调度器上公开了关于它运行的实例的这些指标)。
(instance_memory_limit_bytes - instance_memory_usage_bytes) / 1024 / 1024
相同的表达式,但按应用程序求和,可以这样写:
sum by (app, proc) (
instance_memory_limit_bytes - instance_memory_usage_bytes
) / 1024 / 1024
如果同一个虚构的集群调度器公开了每个实例的 CPU 使用率指标,如下所示:
instance_cpu_time_ns{app="lion", proc="web", rev="34d0f99", env="prod", job="cluster-manager"}
instance_cpu_time_ns{app="elephant", proc="worker", rev="34d0f99", env="prod", job="cluster-manager"}
instance_cpu_time_ns{app="turtle", proc="api", rev="4d3a513", env="prod", job="cluster-manager"}
instance_cpu_time_ns{app="fox", proc="widget", rev="4d3a513", env="prod", job="cluster-manager"}
...
...我们可以这样获取按应用程序 (app) 和进程类型 (proc) 分组的前 3 个 CPU 使用者。
topk(3, sum by (app, proc) (rate(instance_cpu_time_ns[5m])))
假设此指标包含每个正在运行的实例一个时间序列,您可以这样按应用程序计算正在运行的实例数:
count by (app) (instance_cpu_time_ns)
如果我们正在探索某些指标的标签,例如,以便能够对它们进行聚合,我们可以使用以下方法:
limitk(10, app_foo_metric_bar)
或者,如果我们希望返回的时间序列采样更均匀,我们可以使用以下方法来获取大约 10% 的时间序列:
limit_ratio(0.1, app_foo_metric_bar)