Prometheus 3.0 迁移指南

为了履行我们的稳定性承诺,Prometheus 3.0 版本包含了一些不兼容的更改。本文档提供了从 Prometheus 2.x 迁移到 Prometheus 3.0 及更高版本的指南。

标志

  • 以下功能标志已被移除,并已添加到 Prometheus v3 的默认行为中

    • promql-at-modifier
    • promql-negative-offset
    • new-service-discovery-manager
    • expand-external-labels
      • 外部标签值中的环境变量引用 ${var}$var 将根据当前环境变量的值进行替换。
      • 对未定义变量的引用将被替换为空字符串。$ 字符可以通过使用 $$ 进行转义。
    • no-default-scrape-port
      • Prometheus v3 将不再根据指定的协议为抓取目标添加端口。目标现在将按照配置显示在标签中。
      • 如果您依赖于诸如 https://example.com/metricshttp://example.com/metrics 这样的抓取目标,并希望它们显示为 https://example.com/metrics:443http://example.com/metrics:80,请将它们添加到您的目标 URL 中。
    • agent
      • 请改用专用的 --agent CLI 标志。
    • remote-write-receiver
      • 请改用专用的 --web.enable-remote-write-receiver CLI 标志来启用远程写入接收器。
    • auto-gomemlimit
      • Prometheus v3 将自动设置 GOMEMLIMIT 以匹配 Linux 容器内存限制。如果没有容器限制,或者进程在容器外运行,则使用系统内存总量。要禁用此功能,可以使用 --no-auto-gomemlimit
    • auto-gomaxprocs
      • Prometheus v3 将自动设置 GOMAXPROCS 以匹配 Linux 容器 CPU 配额。要禁用此功能,可以使用 --no-auto-gomaxprocs

    如果您继续将这些传递给 --enable-feature,Prometheus v3 将会记录一个警告。

  • 从 v3.9 开始,功能标志 native-histograms 将不再生效。原生直方图现在是一个稳定功能,但抓取它们必须通过 scrape_native_histograms 全局或每个抓取配置选项(v3.8 中添加)来启用。

配置

  • 抓取作业级别的配置选项 scrape_classic_histograms 已重命名为 always_scrape_classic_histograms。如果您使用 scrape_native_histograms 抓取配置选项来摄取原生直方图,并且还希望摄取端点可能暴露的经典直方图(与原生直方图一起),请务必添加此配置或更改您的配置以使用旧名称。
  • remote_write 项目中的 http_config.enable_http2 默认值已更改为 false。在 Prometheus v2 中,远程写入 http 客户端默认使用 http2。为了并行化多个远程写入队列到多个套接字,最好不默认使用 http2。如果您希望为远程写入使用 http2,现在必须在 remote_write 配置部分中设置 http_config.enable_http2: true

PromQL

正则表达式匹配换行符

PromQL 中正则表达式的 . 模式现在匹配换行符。有了这个更改,像 .* 这样的正则表达式将匹配包含 \n 的字符串。这适用于查询和重新标记配置中的匹配器。

例如,以下正则表达式现在可以匹配相应的字符串,而在 Prometheus v2 中这些组合不匹配。- .* 额外匹配 foo\nFoo\nBar - foo.?bar 额外匹配 foo\nbar - foo.+bar 额外匹配 foo\nbar

如果您希望 Prometheus v3 的行为像 v2,您需要通过将所有 . 模式替换为 [^\n] 来更改您的正则表达式,例如 foo[^\n]*

范围选择器和回溯排除与左边界重合的样本

回溯和范围选择器现在是左开右闭(之前是左闭右闭),这使得它们的行为更加一致。此更改会影响范围的左边界或回溯增量与一个或多个样本的时间戳重合的查询。

例如,假设我们正在查询一个时间序列,其中样本的间隔恰好是 1 分钟。在 Prometheus v3 之前,一个 5m 的范围查询通常会返回 5 个样本。但如果查询评估恰好与抓取对齐,它将返回 6 个样本。在 Prometheus v3 中,给定均匀间隔,此类查询将始终返回 5 个样本。

此更改通常会影响子查询,因为它们的评估时间自然是均匀间隔的,并且与步长倍数的缩放时间戳对齐。此外,查询前端通常会将子查询对齐到步长倍数。结合起来,这很容易造成完全的互相对齐,通常是用户未意识到和未预期的,因此新的行为可能会令人惊讶。在 Prometheus v3 之前,此类系统上的 foo[1m:1m] 子查询可能总是返回两个点,可用于速率计算。然而,在 Prometheus v3 中,此类子查询将只返回一个点,这不足以进行速率或增加计算,导致返回“无数据”。

此类查询需要重写以扩展窗口以正确覆盖多个点。在此示例中,foo[2m:1m] 将始终返回两个点,无论查询如何对齐。重写查询的确切形式可能取决于预期结果,并且对于行为已更改的查询没有通用的即插即用替代方案。

测试也可能受到影响。要修复这些,请调整预期的样本数量或扩展范围。

holt_winters 函数已重命名

holt_winters 函数已重命名为 double_exponential_smoothing,现在受 promql-experimental-functions 功能标志保护。如果您想继续使用 holt_winters,您必须同时执行以下两项操作

  • 在查询中将 holt_winters 重命名为 double_exponential_smoothing
  • 在您的 Prometheus CLI 调用中传递 --enable-feature=promql-experimental-functions

抓取协议

Prometheus v3 在抓取时对 Content-Type 标头更加严格。如果被抓取的端点未指定 Content-Type 标头,或标头无法解析或不被识别,Prometheus v2 会默认使用标准的 Prometheus 文本协议。这可能导致抓取数据被错误解析。Prometheus v3 现在将在这种情况下使抓取失败。

如果抓取目标未提供正确的 Content-Type 标头,可以使用 fallback_scrape_protocol 参数指定备用协议。请参阅 Prometheus scrape_config 文档。

这是一个破坏性更改,因为在 Prometheus v2 中可能成功的抓取现在可能会失败,除非指定了此备用协议。

杂项

TSDB 格式和降级

为了准备索引格式的更改,TSDB 格式在 Prometheus v2.55 中已略有更改。因此,Prometheus v3 的 TSDB 只能被 Prometheus v2.55 或更新版本读取。在升级到 v3 时请牢记这一点——您只能降级到 v2.55 或更高版本,而不能更低,否则将丢失您的 TSDB 持久数据。

作为额外的安全措施,您可以选择先升级到 v2.55 并确认 Prometheus 如预期工作,然后再升级到 v3。

TSDB 存储约定

TSDB 兼容的存储现在应该返回与指定选择器匹配的结果。这可能会影响某些第三方实现,最有可能的是实现 remote_read

此约定并未明确强制执行,但可能导致未定义行为。

UTF-8 名称

Prometheus v3 支持指标和标签名称中的 UTF-8。这意味着指标和标签名称在升级后可能会根据端点暴露的内容而更改。此外,以前会被标记为无效的指标和标签名称现在将不再是。

希望保留原始验证行为的用户可以更新他们的 Prometheus yaml 配置以指定旧版验证方案

global:
  metric_name_validation_scheme: legacy

或者在每个抓取的基础上

scrape_configs:
  - job_name: job1
    metric_name_validation_scheme: utf8
  - job_name: job2
    metric_name_validation_scheme: legacy

日志消息格式

Prometheus v3 已采用 log/slog 而不是之前的 go-kit/log。这导致日志消息格式发生变化。旧日志格式的示例是

ts=2024-10-23T22:01:06.074Z caller=main.go:627 level=info msg="No time or size retention was set so using the default time retention" duration=15d
ts=2024-10-23T22:01:06.074Z caller=main.go:671 level=info msg="Starting Prometheus Server" mode=server version="(version=, branch=, revision=91d80252c3e528728b0f88d254dd720f6be07cb8-modified)"
ts=2024-10-23T22:01:06.074Z caller=main.go:676 level=info build_context="(go=go1.23.0, platform=linux/amd64, user=, date=, tags=unknown)"
ts=2024-10-23T22:01:06.074Z caller=main.go:677 level=info host_details="(Linux 5.15.0-124-generic #134-Ubuntu SMP Fri Sep 27 20:20:17 UTC 2024 x86_64 gigafips (none))"

新日志格式中类似的序列如下所示

time=2024-10-24T00:03:07.542+02:00 level=INFO source=/home/user/go/src/github.com/prometheus/prometheus/cmd/prometheus/main.go:640 msg="No time or size retention was set so using the default time retention" duration=15d
time=2024-10-24T00:03:07.542+02:00 level=INFO source=/home/user/go/src/github.com/prometheus/prometheus/cmd/prometheus/main.go:681 msg="Starting Prometheus Server" mode=server version="(version=, branch=, revision=7c7116fea8343795cae6da42960cacd0207a2af8)"
time=2024-10-24T00:03:07.542+02:00 level=INFO source=/home/user/go/src/github.com/prometheus/prometheus/cmd/prometheus/main.go:686 msg="operational information" build_context="(go=go1.23.0, platform=linux/amd64, user=, date=, tags=unknown)" host_details="(Linux 5.15.0-124-generic #134-Ubuntu SMP Fri Sep 27 20:20:17 UTC 2024 x86_64 gigafips (none))" fd_limits="(soft=1048576, hard=1048576)" vm_limits="(soft=unlimited, hard=unlimited)"

lequantile 标签值

在 Prometheus v3 中,经典直方图的 le 标签和摘要的 quantile 标签的值将在摄取时进行规范化。在 Prometheus v2 中,在某些情况下,这些标签的值取决于抓取协议(protobuf vs 文本格式)。这会导致标签值根据抓取协议而变化。例如,通过文本格式暴露的指标 my_classic_hist{le="1"} 将被摄取为 my_classic_hist{le="1"},但通过 protobuf 摄取为 my_classic_hist{le="1.0"}。这改变了指标的身份,并在查询指标时导致问题。在 Prometheus v3 中,这些标签值将始终被规范化为浮点数表示。即,上面的示例无论通过哪种协议,最终都将始终以 my_classic_hist{le="1.0"} 的形式被摄取到 Prometheus 中。此更改的影响是,直接引用整数形式的标签值(如 le="1")的告警、记录规则和仪表板将停止工作。

处理此更改的全局或按指标基础的方法

  • 修复对整数 lequantile 标签值的引用,但除此之外不做任何操作,并接受跨越过渡时间的某些查询将产生不准确或意外的结果。这是推荐的解决方案。
  • 使用 metric_relabel_config 在抓取目标时保留旧标签。这应该*仅*应用于当前生成此类标签的指标。
    metric_relabel_configs:
      - source_labels:
          - quantile
        target_label: quantile
        regex: (\d+)\.0+
      - source_labels:
          - le
          - __name__
        target_label: le
        regex: (\d+)\.0+;.*_bucket

禁止使用 v1 API 配置 Alertmanager

Prometheus 3 不再支持 Alertmanager 的 v1 API。实际上,Prometheus 3 要求 Alertmanager 0.16.0  或更高版本。使用旧版 Alertmanager 或配置使用 alerting: alertmanagers: [api_version: v1] 的用户需要升级 Alertmanager 并更改其配置以使用 api_version: v2

Prometheus 2.0 迁移指南

关于从 Prometheus 1.8 到 2.0 的迁移指南,请参阅 Prometheus v2.55 文档

本页内容