何时使用 Pushgateway

Pushgateway 是一个中间服务,允许您从无法被抓取的作业中推送指标。详情请参阅推送指标

我应该使用 Pushgateway 吗?

我们只建议在某些有限的情况下使用 Pushgateway。 在进行通用指标收集时,如果盲目使用 Pushgateway 而非 Prometheus 常规的拉取模型,会面临以下几个陷阱:

  • 当通过单个 Pushgateway 监控多个实例时,Pushgateway 既会成为单点故障,也可能成为潜在的瓶颈。
  • 您会失去 Prometheus 通过 up 指标(在每次抓取时生成)实现的自动实例健康监控。
  • Pushgateway 永远不会忘记推送给它的序列,除非通过 Pushgateway 的 API 手动删除,否则它将永远把这些序列暴露给 Prometheus。

当一个作业的多个实例在 Pushgateway 中通过 instance 标签或类似方式区分其指标时,后一点尤为突出。即使源实例被重命名或移除,该实例的指标仍将保留在 Pushgateway 中。这是因为 Pushgateway 作为指标缓存的生命周期,从根本上与向其推送指标的进程生命周期是分离的。与之形成鲜明对比的是 Prometheus 常规的拉取式监控:当一个实例消失时(无论是有意还是无意),它的指标会自动随之消失。在使用 Pushgateway 时,情况并非如此,您必须手动删除任何过时指标,或者自行实现这种生命周期同步的自动化。

通常,Pushgateway 唯一有效的用例是捕获服务级批处理作业的结果。“服务级”批处理作业是指在语义上与特定机器或作业实例无关的作业(例如,为整个服务删除若干用户的批处理作业)。此类作业的指标不应包含机器或实例标签,以便将特定机器或实例的生命周期与推送的指标解耦。这降低了在 Pushgateway 中管理过时指标的负担。另请参阅监控批处理作业的最佳实践

替代策略

如果入站防火墙或 NAT 阻止您从目标抓取指标,请考虑将 Prometheus 服务器也移动到网络屏障后面。我们通常建议在受监控实例所在的同一网络中运行 Prometheus 服务器。否则,请考虑使用 PushProx ,它允许 Prometheus 穿透防火墙或 NAT。

对于与机器相关的批处理作业(例如自动安全更新的 cron 任务或配置管理客户端运行),请使用 Node Exporter 的  textfile 收集器  来暴露结果指标,而不是使用 Pushgateway。

本页内容