继续我们的 Prometheus 用户采访系列,来自 Europace 的 Tobias Gesellchen 讲述了他们是如何发现 Prometheus 的。
您能介绍一下 Europace 的业务吗?
Europace AG 开发和运营基于网络的 EUROPACE 金融市场,这是德国最大的抵押贷款、建筑融资产品和个人贷款平台。一个完全集成的系统连接了大约 400 家合作伙伴——银行、保险公司和金融产品分销商。每月有数千名用户在 EUROPACE 上执行约 35,000 笔交易,总价值高达 40 亿欧元。我们的工程师定期在 http://tech.europace.de/ 和 @EuropaceTech 发布博客。
在使用 Prometheus 之前的监控经验如何?
Nagios/Icinga 仍在用于其他项目,但随着服务数量的增长和对灵活性更高的要求,我们开始寻找其他解决方案。由于 Nagios 和 Icinga 更偏向于集中维护,Prometheus 与我们在团队中拥有完整的 DevOps 栈并将特定职责从基础设施团队转移到项目成员的目标相符。
为什么决定考虑使用 Prometheus?
通过我们在 Docker Berlin 社区的活动,我们与 SoundCloud 和 Julius Volz 取得了联系,他们给了我们一个很好的概述。灵活的 Docker 容器与高度灵活的基于标签的概念相结合,说服我们尝试使用 Prometheus。Prometheus 的设置足够简单,Alertmanager 也满足我们的需求,因此我们认为没有理由尝试其他替代方案。即使是我们为改进在 Docker 环境中与消息工具的集成而提交的小型拉取请求也很快被合并了。随着时间的推移,我们向技术栈中添加了多个 exporter 和 Grafana。我们从未后悔或寻找过替代方案。
你们是如何过渡的?
我们的团队在一个新项目中引入了 Prometheus,所以我们团队没有经历过渡。其他团队则先将 Prometheus 与现有解决方案并行使用,然后逐步迁移指标收集器。自定义 exporter 和其他临时服务在迁移过程中提供了帮助。Grafana 已经存在,所以我们无需考虑另一个仪表盘。有些项目仍然并行使用 Icinga 和 Prometheus。
切换后看到了哪些改进?
我们在使用 Icinga 时遇到了可伸缩性问题——由多个团队维护一个集中管理的解决方案效果不佳。使用 Prometheus 技术栈和 Alertmanager 解耦了我们的团队和项目。Alertmanager 现在可以以高可用模式部署,这对我们监控基础设施的核心来说是一个巨大的改进。
您认为 Europace 和 Prometheus 的未来会是怎样的?
公司里的其他团队也已逐渐在他们的项目中采用了 Prometheus。我们预计会有更多项目引入 Prometheus 和 Alertmanager,并逐步取代 Icinga。凭借 Prometheus 固有的灵活性,我们相信它将随着我们的需求进行扩展,并且我们不会在适应未来需求时遇到问题。