继续我们的 Prometheus 用户访谈系列,来自 Europace 的 Tobias Gesellchen 谈论了他们如何发现 Prometheus。
您能介绍一下 Europace 是做什么的吗?
Europace AG 开发和运营基于网络的 EUROPACE 金融市场,这是德国最大的抵押贷款、建房融资产品和个人贷款平台。一个完全集成的系统连接了约 400 个合作伙伴——银行、保险公司和金融产品分销商。每月有数千名用户在 EUROPACE 上执行约 35,000 笔交易,总价值高达 40 亿欧元。我们的工程师经常在 http://tech.europace.de/ 和 @EuropaceTech 上发布博客。
在 Prometheus 之前,您的监控经验是什么?
Nagios/Icinga 仍然用于其他项目,但随着服务数量的增长和对更高灵活性的需求,我们寻找了其他解决方案。由于 Nagios 和 Icinga 更偏向于集中维护,Prometheus 符合我们团队拥有完整 DevOps 堆栈的目标,并将特定职责从我们的基础设施团队转移到项目成员。
您为什么决定关注 Prometheus?
通过我们在 Docker Berlin 社区 中的活动,我们与 SoundCloud 和 Julius Volz 取得了联系,他为我们提供了一个很好的概述。灵活的 Docker 容器与高度灵活的基于标签的概念相结合,说服我们尝试 Prometheus。Prometheus 的设置非常简单,Alertmanager 也满足了我们的需求,因此我们没有理由尝试其他替代方案。甚至我们为改进 Docker 环境和消息传递工具的集成而提交的一些小的 pull request 也很快被合并了。随着时间的推移,我们向堆栈中添加了几个 exporters 和 Grafana。我们从未回头或寻找替代品。
您是如何过渡的?
我们的团队在一个新项目中引入了 Prometheus,因此过渡并没有在我们团队中发生。其他团队首先将 Prometheus 与现有解决方案并排添加,然后逐步迁移指标收集器。自定义 exporters 和其他临时服务在迁移期间提供了帮助。Grafana 已经存在,因此我们不必考虑另一个仪表板。一些项目仍然并行使用 Icinga 和 Prometheus。
切换后您看到了哪些改进?
由于可扩展性问题,我们在使用 Icinga 时遇到了问题——多个团队维护一个集中管理的解决方案效果不佳。使用 Prometheus 堆栈以及 Alertmanager 解耦了我们的团队和项目。Alertmanager 现在可以在 高可用性模式 下部署,这对我们监控基础设施的核心是一个巨大的改进。
您认为 Europace 和 Prometheus 的未来会怎样?
我们公司的其他团队已经在他们的项目中逐步采用了 Prometheus。我们预计更多的项目将引入 Prometheus 以及 Alertmanager,并缓慢地取代 Icinga。凭借 Prometheus 固有的灵活性,我们预计它将随着我们的需求而扩展,并且我们不会在适应未来需求时遇到问题。