Canonical 访谈
2016 年 11 月 16 日作者 Brian Brazil
继续我们对 Prometheus 用户进行的一系列访谈,Canonical 谈论了他们如何转向 Prometheus。
您能介绍一下您自己以及 Canonical 的业务吗?
Canonical 最出名的是赞助 Ubuntu Linux 的公司。我们还生产或贡献了许多其他开源项目,包括 MAAS、Juju 和 OpenStack,并为这些产品提供商业支持。Ubuntu 为绝大多数 OpenStack 部署提供支持,占生产云的 55%,大型云部署的 58% 。
我的团队 BootStack 是我们全托管的私有云服务。我们为 Canonical 的客户构建和运营 OpenStack 云。
在使用 Prometheus 之前,您的监控体验是怎样的?
我们过去使用了 Nagios 、Graphite /statsd 的组合,以及内部开发的 Django 应用。这些工具未能提供我们在内部和客户云环境中所需的灵活性和报告水平。
你们为什么决定研究 Prometheus?
我们评估了几个替代方案,包括 InfluxDB 和扩展我们对 Graphite 的使用,但我们最初对 Prometheus 的体验证明了它拥有我们正在寻找的简单性和强大功能的结合。我们特别欣赏标签的便捷性、简单的 HTTP 协议以及开箱即用的 时间序列告警。Prometheus 将两种工具(告警和趋势分析)合二为一的潜力尤其吸引人。
此外,我们的一些员工在 Google 工作期间曾有 Borgmon 的经验,这极大地增加了我们对此的兴趣!
你们是如何过渡的?
我们仍在过渡过程中,由于我们现有系统中需要重新用 Prometheus 实现的大量自定义检查,我们预计这还需要一些时间。最有用的资源是 prometheus.io 网站文档。
我们花了一段时间才选择了一个 exporter。我们最初选择了 collectd ,但遇到了限制。我们现在正在编写一个 openstack-exporter ,并且有点惊讶地发现没有一个好的、可用的从头开始编写 exporter 的示例。
我们遇到的一些挑战包括:不支持下采样、没有长期存储解决方案(目前)、并且我们对默认的 2 周保留期感到惊讶。目前还没有与 Juju 集成,但 我们正在努力 !
切换后你们看到了哪些改进?
一旦我们掌握了 exporters,我们发现它们非常容易编写,并为我们提供了非常有用的指标。例如,我们正在为我们的云环境开发一个 openstack-exporter。我们还看到了来自 DevOps、WebOps 团队和开发人员的非常快速的跨团队采用。我们还没有设置告警,但预计一旦进入过渡的这个阶段,将会有更多进展。
您认为 Canonical 和 Prometheus 的未来会怎样?
我们预计 Prometheus 将成为我们监控和报告基础设施的重要组成部分,为众多现有和未来的系统提供指标收集和存储。我们认为它有可能取代 Nagios 进行告警。