Rückblick PromCon 2019 in München

Am 7. und 8. November fand die PromCon 2019 auf dem Google Campus in München statt. Die Konferenz dreht sich rund um das Thema Prometheus. Ziel ist es, Prometheus-Anwender und Entwickler aus der ganzen Welt zusammenzubringen, um Wissen, Best Practices und Erfahrungen auszutauschen. Der Event war innert kürzester Zeit ausgebucht. Mit viel Glück konnte ich mir noch einen Platz ergattern.

Anreise

Mein Zug nach Zürich hatte ein paar Probleme, was dazu führte, dass ich meinen Anschluss nach München nicht erwischt habe. Dies mündete darin, dass ich am nächsten Tag den Bummler von Zürich nach München nehmen musste. Das Organisieren der Umbuchung durch die SBB war unkompliziert und schnell. Respekt! Ich nutzte die Zeit, um angestaubte Grafana Dashboards zu bereinigen. Wer kennt das nicht? Das Prometheus Relabeling wurde laufend optimiert, Labels standardisiert und Best Practices umgesetzt – die bestehenden Dashboards werden dabei aber leicht vergessen.

Der grundsätzliche Tenor an der Konferenz war, die Entwickler zu motivieren, selber Prometheus zu betreiben und somit das Monitoring übernehmen zu können. Somit kann sich der Prometheus Spezialist besser auf die Unterstützung, das Schulen der Entwickler, die Architektur und knifflige Lösungen konzentrieren.

Alle Präsentationen findet ihr unter: https://promcon.io/2019-munich/

Folgend eine Auswahl der fantastischen Vorträge.

Thanos vs Cortex

Beim Einsatz von mehreren Prometheus Instanzen, bei denen die Daten verdichtet, zentral verfügbar und der Anforderung für long term storage entsprechen sollen, bietet sich Thanos und Cortex an. Beide haben ein ähnliches Ziel, aber unterschiedliche Ansätze in folgenden Bereichen:

  • Remote Read (Thanos) / Remote Write (Cortex)
  • HA Setups, Downtime Lücken –  Schreiben (Cortex) / Querying (Thanos)
  • Long term storage – Object Storage (Thanos) / NOSQL und Object Storage (Cortex)

Auf der PromCon wurden die Unterschiede der beiden Tools von den jeweiligen Core Developern gemeinsam aufgezeigt und Vorschläge gemacht, wie man mit dem Einsatz beider Technologien die Vorteile vereinen kann. In Zukunft wollen die Projekte stärker zusammenarbeiten.

https://promcon.io/2019-munich/slides/two-households-both-alike-in-dignity-cortex-and-thanos.pdf

https://github.com/cortexproject/cortex

https://github.com/thanos-io/thanos

Grafonnet

Es empfiehlt sich nicht, Dashboards in Grafana übers GUI zu pflegen – so verlockend dies auf den ersten Blick auch sein mag. Dies führt schnell zu Redundanzen und Wildwuchs an Dashboards, welche nicht gepflegt werden. Grafonnet bietet hier eine Möglichkeit, Dashboards zentral zu definieren und somit effizient in zB. einem Git Repo zu pflegen.

https://promcon.io/2019-munich/slides/managing-grafana-dashboards-with-grafonnet-and-git.pdf

https://github.com/grafana/grafonnet-lib

Openmetrics

Das Prometheus Textformat ist seit zwei, drei Jahren eigentlich Standard in der Metrics Welt. Damit ein offener Standard daraus entstehen kann, wurde der Namen Prometheus aus dem bestehenden Format entfernt. Das Resultat: OpenMetrics. Leider hat die Neubenennung zu grossen Veränderungen geführt. Konkret:

  • MetricSets müssen neu einen «EOF» Marker am Ende haben
  • Das Metrik Format muss jeweils definiert sein
  • UNIX timestamps werden neu in Sekunden abgebildet

https://promcon.io/2019-munich/slides/openmetrics-what-does-it-mean-for-you.pdf

https://openmetrics.io/

Nützliche Tools und Queries

Security verbessern mit simplen Prometheus Rules

Security Monitoring geht vielfach vergessen. In dieser Präsentation wurden konkrete Beispiele vorgestellt, wie mit zusätzlichen, einfachen Regeln und meist schon bestehenden Metriken das Alerting auf Security Komponenten innert Minuten verbessert werden kann.

https://promcon.io/2019-munich/slides/lt2-02_promql-for-security.pdf

Ack von Alerts

Das ist ein Tool, um Silences auf Alerts automatisch auslaufen zu lassen oder zu verlängern – abhängig davon, ob der Alert noch aktiv ist.

https://promcon.io/2019-munich/slides/lt2-15_alert_acknowledgement_with_alertmanager.pdf

https://github.com/prymitive/kthxbye

sysdig

Ein Tool mit stärkerem Fokus auf die Bereitstellung von Werkzeugen zum Low-level Debuggen was auf einer Kubernetes Plattform abgeht. Sysdig unterstützt neu auch PromQL, um die gescrapten Metriken zu querien.

https://sysdig.com/

Jaeger, Prometheus und Grafana

Ein Beispiel, wie Traces mit Jaeger direkt mit Prometheus Metriken in Grafana verbunden werden können.

https://promcon.io/2019-munich/talks/prometheus-and-jaeger-a-match-made-in-heaven/

Kommentare sind geschlossen.