Aller au contenu
Khalil Nouisser
Retour

Client : ENGIEPlatform & CloudPériode : juil. 2024 — aujourd’hui

Observabilité Grafana de bout en bout

Une stack Grafana complète — Alloy et Vector pour la collecte, Mimir, Loki et Tempo pour le stockage — déployée en multi-clusters sur la plateforme DevOps d’ENGIE.

Résultats

6

clusters EKS de production couverts

Contexte

La plateforme DevOps d’ENGIE Digital & IT tourne sur 6 clusters EKS de production et 200+ VMs, au service de 600+ organisations. Métriques, logs et traces y sont produits en continu, à grande échelle.

Défi

Unifier trois signaux — métriques, logs, traces — sur plusieurs clusters, dans une stack cohérente et opérable, sans empiler les agents ni créer un silo par équipe.

Solution

  1. Collecte unifiée : Grafana Alloy et Vector déployés sur l’ensemble des clusters.

  2. Un backend dédié par signal : métriques avec Prometheus et Mimir, logs avec Loki, traces avec Tempo.

  3. Dashboards et alerting Grafana, reliés à l’outil interne de centralisation des alertes (Python).

  4. Déploiement et exploitation multi-clusters sur les environnements de production.

Stack

  • Grafana
  • Alloy
  • Vector
  • Prometheus
  • Mimir
  • Loki
  • Tempo
  • EKS

À compléter

TODO(Khalil): visuels/captures à fournir

Réalisations

Un projet similaire ?

Décrivez-moi votre contexte — réponse sous 24 à 48 h.

Autres études de cas

Neurones IT · Platform & Cloud

Nkube — plateforme Kubernetes multi-cloud

Conception et lead technique d’une plateforme multi-tenant de création et de gestion de clusters Kubernetes — Vanilla, K3S, RKE/RKE2, OpenShift — sur AWS, GCP, Azure et OVH.

4

clouds couverts — AWS, GCP, Azure et OVH

Go · Pulumi · Ansible · Next.js +8

Voir l’étude de cas

ENGIE · Platform & Cloud

Plateforme CI/CD à l’échelle

Runners GitHub Actions éphémères (ARC), contrôleurs Jenkins in-cluster et outillage maison pour une plateforme DevOps qui sert 600+ organisations et 10 000+ utilisateurs.

600+

organisations servies par la plateforme

10 000+

utilisateurs au quotidien

GitHub Actions · ARC · Jenkins · Karpenter +7

Voir l’étude de cas