Monitoring

Autre

GitHub Availability Report: September 2025

En septembre 2025, GitHub a rencontré trois incidents entraînant une dégradation des services. Un problème de limite de taux a affecté Copilot, causant des erreurs 403, vite résolu par un retour en arrière. Des retards dans les livraisons d'emails ont été observés à cause d'un trafic élevé, et des erreurs 404 intermittentes dans l'API Copilot ont été causées par une mauvaise configuration suite à une mise à jour d'une dépendance interne. Des améliorations dans la configuration et la documentation sont en cours pour éviter de futurs incidents.

Autre

Observability vs Monitoring: What Is the Actual Difference?

L'article explique la différence entre l'observabilité et le monitoring dans le contexte des systèmes modernes. Le monitoring sert à détecter des problèmes connus en suivant des métriques prédéfinies, tandis que l'observabilité permet de comprendre les raisons derrière un problème, facilitant l'investigation d'incidents imprévus. L'auteur insiste sur l'importance d'intégrer ces deux approches lors de la conception des systèmes pour gérer des défis connus et découvrir des vérités cachées.

Autre

Codéops | Déployez et gérez vos applications sur ...

Codéops est une solution de gestion cloud public développée pour faciliter et sécuriser les déploiements d'applications. Avec des fonctionnalités telles que l'automatisation des déploiements, le scaling en un clic, et un dashboard de monitoring personnalisé, Codéops optimise la gestion des environnements applicatifs et réduit les coûts via une gestion optimisée des ressources. Son approche repose sur une collaboration agile entre les équipes de développement et d'hébergement, offrant des services adaptés à diverses infrastructures.

Autre

Sampling et S3 : Le cauchemar du monitoring moderne | Maxence Maireaux

Cet article met en lumière les risques associés à l'utilisation du sampling dans les systèmes de monitoring et à l'utilisation de S3 comme stockage principal. Le sampling peut entraîner la perte de données critiques, rendant le débogage et la détection des incidents difficiles. De plus, S3, bien que durable, n'est pas adapté pour des requêtes rapides, ce qui peut causer des retards opérationnels graves. L'auteur encourage les développeurs à investir dans des solutions de monitoring appropriées plutôt que de chercher à réduire les coûts à outrance.

Architecture

High-Level System Design: Metric Monitoring and Alerting System

Cet article présente la conception d'un système de surveillance et d'alerte des métriques. Il détaille les exigences fonctionnelles et non fonctionnelles d'un tel système, incluant les types de métriques à monitorer (CPU, mémoire, etc.), la scalabilité nécessite, et les alertes via divers canaux. Le système doit garantir une haute disponibilité et fiabilité pour traiter jusqu'à 100 millions d'utilisateurs actifs avec des données historiques à conserver sur un an.