Incident Response Plan
- Version:
1.0.0
- Date:
10 novembre 2025
🚨 Niveaux de Sévérité
Niveau |
Impact |
Exemples |
Response Time |
|---|---|---|---|
P0 (Critical) |
Service down pour tous |
API down, DB corruption, security breach |
< 15 minutes |
P1 (High) |
Fonctionnalité majeure down |
Login fail, paiements bloqués |
< 1 heure |
P2 (Medium) |
Dégradation performance |
Latence élevée, bugs non-bloquants |
< 4 heures |
P3 (Low) |
Problème mineur |
Typo, UI glitch |
< 24 heures |
📞 Procédure de Réponse
Phase 1 : Détection (0-5 min)
Alerte reçue (Alertmanager, user report, monitoring)
Acknowledge dans Slack #incidents
Évaluer sévérité (P0-P3)
Créer incident ticket (GitHub Issues avec label incident)
Phase 2 : Triage (5-15 min)
Vérifier impact : - Combien d’utilisateurs affectés ? - Quelles fonctionnalités down ? - Risque sécurité/données ?
Escalader si nécessaire : - P0 → Notifier Lead Engineer + CTO - P1 → Notifier astreinte SRE - P2/P3 → Équipe dev normale
Communication : - P0/P1 : Mettre à jour https://status.koprogo.com - Email utilisateurs si prolongé (> 1h)
Phase 3 : Résolution (variable)
Diagnostiquer : - Consulter logs (Loki) - Vérifier métriques (Grafana) - Reproduire si possible
Mitigation immédiate : - Rollback si déploiement récent - Restart service si applicable - Activer mode dégradé si possible
Fix permanent : - Déployer hotfix - Tester en staging first - Déployer en production
Phase 4 : Post-Incident (< 48h)
Post-mortem meeting (obligatoire pour P0/P1)
Documentation : - Timeline des événements - Root cause analysis (5 Whys) - Action items pour prévenir récurrence
Mettre à jour runbooks
🔐 Incidents de Sécurité
Procédure spéciale :
Isolation : Bloquer trafic si nécessaire
Forensics : Préserver logs, snapshots
Notification GDPR : CNIL sous 72h si breach
Communication : Transparent avec utilisateurs
Investigation : Root cause + patch vulnérabilités
📋 Templates
Incident Report
# Incident Report - [YYYY-MM-DD]
**Severity**: P0/P1/P2/P3
**Duration**: HH:MM start → HH:MM resolved
**Impact**: [Number of users/services affected]
## Timeline
- 14:30 - Alert fired: API P99 > 5s
- 14:32 - Incident acknowledged
- 14:35 - Root cause identified: DB connection pool exhausted
- 14:40 - Mitigation: Restarted API service
- 14:45 - Resolved: Latency back to normal
## Root Cause
Database connection pool size (10) insufficient under peak load.
## Action Items
- [ ] Increase connection pool to 20
- [ ] Add alert for connection pool usage > 80%
- [ ] Load test with realistic traffic
Status Page Update
🔴 **Investigating** - We are currently investigating issues with login functionality.
Posted: 2025-11-10 14:30 UTC
🟡 **Identified** - The issue has been identified as a database connection problem.
Posted: 2025-11-10 14:35 UTC
🟢 **Resolved** - The login functionality has been restored.
Posted: 2025-11-10 14:45 UTC
—
Version : 1.0.0