1.4 KiB
1.4 KiB
Runbook — Incident Response
API down
- Vérifier
GET /healthetGET /health/deep - Consulter les logs :
kubectl logs -l app=veza-backend-api --tail=200 - Vérifier DB, Redis, RabbitMQ (voir health/deep)
- Redémarrer les pods si crash loop :
kubectl rollout restart deployment/veza-backend-api - Rollback image si régression récente : ROLLBACK.md
Redis down
- L’API peut fonctionner en mode dégradé (voir GRACEFUL_DEGRADATION.md)
- Vérifier :
redis-cli ping - Redémarrer le service Redis ou le pod
- Vérifier la persistance (AOF/RDB) si perte de données
DB down
- Critique : l’API renvoie 503
- Vérifier la connexion PostgreSQL
- Consulter les logs Postgres
- Vérifier l’espace disque
- Redémarrer Postgres si nécessaire
- Pas de rollback migration automatique sans procédure validée
Webhook failed
- Consulter les logs du service appelant (ex. Stream server callbacks)
- Vérifier
X-Internal-API-KeyetSTREAM_SERVER_INTERNAL_API_KEY - Vérifier que l’URL du webhook est correcte
- Réessayer manuellement si idempotent
DDoS / trafic anormal
- Activer le rate limiting (Redis requis pour distribué)
- Vérifier les règles WAF / Cloudflare si applicable
- Scaler horizontalement si charge légitime
- Bloquer les IP abusives au niveau load balancer / firewall