senke/veza

senke f692ebfd26 chore(release): v0.961 — Playbook (runbooks déploiement, rollback, incident)

2026-03-02 19:09:46 +01:00

1.4 KiB

Raw Blame History

Runbook — Incident Response

API down

Vérifier GET /health et GET /health/deep
Consulter les logs : kubectl logs -l app=veza-backend-api --tail=200
Vérifier DB, Redis, RabbitMQ (voir health/deep)
Redémarrer les pods si crash loop : kubectl rollout restart deployment/veza-backend-api
Rollback image si régression récente : ROLLBACK.md

Redis down

L’API peut fonctionner en mode dégradé (voir GRACEFUL_DEGRADATION.md)
Vérifier : redis-cli ping
Redémarrer le service Redis ou le pod
Vérifier la persistance (AOF/RDB) si perte de données

DB down

Critique : l’API renvoie 503

Vérifier la connexion PostgreSQL
Consulter les logs Postgres
Vérifier l’espace disque
Redémarrer Postgres si nécessaire
Pas de rollback migration automatique sans procédure validée

Webhook failed

Consulter les logs du service appelant (ex. Stream server callbacks)
Vérifier X-Internal-API-Key et STREAM_SERVER_INTERNAL_API_KEY
Vérifier que l’URL du webhook est correcte
Réessayer manuellement si idempotent

DDoS / trafic anormal

Activer le rate limiting (Redis requis pour distribué)
Vérifier les règles WAF / Cloudflare si applicable
Scaler horizontalement si charge légitime
Bloquer les IP abusives au niveau load balancer / firewall