talas-group/04_INFRA_DEPLOIEMENT/Monitoring_Logs/README.md
senke 66471934af Initial commit: Talas Group project management & documentation
Knowledge base of ~80+ markdown files across 14 domains (00-13),
Logseq graph, hardware design files (KiCAD), infrastructure configs,
and talas-wiki static site.

Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>
2026-04-04 20:10:41 +02:00

79 lines
2.8 KiB
Markdown

# Monitoring & Logs — Supervision technique
Ce dossier regroupe les outils de **supervision système, applicative, réseau** et la collecte/visualisation des logs.
## Stack déployée
Talas utilise deux systèmes de monitoring complémentaires :
### Monitoring d'infrastructure — Zabbix
| Composant | Rôle | Serveur |
|-----------|------|---------|
| **Zabbix Server** | Collecte, alertes, corrélation | R720 #2 |
| **Zabbix Agent** | Métriques système (CPU, RAM, disques, réseau) | R720 #1 + #2 |
**Alertes multi-canal :**
- Matrix / Element (notifications temps réel)
- Jira (tickets incidents)
- MS Teams (si nécessaire)
**Monitoring disques :** SMART via `smartmontools` — critique pour les ~100 disques d'occasion.
### Monitoring applicatif — Prometheus + Grafana
| Composant | Rôle | Serveur |
|-----------|------|---------|
| **Prometheus** | Scrape des endpoints `/metrics` des services Veza | R720 #2 |
| **Grafana** | Dashboards de visualisation | R720 #2 |
| **Alertmanager** | Routage des alertes Prometheus | R720 #2 |
**Endpoints scrapés :**
- Backend Go : `/metrics` (port 18080)
- Stream Server Rust : `/metrics` (port 18082)
- PostgreSQL : via `postgres_exporter`
- Redis : via `redis_exporter`
- HAProxy : stats intégrées
### Logs centralisés — ELK Stack
| Composant | Rôle | Serveur |
|-----------|------|---------|
| **Filebeat** | Agent de collecte de logs | R720 #1 (sources) |
| **Elasticsearch** | Indexation et recherche des logs | R720 #2 |
| **Kibana** | Interface de visualisation et requêtes | R720 #2 |
**Logs collectés :**
- Logs Coraza WAF (parsing OWASP CRS via ingest pipeline grok)
- Logs HAProxy (accès, erreurs)
- Logs applicatifs Veza (backend Go, stream Rust)
- Logs système (syslog via rsyslog)
### Error tracking — Sentry (optionnel)
- DSN configurable via `SENTRY_DSN`
- Capture des exceptions backend Go et frontend React
- Échantillonnage configurable (erreurs 100%, transactions 10% par défaut)
## Rôles Ansible associés
| Rôle | Description |
|------|-------------|
| `zabbix_server` | Installation et configuration Zabbix + intégrations alertes |
| `filebeat` | Installation Filebeat + modules Apache/HAProxy/Kibana |
| `rsyslog` | Centralisation syslog |
## Contenu de ce dossier
- `prometheus/` : configurations de scrape, targets, rules
- `grafana/` : dashboards exportés, provisioning
- `alertmanager/` : routes d'alertes, receivers
- `zabbix/` : templates, scripts d'alerte
- `filebeat/` : configurations, modules, pipelines
- `kibana/` : dashboards, index patterns
## Voir aussi
- [[04_INFRA_DEPLOIEMENT/Architecture_Serveurs/ARCHITECTURE_INFRA]] — Vue d'ensemble de l'infrastructure
- [[04_INFRA_DEPLOIEMENT/CI_CD/PROCEDURES_DEPLOIEMENT]] — Procédures de maintenance
- [[00_META/Glossaire/GLOSSAIRE_TALAS]] — Termes techniques (Prometheus, Grafana, ELK, etc.)