Knowledge base of ~80+ markdown files across 14 domains (00-13), Logseq graph, hardware design files (KiCAD), infrastructure configs, and talas-wiki static site. Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>
79 lines
2.8 KiB
Markdown
79 lines
2.8 KiB
Markdown
# Monitoring & Logs — Supervision technique
|
|
|
|
Ce dossier regroupe les outils de **supervision système, applicative, réseau** et la collecte/visualisation des logs.
|
|
|
|
## Stack déployée
|
|
|
|
Talas utilise deux systèmes de monitoring complémentaires :
|
|
|
|
### Monitoring d'infrastructure — Zabbix
|
|
|
|
| Composant | Rôle | Serveur |
|
|
|-----------|------|---------|
|
|
| **Zabbix Server** | Collecte, alertes, corrélation | R720 #2 |
|
|
| **Zabbix Agent** | Métriques système (CPU, RAM, disques, réseau) | R720 #1 + #2 |
|
|
|
|
**Alertes multi-canal :**
|
|
- Matrix / Element (notifications temps réel)
|
|
- Jira (tickets incidents)
|
|
- MS Teams (si nécessaire)
|
|
|
|
**Monitoring disques :** SMART via `smartmontools` — critique pour les ~100 disques d'occasion.
|
|
|
|
### Monitoring applicatif — Prometheus + Grafana
|
|
|
|
| Composant | Rôle | Serveur |
|
|
|-----------|------|---------|
|
|
| **Prometheus** | Scrape des endpoints `/metrics` des services Veza | R720 #2 |
|
|
| **Grafana** | Dashboards de visualisation | R720 #2 |
|
|
| **Alertmanager** | Routage des alertes Prometheus | R720 #2 |
|
|
|
|
**Endpoints scrapés :**
|
|
- Backend Go : `/metrics` (port 18080)
|
|
- Stream Server Rust : `/metrics` (port 18082)
|
|
- PostgreSQL : via `postgres_exporter`
|
|
- Redis : via `redis_exporter`
|
|
- HAProxy : stats intégrées
|
|
|
|
### Logs centralisés — ELK Stack
|
|
|
|
| Composant | Rôle | Serveur |
|
|
|-----------|------|---------|
|
|
| **Filebeat** | Agent de collecte de logs | R720 #1 (sources) |
|
|
| **Elasticsearch** | Indexation et recherche des logs | R720 #2 |
|
|
| **Kibana** | Interface de visualisation et requêtes | R720 #2 |
|
|
|
|
**Logs collectés :**
|
|
- Logs Coraza WAF (parsing OWASP CRS via ingest pipeline grok)
|
|
- Logs HAProxy (accès, erreurs)
|
|
- Logs applicatifs Veza (backend Go, stream Rust)
|
|
- Logs système (syslog via rsyslog)
|
|
|
|
### Error tracking — Sentry (optionnel)
|
|
|
|
- DSN configurable via `SENTRY_DSN`
|
|
- Capture des exceptions backend Go et frontend React
|
|
- Échantillonnage configurable (erreurs 100%, transactions 10% par défaut)
|
|
|
|
## Rôles Ansible associés
|
|
|
|
| Rôle | Description |
|
|
|------|-------------|
|
|
| `zabbix_server` | Installation et configuration Zabbix + intégrations alertes |
|
|
| `filebeat` | Installation Filebeat + modules Apache/HAProxy/Kibana |
|
|
| `rsyslog` | Centralisation syslog |
|
|
|
|
## Contenu de ce dossier
|
|
|
|
- `prometheus/` : configurations de scrape, targets, rules
|
|
- `grafana/` : dashboards exportés, provisioning
|
|
- `alertmanager/` : routes d'alertes, receivers
|
|
- `zabbix/` : templates, scripts d'alerte
|
|
- `filebeat/` : configurations, modules, pipelines
|
|
- `kibana/` : dashboards, index patterns
|
|
|
|
## Voir aussi
|
|
|
|
- [[04_INFRA_DEPLOIEMENT/Architecture_Serveurs/ARCHITECTURE_INFRA]] — Vue d'ensemble de l'infrastructure
|
|
- [[04_INFRA_DEPLOIEMENT/CI_CD/PROCEDURES_DEPLOIEMENT]] — Procédures de maintenance
|
|
- [[00_META/Glossaire/GLOSSAIRE_TALAS]] — Termes techniques (Prometheus, Grafana, ELK, etc.)
|