Aller au contenu principal
Sécurité

Gestion d’incident pour startups

Un processus de gestion d’incident léger et efficace : rôles, niveaux de sévérité, communication, runbooks et postmortems actionnables.

Illicus Team · · 13 min de lecture · Mis à jour 22 décembre 2025

Les incidents ne signifient pas que vous “échouez”. Ils signifient que vous opérez un système réel en production. Pour une startup, le danger est de créer un process trop lourd… et donc jamais utilisé. Le but est la répétabilité : les mêmes étapes simples, à chaque incident, pour récupérer plus vite et apprendre davantage.

Garder le process petit (et constant)

Une bonne gestion d’incident early-stage vise :

  • Identifier, contenir, rétablir
  • Communiquer clairement
  • Apprendre et réduire la récurrence

Playbook minimal (celui que votre équipe utilisera vraiment)

Étape 0 : définir ce qu’est un incident

Si vous ne “déclarez” un incident que lors d’une catastrophe, vous perdez la boucle d’apprentissage. Déclarez un incident quand :

  • une fonctionnalité critique est impactée au-delà de X minutes,
  • l’intégrité des données, la sécurité, ou la facturation est à risque,
  • un service est dégradé au-delà d’un seuil accepté.

Étape 1 : définir des rôles (même si une personne cumule)

  • Incident Commander (IC) : pilote, arbitre, maintient le focus
  • Comms : mises à jour internes/externes, statut client
  • Scribe : chronologie, décisions, actions
  • SMEs : exécution technique (diagnostic, mitigation, fix)

Sur une petite équipe, IC et scribe peuvent être la même personne. L’essentiel est d’avoir un pilote et une trace.

Étape 2 : niveaux de sévérité simples

Définissez la sévérité par impact, pas par stress :

  • Sev 0 : outage large, risque data majeur, incident sécurité actif
  • Sev 1 : impact client important, fonction critique indisponible
  • Sev 2 : impact limité, contournement (workaround) disponible, récupération rapide probable
  • Sev 3 : mineur / near-miss, mais utile à analyser

Étape 3 : un canal, un doc, une timeline

Chaque incident doit avoir :

  • un canal dédié (ex. #inc-YYYYMMDD-titre),
  • un document (impact, chronologie, décisions, actions),
  • une chronologie (détection, mitigation, résolution).

La cohérence réduit la charge cognitive sous pression.

Communication : la différence entre chaos et confiance

Cadence interne (par défaut)

Exemple de cadence selon sévérité :

  • Sev 0 : mise à jour toutes les 15 min
  • Sev 1 : toutes les 30 min
  • Sev 2 : toutes les 60 min

Template externe (réutilisable)

Structure courte :

  • Ce qui se passe (langage client)
  • Impact (qui/quoi est affecté)
  • Ce qu’on fait (mitigation en cours)
  • Prochaine update (heure)

Évitez la spéculation. Si vous ne savez pas encore, dites que vous investiguez et quand vous revenez.

Pendant l’incident : checklist opérationnelle

Identifier & contenir

  • Confirmer scope et impact
  • Stopper l’hémorragie (flag off, rollback, isolation d’un fournisseur)
  • Réduire le blast radius (rate limit, circuit breaker, dégradation contrôlée)

Rétablir

  • Restaurer un niveau de service acceptable
  • Valider côté utilisateur (pas uniquement via dashboards)
  • Surveiller la régression

Clore

  • Confirmer stabilité (métriques OK)
  • Poster une mise à jour finale
  • Planifier le postmortem rapidement

Runbooks : accélérer les “known fixes”

Un runbook n’a pas besoin d’être long. Un bon runbook startup :

  • tient en 1–2 pages,
  • est écrit en “faites ceci, puis vérifiez cela”,
  • inclut rollback et avertissements.

Commencez par vos 3 types d’incident les plus fréquents.

Postmortems qui changent vraiment quelque chose

“Blameless” ne veut pas dire “pas de responsabilité”. Cela veut dire analyse système.

Structure simple

  • Résumé et impact
  • Timeline (faits + décisions)
  • Causes racines / facteurs contributifs
  • Ce qui a bien marché / moins bien marché
  • Actions : propriétaires, dates, priorités

Actions efficaces

Bonnes actions = ownership clair + réduction d’impact futur :

  • alerting manquant sur un signal critique,
  • garde-fou CI/CD pour empêcher une régression,
  • amélioration du rollback / feature flags,
  • documentation et automatisation d’un runbook.

Mesures qui indiquent une amélioration

Choisissez quelques métriques et revoyez-les mensuellement :

  • MTTD (temps moyen de détection)
  • MTTR (temps moyen de rétablissement)
  • Nombre d’incidents par sévérité
  • Taux de récidive (mêmes causes)

Le but n’est pas “zéro incident”, mais des incidents moins graves, détectés plus vite, résolus plus vite.

Si vous ne savez pas par quoi commencer

Souvent, le point de départ est un audit d’infrastructure : il identifie les lacunes majeures (observabilité, runbooks, accès, déploiement) et les transforme en plan priorisé.

Besoin d’aide sur ce sujet ?

Nous aidons les équipes à mettre en place ces pratiques en production—sans complexité inutile.

Aucune préparation requise. Nous partageons un plan sous 48 heures.

Réserver un appel découverte de 20 minutes