Produit
Intégrations

CONNEXIONS UNIFIÉES

Consultez tous vos abonnements ensemble pour obtenir une vue globale de la santé de votre entreprise.

Ressources

Comment gérer les pannes majeures et les interruptions de service

Par Josh Pigford le 13 juillet 2016
Dernière mise à jour le 28 avril 2026

Il y a un mois, nous étions plongés dans des problèmes de serveur qui ont causé des problèmes de données sporadiques, des pannes et des problèmes de performance pour presque tous nos clients au cours d'une semaine entière. C'était extrêmement frustrant pour notre équipe, non seulement parce que c'était un problème très difficile à résoudre, mais surtout parce que cela signifiait que nos clients ne recevaient pas le service qu'ils méritaient.

Gérer ces types de problèmes peut être délicat, surtout quand les problèmes n'affectent pas nécessairement tous les clients.

Affichez-vous un avis aux tous clients, même si seulement 50 % d'entre eux au hasard rencontrent des problèmes ? Partagez-vous tout ce qui se passe ? Ou seulement quand il y a des progrès significatifs ? Quel devrait être le ton ? Devriez-vous offrir des remboursements ?

Évidemment, il y a une multitude de variables qui pourraient entrer en jeu, voici comment nous gérons généralement les pannes et les interruptions de serveur et comment nous aimons communiquer avec nos clients pendant ces périodes.

Procédure d'escalade

Idéalement, vous disposez d'un système de surveillance en place. À un niveau basique, cela peut être fait avec un simple ping pour s'assurer qu'une URL donnée est accessible. À un niveau plus approfondi, surveiller des éléments comme la charge de la base de données, les erreurs d'application et les temps de réponse peuvent contribuer à détecter les problèmes avant que avant ce ne soit un problème notable pour vos clients.

En plus de la surveillance système, si vous avez plus d'un ingénieur, avoir un horaire de garde en vaut la peine. Alerter chaque ingénieur chaque fois qu'il y a un problème est stressant et n'est pas une bonne utilisation du temps de personne.

La combinaison de ces deux éléments vous permet de mettre en place une procédure d'escalade solide.

Étape 1 : Notification de chat général

Lorsqu'un problème potentiel arrive, que ce soit via la surveillance système ou le support client, il est d'abord signalé à notre canal #backend dans Slack, en mentionnant @ tous les ingénieurs. Comme nos ingénieurs sont répartis dans plusieurs fuseaux horaires dans différentes parties du monde, la plupart du temps quelqu'un est en ligne.

Il est préférable que quelqu'un qui est réellement réveillé traite un problème au lieu d'avoir à réveiller quelqu'un.

Si un ingénieur est en ligne, il peut confirmer s'il y a un problème ou non et faire avancer le processus.

Étape 2 : Message texte

S'il n'y a pas d'ingénieur en ligne et que le problème semble critique, la surveillance système intervient la plupart du temps et envoie un message texte à l'ingénieur de garde qui, qu'il soit réveillé ou non, se connectera et commencera à travailler sur le problème.

Étape 3 : Appel

Dans le scénario où la surveillance système n'a pas détecté le problème ou qu'un message texte n'a clairement pas fonctionné, alors quiconque a remarqué le problème (généralement quelqu'un du service client) appellera l'ingénieur de garde.

Généralement après tout cela, l'équipe quelqu'un est consciente du problème et travaille sur une solution.

Communiquer le problème

Une fois que vous avez vérifié qu'il y a effectivement un problème, publiez un message de statut. Notre approche préférée est que tout le monde voie le message de statut dès que possible au lieu d'attendre et d'essayer de notifier un petit groupe de personnes.

La raison en est qu'il est généralement trop difficile de déterminer l'étendue d'un problème au départ. Nous préférons dire à tout le monde qu'il pourrait y avoir un problème, même s'ils ne l'éprouvent pas, plutôt que de laisser un client se demander s'il se passe quelque chose. Notre règle personnelle est d'être ouvert et honnête dès le départ.

Nous trouvons que vous ne pouvez pas sur-communiquer ces choses.

Nous commençons par publier sur notre page de statut, qui publie également sur notre compte Twitter et crée un message dans le tableau de bord Baremetrics.

Support pendant une panne

Lors d'une panne ou d'une interruption, notre objectif principal est de communiquer et de répondre aux clients aussi rapidement que possible. Cela signifie que notre équipe d'assistance donne une priorité plus élevée aux tweets, emails et tickets liés à la panne.

Moins nos clients doivent passer de temps à se demander si quelque chose ne va pas et quand si cela sera réparé, mieux c'est.

Lors de notre panne il y a un mois, après une semaine presque complète de hauts et de bas sporadiques, nous avons décidé que répondre aux demandes entrantes concernant la panne ne suffisait pas. J'ai en fait envoyé une « Lettre du PDG » à tous nos clients. Assez de gens avaient connu des problèmes pour que je mette à jour tout le monde en bloc et explique ce qui s'était passé et comment nous le réparions. Encore une fois, la communication est la clé pour garder la confiance de vos clients et donc leur entreprise.

Après la tempête

Une fois que vous avez dépassé la panne, rédigez une autopsie. Incluez un aperçu de ce qui s'est passé, quand cela s'est produit, comment cela s'est produit et ce que vous faites pour empêcher que cela ne se reproduise.

La réalité est que la plupart des clients ne liront pas cela. Ils ne sont tout simplement pas si intéressés par les détails importants. Cependant, pour les clients qui un entretien en tête-à-tête ? s'en soucient...ils vraiment s'en soucient vraiment et cela contribuera grandement à rétablir la confiance dans votre produit.

Qu'en est-il des remboursements pour les temps d'arrêt ?

Nous ne faisons pas de remboursements automatiques pour les temps d'arrêt. La seule fois où vous devriez émettre des remboursements préemptifs à tout le monde est si vous avez un accord de niveau de service (SLA) en place qui garantit un certain niveau de performance ou de disponibilité.

Cela dit, vous ne devriez pas non plus être avare. Si quelqu'un est clairement contrarié par le temps d'arrêt, offrez-lui un remboursement complet du mois précédent. Cela vaut sans équivoque le coup.

Porter le poids de la frustration des clients

Habituellement, vous et votre équipe vous souciez beaucoup plus d'une panne que vos clients. Oui, cela les ennuiera et les frustrera, mais le stress vous que vous ressentez est essentiellement le poids tous de la frustration de vos clients. Cela peut être assez intense.

Résistez à l'impulsion de micromanager. Concentrez-vous sur le maintien de vos clients informés et laissez votre équipe d'ingénierie faire son travail.

Nous avons constaté que la grande majorité des clients comprennent les problèmes de serveur. Cette « Lettre du PDG » que j'ai envoyée à près de 800 personnes a entraîné exactement deux personnes frustrées. Le reste des réponses a été incroyablement favorable et a donné un bon coup de pouce à moi et à l'équipe.

Outils

Voici quelques-uns des outils que nous utilisons ou avons utilisés au fil des ans pour aider à gérer chaque aspect de ce processus :

  • StatusPage — Alimente notre page d'état et nos notifications dans l'application
  • Honeybadger — Surveillance des erreurs et du temps de fonctionnement et notifications
  • PagerDuty — Planification et procédures d'escalade à la demande
  • Datadog — Surveillance de l'infrastructure et alertes
  • Intercom — Email, chat et support général pendant les pannes

Questions fréquemment posées

  • Comment une entreprise SaaS doit-elle communiquer avec les clients lors d'une panne de service majeure ?
    Communiquez tôt, communiquez souvent et privilégiez l'information de tout le monde même si seul un sous-ensemble de clients est affecté.

    Essayer de déterminer exactement qui est affecté avant de publier une mise à jour d'état fait perdre du temps et laisse les clients se demander ce qui se passe. Publiez sur votre page d'état dès que vous avez confirmé que quelque chose ne va pas, puis continuez à mettre à jour au fur et à mesure que la situation évolue. Quelques pratiques spécifiques qui tiennent bien en pratique :
    • Publiez un message d'état immédiatement, même si la cause première est encore inconnue
    • Envoyez des notifications via chaque canal que vos clients surveillent déjà : page d'état, bannières dans l'application, Twitter et courrier électronique direct
    • Escalader vers une note directe du PDG pour les pannes qui dépassent 24 heures ou qui affectent une portion importante de votre base d'abonnés
    • Répondez aux tickets d'assistance et aux tweets concernant la panne plus rapidement que votre SLA habituel
    Surcommuniquer lors d'une interruption de service établit plus de confiance que le silence, même lorsque vous n'avez pas encore toutes les réponses.
  • Quelle est la différence entre une panne de service et une dégradation de service pour un produit SaaS ?
    Une panne de service signifie que votre produit est complètement indisponible, tandis qu'une dégradation de service signifie qu'il est accessible mais qu'il fonctionne en dessous des niveaux attendus, comme les temps de réponse lents, les retards de calcul ou les erreurs de données partielles.

    Pour les entreprises par abonnement, la distinction pratique est importante car la dégradation est souvent plus difficile à détecter et plus difficile à communiquer clairement. Les clients peuvent voir des métriques incohérentes ou des anomalies de tableau de bord sans comprendre pourquoi, ce qui érode silencieusement la confiance dans vos données. Ces deux états justifient une mise à jour de statut publique et un support client actif. Les outils de surveillance qui suivent la charge de la base de données, les erreurs d'application et les temps de réponse, et pas seulement les simples vérifications de disponibilité, sont ceux qui détectent la dégradation avant qu'elle ne dégénère en une panne complète qui génère de la frustration involontaire chez les clients et augmente le risque de désabonnement.
  • Quels outils les entreprises SaaS utilisent-elles pour détecter et gérer les pannes de service ?
    La pile de détection de panne et de gestion d'incident la plus fiable pour une entreprise SaaS combine généralement la surveillance du temps de fonctionnement, le suivi des erreurs, l'observabilité de l'infrastructure et les outils de planification à la demande.

    Les outils couramment utilisés incluent :
    • Honeybadger pour le suivi des erreurs et la surveillance du temps de fonctionnement
    • Datadog pour la surveillance de l'infrastructure et les alertes en temps réel sur la charge de la base de données et les temps de réponse
    • PagerDuty pour la planification à la demande et les procédures d'escalade afin que le bon ingénieur soit appelé à toute heure
    • StatusPage pour la publication de mises à jour de statut destinées aux clients et le déclenchement automatique de notifications dans l'application
    • Intercom pour la gestion du volume d'assistance pendant un incident actif
    Une approche en couches est importante car la simple surveillance par ping URL manque la dégradation. La combinaison d'alertes d'infrastructure approfondies plus un chemin d'escalade clair, de la notification Slack au SMS en passant par l'appel téléphonique, réduit le temps entre le début d'un problème et le moment où un ingénieur commence à y travailler activement.
  • Les entreprises SaaS devraient-elles offrir des remboursements après une panne de service ou un temps d'arrêt prolongé ?
    Les remboursements automatiques ne sont nécessaires que si vous avez un contrat de niveau de service qui garantit contractuellement un pourcentage de disponibilité spécifique, mais vous ne devriez jamais être avare avec les clients individuels qui sont clairement frustrés.

    Pour la plupart des entreprises d'abonnement en phase précoce et de croissance sans contrats de niveau de service formels, une approche de remboursement pratique ressemble à ceci :
    • N'émettez pas de remboursements proactifs généralisés pour les temps d'arrêt routiniers
    • Offrez un remboursement d'un mois complet, sans hésitation, à tout client qui vous contacte visiblement contrarié par la panne
    • Considérez le remboursement comme un investissement de rétention, non comme une perte, car la valeur à vie du client d'un client conservé dépasse largement un mois de revenu mensuel récurrent
    La bonne volonté créée par un remboursement rapide et sans poser de questions à un client mécontent empêche presque toujours un événement de désabonnement qui vous coûterait beaucoup plus au cours de la durée de vie du client.
  • Comment les pannes de service affectent-elles le taux de désabonnement des SaaS et que pouvez-vous faire pour réduire l'impact ?
    Les pannes de service augmentent le désabonnement involontaire et volontaire en érodant la confiance des clients, particulièrement pour les produits SaaS B2B où les utilisateurs dépendent de données en temps réel exactes pour prendre des décisions commerciales.

    Le risque de désabonnement s'aggrave quand les clients expérimentent une panne et ne reçoivent aucune communication à ce sujet, car le silence signale l'infiabilité plus que le temps d'arrêt lui-même. Les étapes qui démontrent réduire l'impact du désabonnement lors d'une interruption de service incluent :
    • Afficher une mise à jour de statut dans les minutes suivant la confirmation d'un problème, avant que les clients ne commencent à envoyer des e-mails
    • Envoyer un e-mail direct du PDG ou du fondateur pour les pannes durant plus de 24 heures
    • Publier une analyse post-mortem qui explique la cause première et les changements que vous avez effectués pour prévenir la récurrence
    Baremetrics suit les mouvements de revenu mensuel récurrent et les événements de désabonnement en temps réel, vous pouvez donc surveiller si une panne majeure se traduit réellement par des annulations et répondre avec un outreach de rétention ciblée avant que l'impact sur les revenus ne s'aggrave.

Josh Pigford

Josh est surtout connu en tant que fondateur de Baremetrics. Cependant, bien avant Baremetrics et jusqu'à aujourd'hui, Josh a été un créateur, un constructeur et un entrepreneur. Sa carrière a débuté en 2003 avec la création de deux annuaires de liens, ReallyDumbStuff et ReallyFunArcade. Avant de les vendre à profit, il avait déjà lancé son prochain ensemble de projets. En tant que designer, il a commencé à consulter sur des projets de conception web. Cette entreprise s'est finalement transformée en Sabotage Media, qui a été la société écran pour de nombreux projets depuis. Certains de ses plus grands projets avant Baremetrics étaient TrackThePack, Deck Foundry, PopSurvey et Temper. Les points douloureux qu'il a éprouvés alors que PopSurvey et Temper décollaient sont la raison pour laquelle il a créé Baremetrics. Actuellement, il se consacre à Maybe, le système d'exploitation de vos finances personnelles.