Incident Réseau du 27/04 : retour d'expérience du Directeur Technique
Articles
30.05.2023
Le 27 avril dernier, le Réseau ADNOV a connu des ralentissements techniques dus à des perturbations exceptionnelles. Découvrez au travers d’une interview avec Christophe ORIEULX DE LA PORTE, directeur technique ADNOV, son retour d’expérience sur cet évènement et comment les équipes ADNOV ont géré, en quelques heures, le transfert de 6 000 offices sur le data center opérationnel, pour maintenir un accès réseau stable aux offices.
Que s’est-il passé le jeudi 27 avril ?
« À 7H du matin, Kyndryl, notre prestataire qui opère le data center de Clichy Global Switch, l’un des plus gros data centers parisiens, nous informe qu’une inondation suivie d’un départ de feu a touché leur local électronique. Les sapeurs-pompiers sont sur place mais n’ont aucune visibilité sur le temps de rétablissement. Ils peuvent couper l’alimentation électrique du data center à tout moment.
De notre côté, le réseau fonctionne, les offices sont, comme habituellement répartis entre les 2 data centers pour une meilleure performance de leur connexion.
Une réunion d’urgence est lancée au sein du Comité de Direction avec la participation des experts Réseau. Face à la menace d’un arrêt brutal du fonctionnement du data center de Clichy, un choix est à faire :
- Prendre le risque d’attendre l’arrêt inopiné du data center de Clichy pour ensuite basculer l’ensemble de l’activité des offices sur notre second data center et confronter nos clients à un arrêt de connexion au Réseau et à Internet un certain temps.
- Basculer progressivement et manuellement les offices sur notre deuxième centre de données pour éviter que nos clients subissent une perte de connexion, quitte à générer des ralentissements de connexion.
Nous faisons le choix de la sécurité et du maintien d’activité pour nos offices : à 8h15, la bascule progressive est validée. »
Quand a commencé la bascule progressive ? Comment ça se passe concrètement ?
« À 8H30, la bascule commence. Les équipes techniques modifient "les routes" de vos flux numériques pour n'accéder qu'à un seul data center. Cela génère automatiquement une microcoupure et des demandes de reconnexion des routeurs sur site.
Nous avons mis moins de 3h pour basculer près de 6 000 offices sur notre second data center, conformément à nos engagements vis-à-vis du CSN et dans le respect de l’agrément. Afin de répondre à ces exigences, nous contractualisons systématiquement des contrats de temps de rétablissement de 4H maximal.
Bien entendu, le fonctionnement sur un seul data center est moins optimal pour chaque office, des lenteurs peuvent être constatées.
Toute l’après-midi, les experts Réseau et l’ensemble des équipes se sont mobilisées afin de surveiller la situation. En effet, derrière leur console, c’est un jeu très complexe qui est opéré par nos experts. Ils analysent quels flux vous utilisez le plus (métiers, internet, visio, etc.) et priorisent ou dépriorisent afin de garantir la meilleure qualité possible dans la situation vécue.
Les lenteurs ont tout de même été plus conséquentes pour les offices toujours sur les anciennes offres Réseau RealIT, l’architecture Réseau de ces offres étant moins adaptée à vos besoins de connexion à Internet et aux applicatifs métier. »
Avons-nous retrouvé une situation « normale » ?
« Oui tout à fait ! Nous gérons les flux numériques de plus de 6 000 offices et faire passer l’ensemble des flux par 1 seul est même data center n’est absolument pas ce que nous considérons comme une situation efficace et sécurisée pour nos clients.
Efficace, puisque les data centers, nous permettent de répartir la charge pour une meilleure efficacité de vos connexions.
Et sécurisée puisque nous avons toujours un data center de secours en cas d’imprévus, c’est ce qu’on appelle la redondance informatique*»
Que retiens-tu de cet incident général ?
« C’est notre 1er plan de reprise d’activité/plan de continuité d’activité global** en situation réelle.
Nous avons pu :
- éprouver les redondances sur l’ensemble des services ADNOV,
- confirmer que la continuité et la reprise du service sont maitrisés,
- apporter quelques précisions sur notre documentation,
- identifier des leviers pour une prise de décision accélérée,
- et amender que la nouvelle offre Réseau (SD-Wan) offre plus de fluidité.
Toutes les équipes œuvrent à vous dispenser la meilleure qualité de service possible, quelle que soit la situation. On teste, on apprend, on s’améliore. On se tient prêt. “
* La redondance informatique fait référence à la duplication intentionnelle de composants, de systèmes ou de données dans un système informatique afin d'améliorer la fiabilité, la disponibilité et la résilience du système. Elle vise à assurer la continuité des opérations et à minimiser les interruptions en cas de défaillance ou de panne d'un composant ou d'un système.
** Le plan de continuité de l’activité (PCA) est un ensemble de procédures et de mesures préventives élaborées par une organisation pour assurer la continuité de ses activités en cas d'incident majeur, de catastrophe naturelle, de panne informatique ou de tout autre événement imprévu pouvant perturber ses opérations.