Skip to main content

Panne du 07/12/2023

Description de l'incident

A partir de 8h30 le 07/12/2023 nos outils de monitoring nous ont remontés une montée en latence anormale

image.png

A 9h25 le service support d'AZYLIS à informer les NOC d'un souci de qualité de voix chez certains clients 

Analyse de l'incident

Nous avons rapidement identifier un problème sur l'un de nos routeurs de collecte, ce routeur gère : 

  • La collecte FTTH Pro du Doubs
  • La collecte FTTE du Doubs
  • La distribution EOIP Public (gérant l'Internet) 
  • La distribution EOIP Data (gérant l'accès au service hébergé) 

L'équipement est accessible, aucune charge particulière au niveau des flux, n'est identifier. On pense alors a un simple plantage de l'équipement. Le NOC décide alors d'effectuer un reboot pour corriger le problème.

Suivi de l'incident

9h35 - L'équipement ne redémarre pas. Une intervention au DataCenter est planifié. 
9h45 - Le système de sécurité Watchdog aurait du effectuer un reboot de l'équipement.
10h30 - Arrivé au DataCenter l'équipement est bien UP, il ne répond pas sur le réseau d'admin, mais certain flux semble passer (par exemple le réseau d'admin sur la FFTO AZYLIS - BESANCON fonctionne)
On décide de faire de nouveau un réboot

On reprend alors la main sur l'équipement, des flux semblent fonctionner, mais nous n'avons aucun débit sur les ports.

10h45 - Nous subissons une seconde panne ! Le routeur du réseau d'admin c'est éteint !  Je n'ai plus l'accès au routeur de COL, la poursuite de l'analyse est impossible (pour des raisons de sécurité l'accès aux routeurs est limité par le réseau d'admin) 

Le service technique nous remontes d'autres perturbations, je coupe complètement le routeur et les autres services se stabilisent.

Je décide de changer le routeur de COL, par un routeur plus puissant de nouvelle génération. Mais lors de l'import de la connexion au nouvelle équipement et surtout lorsque je met la même version d'OS du routeur, celui-ci n'accepte pas la version de production. 

Je test un import de conf sur la nouvelle version, mais il y a beaucoup d'erreur. 
Je ne peux pas importer la config sur le second routeur de COL présent car sans accès à l'admin. Nous devons faire cela dans un autre équipement.

11h30 - Un second technicien part de Vercel avec un second routeur compatible avec la version, et un routeur d'admin. En l'attendant on tente de nouveau de faire redémarrer le routeur, il repart avec les mêmes symptômes. J'arrive a me connecter dessus et a effectuer une analyse. Il semble que la partie VLAN ne fonctionne pas. Je change les modules fibres, je bascule sur réseau master sur le secondaire, mais toujours les mêmes problèmes. 

Je décide de supprimer la partie de redondance vers le réseau de transport, et la toute une partie des flux remontent ! C'est l'une des puces du switch de l'équipement qui est mort, toutes une partie des flux remontes, les backups 4G fonctionnent, beaucoup de liens Internet remontent, mais dans le monitoring tout semble instable. 

Une demande au support confirme que d'autres services sont aussi de nouveau instable, j'en déduis alors que le routeur en plus d'être défectueux perturbe le réseau de transport (cela produit comme une sorte de boucle réseau). Le second technicien étant sur place je coupe définitivement ce routeur. 

12h15 - Le technicien arrive au Datacenter, pendant que l'un des techniciens s'occupent de remettre en place le réseau d'admin pour que nous puissions de nouveau accéder à tous les équipements, le second import la config dans le nouveau routeur. 

Résolution de l'incident

14h30 - Le nouveau routeur est en place et tous les services sont de nouveaux opérationnelles, cependant nous traitons encore des effets de bords 

Les services sont rétablies mais l'intervention n'est pas terminés

Actions correctives

Suite à cette panne nous effectuer les actions correctives suivantes, certaines actions étaient  déjà en cours de réalisations, mais les délais vont être raccourcis : 

  • Déplacement des portes de collectes FTTH et FFTE sur les nouveaux COL (les autres collectes ont déjà été déplacé, ces collectes étant en attente d'upgrade et de changement de jarretière au Datacenter) 
  • Déplacement du système de redondance des services DATA sur un équipement virtuel (cela a déjà été fait pour la partie VOIP, ce qui a permis une panne limité des service Voix) 
  • Déplacement du système de redondance des services INTERNET sur un équipement Physique/virtuel (cela a déjà en cours de validation technique)