Panne du 07/12/2023
Description de l'incident
A partir de 8h30 le 07/12/2023 nos outils de monitoring nous ont remontés une montée en latence anormale
A 9h25 le service support d'AZYLIS à informerinformé les NOC d'un souci de qualité de voix chez certains clients
Analyse de l'incident
Nous avons rapidement identifieridentifié un problème sur l'un de nos routeurs de collecte, ce routeur gère :
- La collecte FTTH Pro du Doubs
- La collecte FTTE du Doubs
- La distribution EOIP Public (gérant l'Internet)
- La distribution EOIP Data (gérant l'accès au service hébergé)
L'équipement est accessible, aucune charge particulière au niveau des flux,flux n'est identifier.identifiée. On pense alors aà un simple plantage de l'équipement. Le NOC décide alors d'effectuer un reboot pour corriger le problème.
Suivi de l'incident
9h35 - L'équipement ne redémarre pas. Une intervention au DataCenter est planifié.e.
9h45 - Le système de sécurité Watchdog aurait du effectuer un reboot de l'équipement.
10h30 - Arrivé au DataCenter l'équipement est bien UP, il ne répond pas sur le réseau d'admin, mais certaincertains flux semblesemblent passer (par exemple le réseau d'admin sur la FFTO AZYLIS - BESANCON fonctionne)
On décide de faire de nouveau un rébootreboot
On reprend alors la main sur l'équipement, des flux semblent fonctionner, mais nous n'avons aucun débit sur les ports.
10h45 - Nous subissons une seconde panne ! Le routeur du réseau d'admin c'est éteint ! Je n'ai plus l'accès au routeur de COL, la poursuite de l'analyse est impossible (pour des raisons de sécurité l'accès aux routeurs est limité par le réseau d'admin)
Le service technique nous remontesremonte d'autres perturbations, je coupe complètement le routeur et les autres services se stabilisent.
Je décide de changer le routeur de COL, par un routeur plus puissant de nouvelle génération. Mais lors de l'import de la connexionconfiguration au nouvellenouvel équipement et surtout lorsque je met la même version d'OS du routeur, celui-ci n'accepte pas la version de production.
Je test un import de confconfiguration sur la nouvelle version, mais il y a beaucoup d'erreur.
Je ne peux pas importer la configconfiguration sur le second routeur de COL présent car sans accès à l'admin. Nous devons faire cela dans un autre équipement.
11h30 - Un second technicien part de Vercel avec un second routeur compatible avec la version, et un routeur d'admin. En l'attendant on tente de nouveau de faire redémarrer le routeur, il repart avec les mêmes symptômes. J'arrive a me connecter dessus et aà effectuer une analyse. Il semble que la partie VLAN ne fonctionne pas. Je change les modules fibres,fibre, je bascule surle réseau master sur le secondaire, mais toujours les mêmes problèmes.
Je décide de supprimer la partie de redondance vers le réseau de transport, et la toute une partie des flux remontent ! C'est l'une des puces du switch de l'équipement qui est mort,HS, toutestoute une partie des flux remontes,remonte, les backups 4G fonctionnent, beaucoup de liens Internet remontent, mais dans le monitoring tout semble instable.
Une demande au support confirme que d'autres services sont aussi de nouveau instable, j'en déduis alors que le routeur en plus d'être défectueux perturbe le réseau de transport (cela produit comme une sorte de boucle réseau). Le second technicien étant sur place je coupe définitivement ce routeur.
12h15 - Le technicien arrive au Datacenter, pendant que l'un des techniciens s'occupentoccupe de remettre en place le réseau d'admin pour que nous puissions de nouveau accéder à tous les équipements, le second importimporte la configconfiguration dans le nouveau routeur.
Résolution de l'incident
14h30 - Le nouveau routeur est en place et tous les services sont de nouveaux opérationnelles, cependant nous traitons encore des effets de bords
Les services sont rétablies mais l'intervention n'est pas terminése
Actions correctives
Suite à cette panne nous devons effectuer les actions correctives suivantes, certaines actions étaient déjà en cours de réalisations,alisation, mais les délais vont être raccourcis :
- Déplacement des portes de
collectescollecte FTTH etFFTEFTTE sur les nouveaux COL (les autres collectes ont déjà été déplacé,es, ces collectes étant en attente d'upgrade et de changement de jarretière au Datacenter) - Déplacement du système de redondance des services DATA sur un équipement virtuel (cela a déjà été fait pour la partie VOIP, ce qui a permis une panne limité des service Voix)
- Déplacement du système de redondance des services INTERNET sur un équipement Physique/virtuel (cela a déjà en cours de validation technique)
