Skip to main content

Panne du 07/12/2023

Description de l'incident


A partir de 8h30 le 07/12/2023 nos outils de monitoring nous ont remontés une montée en latence anormale

image.png

A 9h25 le service support d'AZYLIS à informer les NOC d'un souci de qualité de voix chez certains clients 

Analyse de l'incident


Nous avons rapidement identifier un problème sur l'un de nos routeurs de collecte, ce routeur gère : 

  • La collecte FTTH Pro du Doubs
  • La collecte FTTE du Doubs
  • La distribution EOIP Public (gérant l'Internet) 
  • La distribution EOIP Data (gérant l'accès au service hébergé) 

L'équipement est accessible, aucune charge particulière au niveau des flux, n'est identifier. On pense alors a un simple plantage de l'équipement. Le NOC décide alors d'effectuer un reboot pour corriger le problème.

Suivi de l'incident

9h35 - L'équipement ne redémarre pas. Une intervention au DataCenter est planifié. 
9h45 - Le système de sécurité Watchdog aurait du effectuer un reboot de l'équipement.
10h30 - Arrivé au DataCenter l'équipement est bien UP, il ne répond pas sur le réseau d'admin, mais certain flux semble passer (par exemple le réseau d'admin sur la FFTO AZYLIS - BESANCON fonctionne)
On décide de faire de nouveau un réboot

On reprend alors la main sur l'équipement, des flux semblent fonctionner, mais nous n'avons aucun débit sur les ports de collecte FTTH / FTTE du Doubs.

10h45 - Nous subissons une seconde panne ! Le routeur du réseau d'admin c'est éteint !  Je n'ai plus l'accès au routeur de COL, la poursuite de l'analyse est impossible (pour des raisons de sécurité l'accès aux routeurs est limité par le réseau d'admin) 

Je décide de changer le routeur de COL, par un routeur plus puissant de nouvelle génération. Mais lors de l'import de la connexion au nouvelle équipement et surtout lorsque je met la même version d'OS du routeur, celui-ci n'accepte pas la version de production. 

Je test un import de conf sur la nouvelle version, mais il y a beaucoup d'erreur. 
Je ne peux pas importer la config sur le second routeur de COL présent car sans accès à l'admin 

11h30 - 

Résolution de l'incident


Actions correctives