24/01/2020

Hardware problem on QC1-SAN-1

English will follow

Un problème réseau est survenu à 10h23 pour une raison inconnue. Le résultat immédiat a été de mettre le réseau primaire de production en arrêt et basculer sur le réseau secondaire. Cependant, dû à un problème matériel, lors du changement de contrôleurs sur l'une des unités de stockage, le contrôleur a arrêté de fonctionnement normalement, créant immédiatement un arrêt de production pour tous les machines virtuelles étant hébergé sur cette unité.

10h38: le problème est identifié. Une analyse entière du réseau est effectuée pour localiser si la source du problème est encore présente et une fois que ceci a été confirmer (11h15) le basculement des machines virtuelles débute sur la seconde unité de stockage. Durant ce temps un appel de service est passé chez notre fournisseur de matériel qui nous confirme qu'un technicien est en route avec un contrôleur de remplacement avec une heure d'arrivée vers 11h40.

12h05: le remplacement de la pièce défectueuse est fini et nous pouvons la production sur l'unité défectueuse reprend. À partir de 12h30, 100?s opérations sont fonctionnels sur l'unité de stockage et la vérification de l'ensemble de machines virtuelles débutent.

15h30: la vérification/correction de la dernière machine virtuelle est terminée.

02h00 AM, 25/01/2020: unité de stockage remplacé en entier puisqu'après le remplacement de la pièce défectueuse, un doute est présent sur la fiabilité de l'unité de production.

03h15 AM 25/01/2020: l'ensemble des opérations sont terminées et sont de retour en état normal.


A network problem occurred at 10:23 a.m. for an unknown reason. The immediate result was to shut down the primary production network and switch to the secondary network. However, due to a hardware problem, when changing the controller on one of the storage units, the controller has stop operating normally, immediately creating a production stop for all the virtual machine hosted on this unit.

10:38: the problem is to identify. An entire network analysis is performed to locate if the source of the problem is still present and once this has been confirmed (11:15 am) the switchover of virtual machines begins on the second storage unit. During this time a service call is made to our equipment supplier who confirms that a technician is on the way with a replacement controller with an arrival time around 11:40 am.

12:05 PM: the replacement of the defective part is finished and we can resume production on the defective unit. From 12:30 pm, 100% of the operations are functional on the storage unit and the verification of the set of virtual machines begins.

3.30 PM: verification / correction of the last virtual machines is finished.

02:00 AM 01/25/2020: the storage unit is replaced in its entirety since after the replacement of the defective part, there is a doubt about the reliability of the production unit.

3:15 AM 01/25/2020: all operations are completed and are back to normal.