Tiens pour changer, aujourd'hui je vais vous raconter une histoire informatique.
Un serveur en RAID 5 sur 3 disques tres important pour ma société est tombé en panne. Ca commencé par une alerte :
disque 2 HS. Je l'ai changé, (pas facile de trouver de l'ultra SCSI 320) mais le RAID 5, comme trop souvent, n'est pas remonté...
Petit rappel pour les non initiés :
Le RAID 5 c'est pas 5 poulets déguisés en Robocop, mais : Redundant Array of Independent Disks, ce qui signifie: «regroupement redondant de disques indépendants »
Le RAID 5 c'est donc un groupe de disques durs (3 ou plus) vu comme un seul par l'utilisateur, qui permet, grace a une redondance de data, de s'affranchir d'une panne de disque. En effet si un disque pete, la machine continue comme si de rien etait vu qu'elle a toujours toutes les données. Magique non ? On peut alors changer le disque sans meme arreter l'ordi (hot plug), et des qu'elle a son nouveau disque tout neuf, la bete reconstruit son RAID prete a supporter vaillament une nouvelle défaillance. Sur le papier c'est beau, meme tres beau, et ça permet aux commerciaux de vendre un systeme d'une fiabilitée absolue (donc cher). En effet, 2 disques en panne en meme temps, ça n'arrive jamais mon bon monsieur...
Dans la pratique, il suffit qu'un des autres disques, sans etre vraiment naze, présente quelques petites erreurs apres la panne du premier, on se retrouve avec une soupe de data totalement indémerdable. C'est en tout cas la théorie communément admise par la plupart des informaticiens.
Revenons a mon serveur. Il est donc en panne et le remplacement du disque HS n'a rien résolu. Pour la petite PME dont je gere le parc info, c'est la cata. Ce serveur a 6 ans, il est donc considéré comme préhistorique par le prestataire fournissant le soft. Bien sur, l'appli métier qui tourne dessus est egalement obsolete et n'est pas compatible avec la version actuelle de Windows Server. Pour revenir a une situation fonctionnelle, il faut donc remonter un serveur neuf sous Win2003 server (qui se fait plus), et installer l'appli dans l'ancienne version qui acceptera (ou pas) de reprendre les sauvegardes. Ensuite il faut migrer sur la nouvelle version puisque l'ancienne n'est plus supportée (donc payer la nouvelle licence) et enfin passer le tout sur Win 2008 Server (cher aussi). Delai, environ un mois. (Sans compter les fetes de fin d'année). J'attends toujours le devis mais n'espère rien en dessous de 15k€.
Avec la crise, le CA de la boite tombe en vrille depuis un an. Je prefere piquer ses croquettes a un pitt-bull que d'annoncer ce genre de nouvelle au big boss.
A force de chercher une solution, on m'indique une jeune société de récupération de donnée : DataWolf. (
www.datawolf.fr). Il se trouve que je connais un de ses membres fondateurs dont j'ai deja eu l'occasion d'appécier la technicité et la ténacité.
Apres un contact téléphonique, il se déplace le jour meme pour effectuer un premier diagnostique. Il s'avére qu'un 2eme disque présente des erreurs. Le RAID 5 avec 2 disques sur 3 HS est completement naze... De plus, a la fin de mes essais de redémarrage a la poussette de ce foutu RAID, j'ai tenté un "initialize" qui, semble-t-il, equivaut a "format". (oups..). L'homme de l'art propose de tenter de tout récupérer, estimant avoir de bonnes chances de succes. Vu le cout dérisoire de la tentative en cas d'echec nous avons décidé de tenter l'opération.
DataWolf a fait un travail incroyable, réussisant a réparer un des disques HS, retrouver tout les fichiers, réparer l'arborescence, puis le cloner. Avec le clone + le dernier bon disque, ils ont pu remonter un RAID virtuel. A ce stade il a fallu restaurer le secteur de démarrage de NTFS et la table MFT pour reconstruire la structure de fichiers qui avait disparu. Cette étape réussie, la plupart des fichiers se sont avérés illisibles. Il a fallu encore beaucoup de travail pour identifier la cause (qui avait causé la dégradation du RAID) et réparer les fichiers avec succes. A ce moment le bon vieux Win 2000 Server, forcément impacté, ne voulait toujours pas démarrer. DataWolf a pu déterminer que la base de registre restait corrompue malgres tous ses efforts. C'est la que que j'ai compris a quoi ça servait de cocher l'option "system state" de NTbackup. Grace a une copie de la ruche "SAM" ils ont pu achever la restoration de la base de registre. Ouf ! Il restait plus qu'a migrer tout ça en RAID1 (mirroring) sur 2 disques neufs (j'en veux plus jamais du RAID 5 !) et redémarrer le serveur avec son OS et toutes ses fonctions ! Yeeeessss !
J'ai pu suivre toutes les opérations heure par heure grace a des rapports précis et concis. Un vrai feuilleton, mieux que Dallas, happy end inclus ! Grosse économie de temps et d'argent pour ma boite, et un succes de plus pour le service informatique, dont "on se demande parfois ce qu'ils foutent".
Bingo !
Apres la remise en route du serveur, Datawolf etait encore disponible pour des conseils, et du support. J'ai pas vu une qualité de service a ce niveau depuis au moins 15 ans.
Avec ces mecs la en parachute, je crois que je vais arreter de m'emmerder avec les sauvegardes sur bandes, et bazarder tout le foutoir de K7...