QNAP [Résolu] Le disque installé ne convient pas à la reconstruction du groupe RAID

Banguefu

Nouveau membre
22 Mars 2024
25
8
8
Bonjour, j'ai un Qnap TS-431P. Avec 4x6to en Raid 5. Je m'excuse d'avance si ça va être un peu brouillon en dessous je vais essayer de donner le maximum d'informations par ordre chronologique sur mon soucis.

Semaine dernière alerte SMART de mon disque n°4 avec erreurs d'écriture. Volume toujours dispo en marche dégradé, j'éteins le NAS proprement je remplace le disque 4 par un disque de secours (un WD purple neuf) je relance le nas, la re-construction du raid commence automatiquement, jusque la pas de soucis.

Vers la fin de la reconstruction : Erreur moyenne HDD 3 et le 4 bascule en erreur "E/S de l'historique d'accès au disque" alors que le smart est OK. Le 3 lui est en jaune en avertissement secteur défectueux SMART. La reconstruction n'a pas fonctionné, le volume est toujours dispo en "lecture seule".

Comme pour reconstruire le raid il faut à Qnap 3 disques durs avec SMART ok, j'ai sorti le disque 3, je l'ai passé en "scan et repair" sur le logiciel HDD regénérator et la miracle, mon HDD 3 reviens avec un smart OK (15 secteurs réparés).
Du coup me revoilà sur mon NAS avec mes HDD 1,2,3 en vert et mon raid 5 en marche dégradé avec lecture/écriture autorisé.

(Je suis 100% conscient qu'après reconstruction sur le disque 4, il faudra remplacer rapidement le 3)

Mais le soucis maintenant c'est mon disque neuf... après l'échec de la reconstruction je l'ai passé sous crystal disk info RAS, J'ai fait un scan minutieux de tout les secteurs sur HDTunePro, RAS, un scan complet via l'interface Qnap en espérant qu'il m’acquitte le défaut mais c'est toujours pareil, le scan des secteur c'est bien passé mais toujours le message d'erreur "E/S de l'historique d'accès au disque" . J'ai finalement réussi à enlever le défaut via une formule trouvé sur reddit via ssh " sudo sed -i '/pd_err_wwn_/d' /mnt/HDA_ROOT/.conf"

Et nous voila donc aujourd'hui, avec mes 4 disques en vert. Les 3 premiers avec le contenu de mon raid 5 en marche dégradé, et le 4e neuf en vert aussi, smart OK. Marqué comme "non membre"

Sauf qu'il m'est impossible de reconstruire le raid dessus car le NAS me marque " Le disque installé ne convient pas a la reconstruction du groupe RAID 1. Installez un autre disque pour reconstruire le groupe RAID."

Depuis je sèche... J'ai ressorti le disque 4, je l'ai formaté complet et j'ai effacé toutes les partitions via diskpart > clean . Toujours le même message quand je le remets dans le NAS.

Voici quelques captures d'écran :

Screenshot_20.png

Screenshot_16.png

Screenshot_17.png

J'estime que j'ai déjà beaucoup de chance d'avoir encore accès à mes données, je vais arrêter de tenter le diable et je m'en remets à vous :)

Merci d'avance.
 
Salut
De ce que je comprend le NAS a détecté un partitionnement sur le disque 4, et cela l'empêche de faire la reconstruction avec lui.

Ce que j'essayerai :
Sortir le disque 4
Le brancher sur un PC afin de détruire le partitionnement existant
Le replacer dans le NAS
 
Salut Evo, ravi de te revoir ici :) . J'ai déjà fait ce que tu me recommandes plusieurs fois via l'invite de commande windows avec diskpart > clean

ça me ramène à chaque fois le disque sans partition, non initialisé, et qnap me ressort toujours le même message, et quand je le remet sous windows je constate que le nas m'as recréer tout seul plusieurs partition comme si je branchais un disque membre d'un raid effectivement.

Je vais tenter un " clean all " sous diskpart, ça va prendre du temps, verdict demain ...
 
Salut
Pour moi pas besoin de faire un clean all, un clean doit suffire.

Alors dans ce cas, avec le disque 4 en place , connecte toi en SSH https://www.forum-nas.fr/threads/tuto-se-connecter-à-son-nas-qnap-par-ssh.19604/

Et, en admin, donne nous le résultat des commandes suivantes :

Code:
qcli_storage -d

Code:
md_checker

Code:
cat /proc/mdstat

N'hésite pas a utiliser le bloc "code" pour mettre en forme les résultats des commandes : https://www.forum-nas.fr/threads/wi...ilisation-du-forum-des-nas.17438/#post-130118
 
Salut, désolé pour le format image mais je n'ai pas réussi à copier, je ne maitrise pas putty. Voici les captures

Le soucis doit venir du fait que j'ai déjà tenté de restaurer le raid sur ce disque, il a du garder certaines choses en mémoire et il doit s'attendre à retrouver le disque dans l'état précédent avant que je le formate non ?

Screenshot_23.png

Screenshot_22.png

Screenshot_21.png
 
mais je n'ai pas réussi à copier, je ne maitrise pas putty
pas de soucis, les images c'est bien aussi ;) Sous Putty, a partir du moment que tu selectionne du texte dans le terminal, cela copie automatiquement.
Toujours dans Putty, un clique droit = copier

ok, on voit que /dev/sdd , ton disque 4 n'est pas utilisé, et pas dans le RAID.

Cependant, on voit aussi que ton RAID n'est pas dans un état "normal" :
1741029984938.png
Il manque un U au 3 et 4 eme disque pour le status

1741030009972.png
sdc ( disque 3 ) est marqué comme "Faulty" par le systeme. on voit que ssd est bien en Spare/disque de secours (S), cependant, je pense que du fait de l'état du disque 3 , il ne lance pas la reconstruction.

On peux essayer plusieurs choses pour essayer de forcer le systeme, cependant, c'est loin d’être sans risque a ce stade.
Si tu n'a pas encore de sauvegarde de tes données importantes, c'est la 1ere chose a faire !

Si tu souhaite poursuivre, dit le moi et apres manger je viens t'expliquer la procédure pour essayer de stopper le RAID, puis de le re-lancer afin de voir si cela permet d'enlever le status Faulty sur le disque 3.
et si cela ne marche pas on pourra meme essayer d'aller encore plus loin, en essayant carrément de re-créer les superblock.
 
  • J'aime
Réactions: Banguefu
Merci, je suis au boulot jusqu’à très tard donc pas devant le pc, en rentrant je mettrai en route une copie des éléments les plus importants, et demain on peut tenter de sauver.

Merci beaucoup
 
  • J'aime
Réactions: EVO
Salut,
Essayons déjà une méthode simple ( sans trop de risque mais je ne sait pas si cela peut être suffisant ) :

( N'hésite pas a joindre capture écran ou copier/coller du terminal du résultat des commandes )

Rend toi dans le dossier /tmp :
Code:
cd /tmp

Prend les droits administrateur : (il va te demander de confirmer ton mot de passe )
Code:
sudo -i

Rend toi de nouveau dans le dossier /tmp :
Code:
cd /tmp

Arrête les services en cours sur le NAS :
Code:
/etc/init.d/services.sh stop

Assure toi que QuLog est bien arrêté :
Code:
/etc/init.d/qulog.sh force-stop

Démonte le systeme de fichiers :
Code:
umount /dev/mapper/cachedev1

Supprimer le cachedev1 :
Code:
dmsetup remove cachedev1

Arrête le vg :
Code:
vgchange -an vg288

On stop le drbd :
Code:
drbdsetup down r1

Puis tu stop le RAID :
Code:
mdadm -S /dev/md1

A ce stade, la commande md_checker doit te retourner ton RAID en OFFLINE, comme ceci :
1741036216010.png

A partir de là, fait la commande suivante pour re-activer le RAID avec le disque 1, 2 et 3 :
Code:
mdadm -AfR /dev/md1 /dev/sda3 /dev/sdb3 /dev/sdc3

Refait md_checker et vérifie le status du RAID. Celui doit être en ONLINE, avec 3 U, sous la forme [UUU_] , s'il a même status que avant ( [UU__] ) alors cela n'a pas fonctionné.

Deux solutions a ce stade :

1/ Le RAID a le status [UUU_] :

( tu peux suivre ce point si le status est [UU__] pour essayer de retrouver l'acces aux fichiers mais dans ce cas, inutile a mon sens d'espérer que le RAID reconstruise )
Fait la commande suivante pour re-activer le vg :
Code:
vgchange -ay vg288

Ensuite la commande suivante doit remonter le systeme de fichier :
Code:
/etc/init.d/init_lvm.sh

Relance les services avec :
Code:
/etc/init.d/services.sh start

Attend un peu ( 5min environ ) et regarde dans l'interface du NAS si la reconstruction a commencée, sinon redémarre le NAS.


2/ Le RAID a le status [UU__] / ne passe pas en ONLINE :
Nous pouvons alors essayer d'aller plus loin dans la reconstruction du RAID, attention pas de retour en arrière possible, si cela ne fonctionne pas, dit toi que le systeme de fichier ne pourra pas être remonté !

Puisque logiquement tu as juste avant essayé le mdmad -AfR ... , ton pool doit etre ONLINE, fait la commande suivante pour le re-arreter :
Code:
mdadm -S /dev/md1

Ensuite, reconstruit le groupe RAID avec un nouveau superblock :
Code:
mdadm -CfR --assume-clean /dev/md1 -l 5 -n 4 -c 512 -e 1.0 /dev/sda3 /dev/sdb3 /dev/sdc3 missing
et vérifie le status du RAID :
Code:
md_checker

puis suis le point 1/ pour remettre en place le vg et le systeme de fichier.


Bonne chance ! et n'hésite pas a revenir ici au moindre doute pendant la procédure ;)
 
Dernière édition:
Bon, l'export des données même si je n'exporte pas tout prends beaucoup plus de temps que prévu.

du coup j'attaque demain je te tiens au courant
 
  • J'aime
Réactions: EVO
Salut, je n'arrive pas à mettre mon RAID offline. J'ai essayé 2 fois. Voici la capture du second essai

Screenshot_30.png

J'ai eu des retours not mounted et des not found surement du à mon premier essai.

Je remarque qu'au moment de stopper le RAID il me dit : Cannot get exclusive access to /dev/md1:Perhaps a running process, mounted filesystem or active volume group?

Donc il reste encore des services actifs ce qui m’empêche de stopper le raid proprement. Je n'ai peut etre pas les droits assez élevés ? Ou j'ai peut être été trop vite entre les étapes ?
 
A oui je vois tu es en volule statique.

A la place de :
vgchange -an vg1

Fait:
vgchange -an vg288


--


Et a la place de :
vgchange -ay vg1

Fait :
vgchange -ay vg288
 
Il refuse de désactiver le volume, il me dit qu'il est utilisé, j'ai essayé de refaire un services stop et un qulog force stop toujours pareil .

Screenshot_32.png
 
Du coup j'ai réussi à arrêter le RAID, et fini le 1er chapitre .

Le raid est arrivé avec [UU__] , du coup passage à l'étape 2 sans soucis, par contre au moment du md_checker on dirait qu'il me sors 2 raid ? Mon nouveau marqué avec la date d'aujourd'hui et les 3 U. :D

Et mon ancien daté de septembre 2019. marqué offline avec les disques absents.

Est ce que j'ai une manip particulière à faire à partir de la ?

Screenshot_33.png
 
Maintenant, reprend le point 1 pour re-activer ton vg288
et ensuite, regarde comment cela ce comporte apres le init_lvm.sh

et donne moi le retour de :
lvs -a
pvs -a
df -h
ls -alh /dev/mapper
 
J'ai repris au point 1, et juste après le init_lvm.sh j'ai tapé les commandes que tu m'as demandé. Les voici :

Screenshot_34.png
 
Le volume est présent et monté , c'est tres bon signe !

1741181019360.png

La commande /etc/init.d/services.sh start ou un redémarrage du NAS devrait permettre de tout remettre en ordre.
 
Pourrai tu me donner :
cat /proc/mdstat

j'aimerai voir si le systeme a lancer la reconstruction avec le disque 4 de lui même ou non

Vérifie aussi si l'acces aux données est bien possible ( volume ok dans QTS, dossier partagé visible et consultable dans File Station , ... )