Proxmox Proxmox plantage aléatoire sur Dell Optiplex 3070

pierre liths

Maître Jedi
7 Juin 2021
728
200
118
Professionnel
Non
Bonjour,

Je suis en train de migrer mon serveur Proxmox sur un Dell Optiplex 3070 Micro (i5-9500T,) que j'ai acquis d’occasion. Dès que je l'ai reçus, Je lui ai remplacé son SSD nvme d'origine (nvme2230 de 256Go) par un Crucial nvme 2280 de 1To et ajouté une barette de RAM Crucial de 16Go en plus des 8Go déjà présentes.

J'ai installé Proxmox proprement (plusieurs fois). J'ai un plantage aléatoire de Proxmox (au bout de qqs minutes ou 1jour)

Ci-joint le prompt de la machine après le dernier plantage.

Je ne vois pas ce qui s'est passé. J'ai cru comprendre que concernant les messages d'erreur ACPI, il fallait les ignorer lorsque tout continue de fonctionner normalement. Mais là c'est pas le cas, ou alors ça n'a rien à voir.

J'ai suspecté la RAM, j'ai enlevé la barette de 16Go et laissé la RAM d'origine seul, mais même plantage.

Avez-vous des pistes pour m'aider ?
 

Pièces jointes

  • IMG_4063.JPG
    IMG_4063.JPG
    3.7 MB · Affichages: 11
beaucoup d'infos dans syslog, même après être inaccessible à distance. Comme je n'ai pas la date/heure exact du plantage, et qu'il semble continuer à enregistrer des logs, il faut que je fouille un peu Je reviens avec
 
Alors après fouillé Syslog et fait planté à nouveau mon serveur voici ce que j'obtiens, il a planté vers 07h49. Pour être plus précis, l'interface web est devenu inaccessible à cette heure là. Lorsque je branche l'écran+clavier sur le serveur, le prompt est toujours accessible et fonctionnel. Pour avoir cherché un peu à partir des message après ---------Cut here------------, ça proviendrait de la carte réseau et la dernière version de Debian qui n'installe pas les pilotes propriétaires. Sans vous influencer, qu'en pensez vous ? Pour rappel, le SSD nvme et la RAM ne sont pas d'origine.
 

Pièces jointes

  • Capture d’écran du 2023-08-30 23-19-27.png
    Capture d’écran du 2023-08-30 23-19-27.png
    323.9 KB · Affichages: 6
J'en avais fait avec la barette neuve, mais c'est la première fois que j'en faisait un. J'ai pas l'habitude et après avoir attendu 35 minutes, le memtest a affiché "Pass" puis a continuer d'autres tests sans être allé jusqu'au bout. Il y a une qqch à rechercher en particulier lors du memtest ?
De plus, j'ai essayé avec la barette de RAM d'origine seul, et j'ai eu un plantage également, mais peut etre pas les memes messages d'erreurs dans le syslog.
 
J'ai pas l'habitude et après avoir attendu 35 minutes, le memtest a affiché "Pass"
Tu as 16Go sur ta machine ? Le test devrais prendre une bonne nuit je pense ( dépend aussi du CPU ), sur mon NAS, avec 8Go cela avait pris 7h )

Quand c'est fini tu as normalement un gros PASS comme ceci :
1693502390848.png

 
Tu as 16Go sur ta machine ? Le test devrais prendre une bonne nuit je pense ( dépend aussi du CPU ), sur mon NAS, avec 8Go cela avait pris 7h )

Quand c'est fini tu as normalement un gros PASS comme ceci :
Voir la pièce jointe 9924

C'est ce que j'avais eu au bout de 35 minutes, mais le test n'était pas complétement fini. Je vais explorer cette piste et le laisser tourner toute la nuit. Est ce que c'est cohérent avec le prompt qui est toujours fonctionnel ? Si la RAM a planté, je ne devrait pas avoir accès à plus rien du tout ?
 
Si la RAM a planté, je ne devrait pas avoir accès à plus rien du tout ?
Pas forcément, c'est bien la que les probleme de RAM sont souvent des casses tête. Il est important d'etre sur de sa RAM ( a savoir qu'un Memtest qui ne passe pas peut aussi dire qu'un slot de la CM a un probleme, ou la CM en elle meme, dans de rare cas certe, mais cela ne signifie pas forcément que c'est la barette qui est en cause ).

35Min c'est bien trop court, ya un "couac" en tout cas.

Un probleme avec la RAM peut faire planté un service, ou autre, sans forcément faire planter tout l'OS. Sous Windows, par exemple, quand un service critique se retrouve a "fauté" on se retrouve avec un blue screen, mais quand c'est un service non critique, par exemple un jeu auquel on est entrain de jouer, cela peut aussi etre un simple retour sur le bureau avec un crash de l'appli.
 
Salut,

A ce que j'ai compris, le problème pourrais venir de ta carte réseau.
Vérifie le driver, si c'est une Realtek avec le "r8169", c'est possible que cela viennent de là.

Chez moi, même plantage depuis que je suis passé au Kernel 6.2.x avec Proxmox 8 et un proc N5105.
Je suis repassé en 6.1.x et plus aucun problème.

Juste avant le plantage, j'avais ce message dans les logs :

Code:
Jul 19 19:34:53 proxmox1 kernel: NETDEV WATCHDOG: enp2s0 (r8169): transmit queue 0 timed out

Curieusement sur mon 2eme Promox, j'ai la même carte réseau r8169, mais pas le même processeur (J4125) et pas de problèmes à priori mais le serveur est quasi pas solliciter...
 
  • J'aime
Réactions: EVO
Je suis en train faire un memtest avec celui intégré, il est toujours en cours mais avec ce message PASS (ou bout de 35 minutes environ) , en arrière plan le test contribue. Voir la photo. Bon par contre comme j'ai débranché mon clavier, le rebrancher ne permet plus d'avoir accès à la console 🙄

Pour la carte réseau, ça me paraît être une bonne piste surtout que ma carte réseau d'après les specs constructeur est une Realtek RTL8111HSD-CG Gigabit. Pour l'instant je test la RAM, ça permet de tester et fermer des pistes, et surtout renvoie Amazon si besoin.
Et puis j'ai déjà suivi un tuto hier soir là dessus et j'ai juste rendu la carte réseau totalement inopérant. J'ai dû réinstaller proxmox. Je vous tiens au courant du résultat du memtest.
 

Pièces jointes

  • IMG_4066.jpeg
    IMG_4066.jpeg
    1.6 MB · Affichages: 6
  • J'aime
Réactions: EVO
C'est celle intégrée à Debian/Proxmox au démarrage.
Celle du site, ne fonctionne pas avec ma clé usb
 
Memtest continue de tourner en continue même si une passe est faite avec ou sans erreurs.
Ça va continuer à l’infini.

J’ai fait récemment un test sur la ram d’un ami à qui on a monté le pc, à base de ryzen je sais plus quelle modèle mais un truc bien velu niveau performances .
Et bien j’ai eu 2 passés complètes en moins d’une heure. Pas d’erreurs.

Donc perso j’attend toujours au moins 3 pass sans erreurs voir 3 si j’ai du temps.
Et ensuite je valide le combo ram/cm.
Car comme ça a été justement dit , les soucis de ram ne sont pas simple à diagnostiquer : ça peut venir de la ram , ou de la cm (slot, condensateur de la cm ou autre partie de la cm), voir tout simplement une incompatibilité entre les deux ! J’ai déjà eu ce dernier cas de figure… long à diagnostiquer à l’époque…

Dernière chose sur la ram, notamment sur les ordinateurs avec 4 slots : ne jamais mettre 4 barrettes si on peut avoir la même quantité sur deux seulement. J’ai toujours eu des merdes avec 4 barrettes : ça tire sur l’alimentation de la cm , du coup pas très stable.
 
Je suis en train faire un memtest avec celui intégré, il est toujours en cours mais avec ce message PASS (ou bout de 35 minutes environ) , en arrière plan le test contribue. Voir la photo. Bon par contre comme j'ai débranché mon clavier, le rebrancher ne permet plus d'avoir accès à la console 🙄

Pour la carte réseau, ça me paraît être une bonne piste surtout que ma carte réseau d'après les specs constructeur est une Realtek RTL8111HSD-CG Gigabit. Pour l'instant je test la RAM, ça permet de tester et fermer des pistes, et surtout renvoie Amazon si besoin.
Et puis j'ai déjà suivi un tuto hier soir là dessus et j'ai juste rendu la carte réseau totalement inopérant. J'ai dû réinstaller proxmox. Je vous tiens au courant du résultat du memtest.

Tape un
Bash:
ethtool -i enp2s0
et remplace "enp2s0" par le nom de ton interface réseau.

Et tu devrait avoir le nom exact du driver :

Code:
driver: r8169
version: 6.1.15-1-pve
firmware-version: rtl8168h-2_0.0.2 02/26/15
expansion-rom-version:
bus-info: 0000:02:00.0
supports-statistics: yes
supports-test: no
supports-eeprom-access: no
supports-register-dump: yes
supports-priv-flags: no

Si c'est aussi le driver "r8169", c'est possible que ton problème viennent de là.
Chez moi tout fonctionnait bien, jusqu'à ce que Proxmox passe au kernel 6.2.x
J'ai fais des recherches sur le net et apparemment ce driver est plutôt connu pour parfois ne pas bien fonctionner sous Linux....

J'ai aussi pas mal d'erreur ACPI du BIOS au boot de Proxmox; mais je n'ai pas fait attention si je les avais avant avec la version 7 de proxmox.
 
Memtest continue de tourner en continue même si une passe est faite avec ou sans erreurs.
Ça va continuer à l’infini.
Alors peut etre les ancienne version, mais non quand c'est fini, memtest s'arrête , en toit cas pour le test par défaut ( celui qui se lance en auto au boot ) sur don screen on voit que la 1ere pass est ok mais le test n'est pas fini.


Et bien j’ai eu 2 passés complètes en moins d’une heure. Pas d’erreurs.
Tu n'a pas fait le test complet, ou alors c'était une config avec 2go de RAM ?
 
Je vais me débrouiller pour tester avec la version 10 ce sera moins ambiguë
Sinon je n'ai que deux slots sodimm 2666Mhz :
8Go d'origine + 16Go Crucial DDR4 3200 CT16G4SFRA32A compatible avec plusieurs fréquences dont 2666Mhz
 
Dernière édition:
Je reviens pour donner des nouvelles conernant mon problème :
- Concernant la RAM, impossible d’exécuter memtest version 10 sur mon Optiplex, j'ai changé de clée USB, ça fonctionne sur mon PC perso, mais sur l'Optiplex, j'obtiens le message : "Selected boot device failed". Je me contenterai de la version 6 intégré à Débian12/Proxmox8 qui n'a rien détecté d'anormal.

-Concernant la carte réseau, j'ai effectué la commande ethtool comme préconisé Bambusa29, et elle me retourne bien : Driver : r8169.
J'avais déjà exploré cette piste en cherchant sur internet. Et de nombreuses personnes sont dans le même cas que moi. j'ai essayé d'installer des pilotes propriétaires comme indiqué par exemple ici Mais je suis juste parvenu à désactiver complètement la carte réseau. Le problème proviendrai de Debian12 qui n'accepte plus les pilotes propriétaires, version d'OS sur laquelle est basé Proxmox Version 8. Curieux que ça fonctionne temporairement jusqu'à un plantage aléatoire.
J'ai essayé d'installer Debian11 puis Proxmox8, mais ça s'est pas bien passé.
Je me suis résolu à installer Proxmox7.4 basé sur Debian11. Ca ne fait pas encore une journée, mais tout se passe bien, je l'ai bien chargé et tout est stable.
Merci pour aide, en tout cas j'airai découvert memtest grâce à ce problème. Tan pis pour la version 8 de Proxmox, je suivrai ce problème de pilote pour l'installer peut-être plus tard.
 
Je reviens pour donner des nouvelles conernant mon problème :
- Concernant la RAM, impossible d’exécuter memtest version 10 sur mon Optiplex, j'ai changé de clée USB, ça fonctionne sur mon PC perso, mais sur l'Optiplex, j'obtiens le message : "Selected boot device failed". Je me contenterai de la version 6 intégré à Débian12/Proxmox8 qui n'a rien détecté d'anormal.

-Concernant la carte réseau, j'ai effectué la commande ethtool comme préconisé Bambusa29, et elle me retourne bien : Driver : r8169.
J'avais déjà exploré cette piste en cherchant sur internet. Et de nombreuses personnes sont dans le même cas que moi. j'ai essayé d'installer des pilotes propriétaires comme indiqué par exemple ici Mais je suis juste parvenu à désactiver complètement la carte réseau. Le problème proviendrai de Debian12 qui n'accepte plus les pilotes propriétaires, version d'OS sur laquelle est basé Proxmox Version 8. Curieux que ça fonctionne temporairement jusqu'à un plantage aléatoire.
J'ai essayé d'installer Debian11 puis Proxmox8, mais ça s'est pas bien passé.
Je me suis résolu à installer Proxmox7.4 basé sur Debian11. Ca ne fait pas encore une journée, mais tout se passe bien, je l'ai bien chargé et tout est stable.
Merci pour aide, en tout cas j'airai découvert memtest grâce à ce problème. Tan pis pour la version 8 de Proxmox, je suivrai ce problème de pilote pour l'installer peut-être plus tard.
Tu pouvais rester sur Proxmox 8.x en changeant juste le kernel au boot. Normalement tu devrais avoir plusieurs kernel qui ont été installés au fur et à mesure des mises à jour de Proxmox.

Perso je suis resté sur la version 8.0.3 de Proxmox avec le dernier kernel 6.1.15-1 et plus aucun problème de carte réseau.
Les cartes Realtek c'est assez merdique sur Linux...

Code:
uname -a
Linux proxmox1 6.1.15-1-pve #1 SMP PREEMPT_DYNAMIC PVE 6.1.15-1 (2023-03-08T08:53Z) x86_64 GNU/Linux
 
  • J'aime
Réactions: EVO
Tu pouvais rester sur Proxmox 8.x en changeant juste le kernel au boot. Normalement tu devrais avoir plusieurs kernel qui ont été installés au fur et à mesure des mises à jour de Proxmox.
Un petit Mémo sur comment changer de Kernel dans Proxmox ? :p

Si tu as un peu de temps, sinon, je le ferait mais plus tard ;) Je pense que cela pourrai interesser des personnes ! C'est pas mal pour essayer de voir si des problèmes que nous avons apres une maj et du au Kernel
 
  • J'aime
Réactions: Bambusa29