Bon, j'ai une machine sous Debian, mais le pb ne semble pas provenir de la distrib...
Alors que la machine encaissait sans pb des uptimes assez longs, je suis tombé à 2-3h de moyenne !!
C'est du stable avec quelques paquets testing... (obligé pour les applis genre xmms, mplayer...)
La machine freeze (en faisant clignoter les LEDs du clavier: caps & scroll, mais pas num) et m'oblige méchamment à rebooter. Donc plus moyen de basculer vers une console, ni de connexion ssh.
Elle reboote parfois toute seule.
Le serveur X (XFree86) reboote parfois de lui-même aussi.
Je n'ai rien trouvé d'anormal dans les logs (syslog, dmesg, xfree86), et ces pb interviennent même quand je désactive tous les services possibles (FTP, NTP, NFS, GDM et donc plus de X mais ça freeze quand même).
Je logge par contre les versions des paquets installés avant chaque nouvelle install de paquets ou chaque upgrade. J'ai essayé de downgrader vers les versions de ma dernière configuration "stable" supposée, mais pour un d'entre eux, je n'y arrive pas (libc6) car il est introuvable dans une autre version que la 2.3.2.ds1-16 (qui est alors la plus récente). J'ai essayé de récupérer les paquets anciens sur snapshot.debian.net, mais je ne trouve pas grand chose sur libc6... est-ce d'ailleurs l'origine de mon pb ?
D'où peut venir mon pb ? Est-ce récupérable par un downgrade ? Cela peut-il venir d'un pb matériel ? (ça serait plus grave...)
Help, mon serveur crash totalement !! ;(
# Noyau?
Posté par Croconux . Évalué à 3.
Je n'ai rien trouvé d'anormal dans les logs (syslog, dmesg, xfree86)
Et dans kern.log? Pas de "kernel panic" ou de "Oops"?
[^] # Re: Noyau?
Posté par Alexandre Dombrat . Évalué à 1.
Mon matos est tout ce qu'il y a de plus "standard", surtout quand je sais que ça marchait nickel jusqu'il y a une semaine... :(
Par contre, dans kern.log, j'ai un truc comme ceci :
Unable to handle kernel NULL pointer dereference at virtual address 0000001c
Oops: 0000
suivi d'un charabia et entre autres de
kernel BUG at vmscan.c:432!
ou
kernel BUG at shmem.c:432!
J'avais alors des segfaults de partout, et j'ai dû rebooter...
Sinon, dans le cas des freezes, rien du tout dans les logs. (c'est donc bien un freeze total, car même les logs sont gelés !)
Et pas le moindre kernel panic, d'ailleurs le démarrage se passe normalement...
[^] # Re: Noyau?
Posté par Croconux . Évalué à 4.
http://www.ussg.iu.edu/hypermail/linux/kernel/0406.1/1496.html(...)
Des cas de oopses lors de phases de forte charge mémoire ont été reportés. Ca peut venir de plusieurs chose:
- barrette de ram foireuse mais si ça marchait bien avant il n'y a pas de raison (un test de tes barettes peut permettre de lever le doute).
- un bug dans l'allocation de pages mémoire.
La deuxième possibilité a l'air d'être la bonne. Un problème a été identifié à ce sujet. Si une tentative d'allocation de page échoue, ça peut partir en oops. Un patch a été proposé mais pas encore inclus à ma connaissance :
http://www.ussg.iu.edu/hypermail/linux/kernel/0408.3/1846.html(...)
Voilà j'espère que ça pourra te dépanner.
[^] # Re: Noyau?
Posté par Alexandre Dombrat . Évalué à 1.
- barrette de ram foireuse
Comment ça se teste au juste des barettes de ram ?
C'est pas avec le package memtest86 ? Je vais essayer de voir ça... par contre j'espère qu'il ne faut pas booter sur une vieille disquette pour lancer l'utilitaire, car j'ai viré le lecteur pour aérer ma tour...
Et ce patch, comment ça s'applique ? (Ne l'ayant jamais fait, voilà aussi pourquoi j'ai pris le kernel-image tel quel... :p)
Au pire, je passe à une version de noyau supérieure, ce qui ne serait pas plus mal non plus...
[^] # memtest86
Posté par Nicolas Bernard (site web personnel) . Évalué à 4.
Il n'y a pas besoin de disquette, tu peux l'installer sur ton disque dur et l'ajouter au menu de démarrage de lilo... il n'y a ensuite qu'à booter dessus.
[^] # Re: memtest86
Posté par Alexandre Dombrat . Évalué à 0.
En fait, j'ai lancé memtest86, et il m'a trouvé plein d'erreurs sur ma 128Mo, aucune sur ma 256Mo...
Je tourne donc avec une RAM un peu tronquée, ça fait un peu galère mais ça marche (ram... galère... j'ai pas résisté au jeu de mots ! :p)
L'alim semble correcte, j'ai vérifié tous les branchements et inspecté minutieusement sans trouver de traces de grillé. L'alim est aussi ventilée, autorégulée en température, et me semble de bonne qualité...
En fait, c'est donc un des composants les plus anciens de l'ordi qui a lâché, car cette barrette de RAM datait d'octobre 2000 !!
Là, l'ordi tient le coup sans faillir avec 12h d'uptime... sachant que je lui ai lancé un calcul distribué (Folding@Home pour les connaisseurs), du mplayer et un p'tit coup de tuxracer pour faire travailler les mémoires. Donc je pense que c'est concluant, il aurait déjà planté avec tout ça sinon.
Merci à tous pour votre aide !! ;)
[^] # Re: Noyau?
Posté par Alexandre Dombrat . Évalué à 0.
Mon matos est tout ce qu'il y a de plus "standard", surtout quand je sais que ça marchait nickel jusqu'il y a une semaine... :(
Par contre, dans kern.log, j'ai un truc comme ceci :
Unable to handle kernel NULL pointer dereference at virtual address 0000001c
Oops: 0000
suivi d'un charabia et entre autres de
kernel BUG at vmscan.c:432!
ou
kernel BUG at shmem.c:432!
J'avais alors des segfaults de partout, et j'ai dû rebooter...
Sinon, dans le cas des freezes, rien du tout dans les logs. (c'est donc bien un freeze total, car même les logs sont gelés !)
Et pas le moindre kernel panic, d'ailleurs le démarrage se passe normalement...
# Pb hard
Posté par dommtp . Évalué à 3.
Au début, ca plantait de facon plus ou moins déterministe sur certaines opéations (encodage mp3 entre autre). Ensuite je me suis aperçu que ca plantait des que la charge CPU restait à 100% pendant trop longtemps. Ca s'est dégradé assez vite, et a la fin l'uptime était tombé a quelques secondes!!! Ce qui mettait hors de cause l'OS évidemment puis qu'il n'avait meme pas le temps de booter.
Il semble que cela était due a un probleme de surchauffe. Je m'en suis sorti en réduisant ma fréquence d'horloge à 1GHz (pour un athlon 1.4GHz). Depuis j'ai encore des plantage mais moins fréquent.
[^] # Pb alim ?
Posté par daggett . Évalué à 3.
En fait c'est mon alim qui avait grillé; Regarde dans le BIOS (ou avec lm-sensors s'il est configuré) les valeurs des voltages 3.3V, 5V et 12v: les miens n'etaient pas stables, en particulier mon 5V etait plus proche des 4V. J'ai acheté une nouvelle alim de qualité, et depuis tout remarche nickel. Quand j'ai enlevé l'ancienne alim, j'ai vu que sur la grosse prise vers la carte-mère, les quatres broches chargées du +5V étaient toutes noires (grillées)...
[^] # Re: Pb alim ?
Posté par dommtp . Évalué à 2.
Au bout d'un certain temps d'utilisation, j'avais droit a un freeze de la machine, mais la différence était que si je rebootait, ca tenait qques secondes seulement. Si j'arretais la machine 5 mn, j'avais droit a quelques minutes avant de replanter. Il fallait que je laisse la machine éteinte environ une heure pour qu'elle puisse rebooter et tourner quelques heures. Un beau jour ca n'a plus démarré du tout.
J'avais d'abord pensé a une surchauffe du CPU mais sans arriver a le voir dans le bios. J'ai démonté et nettoyé le ventilo sans résultat.
Ca devait etre une surchauffe de l'alim. Je pensais qu'elle disjonctait par sécurité, mais c'etait peut etre comme tu le dis une instabilité des tensions.
J'ai acheté une alim surdimensionnée et ventilée donc je ne pense pas qu'elle soit en cause.
Suivre le flux des commentaires
Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.