Bonjour les moules,
J'ai depuis quelques jours de petits soucis avec mon pc que je me propose de vous exposer ici:
mercredi de cette semaine, depuis mon boulot (et comme quasiment chaque jour), je me connecte en ssh à ma machine perso pour lancer un yaourt -Syu mais obtiens une erreur d'écriture dans /tmp. Je tente un touch dans /tmp, ~/, faut me rendre à l'évidence, tout est passé en lecture seul.
Ne prenant pas le temps de réfléchir, je reboot à distance ma machine: je n'y aurais plus accès.
De retour chez moi, je constate qu'au reboot la partition /dev/sda3 (mon /) n'a put être monté dans /new_root. Me voilà donc dans un busybox minimal.
Un reboot sur un ctkarch (live cd basé sur arch) plus tard, le fsck.ext4 me parle d'une feature "FEATURE_I15".
e2fsck me dit qu'il y trop vieux pour certaines feature du fs, blablabla...
Un coup de debugfs pour retirer cette feature et fsck est enfin d'accord pour faire un check du FS.
Évidemment, c'est la cata, le bordel, la misère. Bref, pleins d'erreurs (mais corrigé).
Reboot du pc et là, ça démarre normalement et me retrouve sur mon bureau.
Sauf que... pas de réseau.
je passe rapidement sur le contrôleur realtek rtl8168b de ma carte mère et les histoires de module r8169 et r8168. J'utilisais (par défaut) le r8169 pour ce contrôleur sans aucun problème. Mais à présent, mon réseau ne fonctionne qu'avec le r8168 et en forçant le lien à 10Mbit (je suis relié en 100Mbit autonegocié avec une freebox v5 normalement).
si je reste en négociation automatique, voilà l'état du lien:
[peshane@pesharch3 ~]$ while true; do sudo mii-tool eth0; sleep 0.1; done | awk '{if(/ok$/){ok=ok+1; nok=0; print "ok="ok,"\tnok="nok}else{nok=nok+1; ok=0; print "ok="ok,"\tnok="nok}}'
ok=1 nok=0
ok=2 nok=0
ok=3 nok=0
ok=4 nok=0
ok=0 nok=1
ok=0 nok=2
ok=0 nok=3
ok=0 nok=4
ok=0 nok=5
ok=0 nok=6
ok=0 nok=7
ok=0 nok=8
ok=0 nok=9
ok=0 nok=10
ok=0 nok=11
ok=0 nok=12
ok=0 nok=13
ok=0 nok=14
ok=0 nok=15
ok=0 nok=16
ok=1 nok=0
ok=2 nok=0
ok=3 nok=0
ok=4 nok=0
ok=5 nok=0
ok=6 nok=0
ok=7 nok=0
ok=8 nok=0
ok=0 nok=1
ok=0 nok=2
ok=0 nok=3
ok=0 nok=4
ok=0 nok=5
ok=0 nok=6
ok=0 nok=7
ok=0 nok=8
ok=0 nok=9
ok=0 nok=10
ok=0 nok=11
ok=0 nok=12
ok=0 nok=13
ok=0 nok=14
ok=0 nok=15
ok=0 nok=16
ok=0 nok=17
ok=1 nok=0
ok=2 nok=0
ok=3 nok=0
ok=4 nok=0
ok=5 nok=0
ok=6 nok=0
ok=7 nok=0
ok=0 nok=1
ok=0 nok=2
ok=0 nok=3
ok=0 nok=4
ok=0 nok=5
ok=0 nok=6
ok=0 nok=7
ok=0 nok=8
ok=0 nok=9
ok=0 nok=10
ok=0 nok=11
^C
[peshane@pesharch3 ~]$
Ce problème de lien réseau est également présent durant la POST, donc l'OS ne semble pas en cause.
Vu que le pc tournait et que j'étais un peu interloqué par ce problème réseau, je me penche même pas sur le problème disque précédent.
Donc ok, j'achète une carte ethernet en pci.
Lien ok dès la POST, cool.
De retour sur mon bureau, toujours pas d'internet et de réseau. Ping de la passerelle ko.
Je reforce en 10Mbit, ça fonctionne.
On ne peut donc pas dire que j'ai beaucoup avancé avec cette carte pci.
Je remarque, enfin, que parfois le pc freeze durant un instant plus ou moins long.
En zieutant les logs du kernel, je vois des choses comme ceci:
Nov 25 20:22:38 localhost kernel: [ 258.595995] ata1.00: exception Emask 0x10 SAct 0x1 SErr 0x280100 action 0x6 frozen
Nov 25 20:22:38 localhost kernel: [ 258.596114] ata1.00: irq_stat 0x08000000, interface fatal error
Nov 25 20:22:38 localhost kernel: [ 258.596194] ata1: SError: { UnrecovData 10B8B BadCRC }
Nov 25 20:22:38 localhost kernel: [ 258.596271] ata1.00: failed command: READ FPDMA QUEUED
Nov 25 20:22:38 localhost kernel: [ 258.596350] ata1.00: cmd 60/00:00:e0:1d:9d/02:00:2f:00:00/40 tag 0 ncq 262144 in
Nov 25 20:22:38 localhost kernel: [ 258.596351] res 40/00:04:e0:1d:9d/00:00:2f:00:00/40 Emask 0x10 (ATA bus error)
Nov 25 20:22:38 localhost kernel: [ 258.596565] ata1.00: status: { DRDY }
Nov 25 20:22:38 localhost kernel: [ 258.596639] ata1: hard resetting link
Nov 25 20:22:48 localhost kernel: [ 268.577425] ata1: softreset failed (1st FIS failed)
Nov 25 20:22:48 localhost kernel: [ 268.577512] ata1: hard resetting link
Nov 25 20:22:48 localhost kernel: [ 269.063360] ata1: SATA link up 3.0 Gbps (SStatus 123 SControl 300)
Nov 25 20:22:48 localhost kernel: [ 269.075011] ata1.00: configured for UDMA/133
Nov 25 20:22:48 localhost kernel: [ 269.086663] ata1: EH complete
Nov 25 20:22:54 localhost kernel: [ 274.493172] ata1.00: exception Emask 0x10 SAct 0x1 SErr 0x280100 action 0x6 frozen
Nov 25 20:22:54 localhost kernel: [ 274.493291] ata1.00: irq_stat 0x08000000, interface fatal error
Nov 25 20:22:54 localhost kernel: [ 274.493370] ata1: SError: { UnrecovData 10B8B BadCRC }
Nov 25 20:22:54 localhost kernel: [ 274.493447] ata1.00: failed command: READ FPDMA QUEUED
Nov 25 20:22:54 localhost kernel: [ 274.493526] ata1.00: cmd 60/00:00:e0:63:de/02:00:2f:00:00/40 tag 0 ncq 262144 in
Nov 25 20:22:54 localhost kernel: [ 274.493527] res 40/00:04:e0:63:de/00:00:2f:00:00/40 Emask 0x10 (ATA bus error)
Nov 25 20:22:54 localhost kernel: [ 274.493741] ata1.00: status: { DRDY }
Nov 25 20:22:57 localhost kernel: [ 277.436492] ata1: SATA link down (SStatus 0 SControl 310)
Nov 25 20:23:02 localhost kernel: [ 282.428543] ata1: hard resetting link
Nov 25 20:23:20 localhost kernel: [ 282.914437] ata1: SATA link up 1.5 Gbps (SStatus 113 SControl 310)
Nov 25 20:23:20 localhost kernel: [ 282.926034] ata1.00: configured for UDMA/133
Nov 25 20:23:20 localhost kernel: [ 282.937688] ata1: EH complete
Nov 25 20:23:20 localhost kernel: [ 282.955902] ata1.00: exception Emask 0x50 SAct 0xf SErr 0x280900 action 0x6 frozen
Nov 25 20:23:20 localhost kernel: [ 282.956019] ata1.00: irq_stat 0x08000000, interface fatal error
Nov 25 20:23:20 localhost kernel: [ 282.956097] ata1: SError: { UnrecovData HostInt 10B8B BadCRC }
Nov 25 20:23:20 localhost kernel: [ 282.956175] ata1.00: failed command: READ FPDMA QUEUED
Nov 25 20:23:20 localhost kernel: [ 282.956252] ata1.00: cmd 60/00:00:e0:6f:e0/02:00:2f:00:00/40 tag 0 ncq 262144 in
Nov 25 20:23:20 localhost kernel: [ 282.956253] res 40/00:1c:02:23:ca/00:00:01:00:00/40 Emask 0x50 (ATA bus error)
Nov 25 20:23:20 localhost kernel: [ 282.956465] ata1.00: status: { DRDY }
Nov 25 20:23:20 localhost kernel: [ 282.956535] ata1.00: failed command: WRITE FPDMA QUEUED
Nov 25 20:23:20 localhost kernel: [ 282.956612] ata1.00: cmd 61/08:08:9a:38:6a/00:00:03:00:00/40 tag 1 ncq 4096 out
Nov 25 20:23:20 localhost kernel: [ 282.956613] res 40/00:1c:02:23:ca/00:00:01:00:00/40 Emask 0x50 (ATA bus error)
Nov 25 20:23:20 localhost kernel: [ 282.956824] ata1.00: status: { DRDY }
Nov 25 20:23:20 localhost kernel: [ 282.956894] ata1.00: failed command: WRITE FPDMA QUEUED
Nov 25 20:23:20 localhost kernel: [ 282.956971] ata1.00: cmd 61/20:10:b2:68:87/00:00:01:00:00/40 tag 2 ncq 16384 out
Nov 25 20:23:20 localhost kernel: [ 282.956972] res 40/00:1c:02:23:ca/00:00:01:00:00/40 Emask 0x50 (ATA bus error)
Nov 25 20:23:20 localhost kernel: [ 282.957183] ata1.00: status: { DRDY }
Nov 25 20:23:20 localhost kernel: [ 282.957254] ata1.00: failed command: WRITE FPDMA QUEUED
Nov 25 20:23:20 localhost kernel: [ 282.957331] ata1.00: cmd 61/08:18:02:23:ca/00:00:01:00:00/40 tag 3 ncq 4096 out
Nov 25 20:23:20 localhost kernel: [ 282.957332] res 40/00:1c:02:23:ca/00:00:01:00:00/40 Emask 0x50 (ATA bus error)
Nov 25 20:23:20 localhost kernel: [ 282.957543] ata1.00: status: { DRDY }
Nov 25 20:23:20 localhost kernel: [ 282.957621] ata1: hard resetting link
smartctl, pour ce que ça vaut:
[peshane@pesharch3 ~]$ sudo smartctl -H /dev/sda
smartctl 5.42 2011-10-20 r3458 [x86_64-linux-3.1.2-1-ARCH] (local build)
Copyright (C) 2002-11 by Bruce Allen, http://smartmontools.sourceforge.net
=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED
Là j'écris depuis ce même pc souffre-tant dont le log kernel ne m'indique pour l'instant aucun problème disque mais pendant combien de temps...
Qu'en pensez-vous ?
# facile
Posté par Guillaume D. . Évalué à 1.
C'est le câble réseau.
a+
[^] # Re: facile
Posté par peshane . Évalué à 2.
C'est vrai que mon récit passe un peu vite sur le problème réseau.
J'ai testé avec un autre câble, les autres ports de la freebox (et de la rebooter), j'ai également testé le lien avec un routeur linksys wrt54gc sans plus de succès.
[^] # de retour sur le souci réseau
Posté par peshane . Évalué à -1.
je ne sais pas si ça peut aider les plus perspicaces d'entre vous mais lorsque mon pc mourant est en 100 Mbit et que je lance un tcpdump arp sur un autre pc du lan, j'obtiens ça:
ma freebox demande qui est 192.168.1.128 (mon pc mourant).
les 3 derniers sont un arping depuis le pc mourant qui est bien reçu par l'autre pc.
Si je fait un arping vers 192.168.1.123 (mon deuxième pc), alors vu du deuxième pc:
alors que le pc en souffrance ne reçoit aucune réponse:
évidement, dès que je passe à 10 Mbit, tout est ok.
# Negociation SATA
Posté par Olivier (site web personnel) . Évalué à 6.
Il y a quelques temps, depuis le passage dans les derniers kernel 2.6 (je suis en Debian Testing, donc cela évolue régulièrement), j'ai moi aussi vu ce genre de messages lier au disque dur.
Le problème ne vient pas du disque, mais de la manière dont le kernel négocie la vitesse du contrôleur SATA(/PATA). Cela se configure en passant des paramètres au kernel ( http://www.kernel.org/doc/Documentation/kernel-parameters.txt ).
Ce n'est pas super évident à analyser, et il faut faire des tests "jusque cela marche". Avec évidement un reboot pour chaque tests... :=(
Voici les différents combinaisons que j'ai utilisé:
libata.force=noncq
libata.force=noncq,1.5Gbps
libata.force=noncq,3.0Gbps
libata.noacpi
acpi=noirq
acpi=off
La dernière option est un peu une "arme atomique" qui bride pas mal la machine (les modes hibernation/suspend ne marcherons par exemple plus). Mais elle a au moins eu le mérite de marcher dans les conditions les moins favorables.
Plus d'informations ici : http://ubuntuforums.org/showthread.php?t=1014723
Pour info, c'est bien un problème de kernel. En boutant la machine sur un kernel plus ancien, le problème n'apparaît plus. De plus, le problème apparaît sur différentes machines, plus ou moins anciennes, laptop ou desktop.
[^] # Re: Negociation SATA
Posté par peshane . Évalué à 0. Dernière modification le 27 novembre 2011 à 16:32.
étrangement, je n'ai plus de trace du disque dans les logs depuis que j'ai essayé de brancher mon disque sur un autre port SATA (mais le disque n'était alors plus vu lors de la POST donc je l'ai remis sur le port 1).
Par contre, je viens de découvrir ça dans les logs:
A ce moment là, j'étais entrain de tester différentes combinaison de vitesse et de duplex. A noter qu'en retournant à 10Mbits full duplex, cette fois-ci cela ne fonctionnait plus et j'ai du rebooter la machine pour à nouveau récupérer le réseau en 10Mbits full.
Pour en revenir au disque, finalement smartctl indique quand même quelques bricoles:
ça donne l'impression d'un problème de lien SATA mais je n'en suis pas certain. En plus, depuis que j'ai tripoter un peu le cable SATA, j'ai plus plus rien dans les logs par rapport au disque.
Mais je reste persuadé qu'il y a un lien avec mon problème réseau. Les points communs que je voit sont:
- le southbridge
* contrôleur réseau intégré qui ne fait plus de link en 100Mbits mais ok en 10Mbits
* contrôleur réseau en pci qui link en 100Mbits mais qui ne peut rien pinger même dans le lan (unreachable) sauf en 10Mbits (et à condition manifestement de ne pas trop le faire switcher de vitesse)
* problème d'accès disque
- l'alimentation
* une faiblesse de l'alimentation pourrait également être une explication à mes problèmes mais les tensions sont ok.
[^] # Re: Negociation SATA
Posté par NeoX . Évalué à 2.
ton disque que tu ne vois plus dans le "POST" en changeant de port
=> verifie dans le BIOS que tes ports SATA sont reglés sur "auto" et pas sur "disabled"
car sinon, il n'est pas vu au POST
et parfois pas vu sous linux (mais là ca depend du driver)
[^] # Re: Negociation SATA
Posté par peshane . Évalué à 0.
Ils sont bien tous en auto dans le setup du bios :)
[^] # Re: Negociation SATA
Posté par Olivier (site web personnel) . Évalué à 3.
D'après les logs, c'est le module réseau qui a crashé.
Outre un problème lié au code source du driver dans le kernel Linux, le problème est peut-être purement hardware.
L'année dernière, je m'étais acheté une carte réseau gigabyte PCI-expresse pas chère du tout sur eBay. Je me suis rapidement rendu compte que cela rendait le kernel super instable (crash), et aussi que le chipset principale de la carte chauffait beaucoup. Il y n'y avait pas de dissipateur thermique dessus, ce qui explique peut-être les problèmes. En tout cas, j'ai rapidement retiré la carte de ma machine, et depuis, plus de problème.
Par hasard, est-ce que les chipsets north/southbridge ne chauffent pas trop ? Ou alors, un composé commence a vieillir sur la machine (un condensateur par exemple, ce qui fait planter la partie réseau).
Peux-tu désactiver cette carte réseau, et en utiliser une autre ?
[^] # Re: Negociation SATA
Posté par peshane . Évalué à 0.
c'est à dire qu'il s'agit déjà d'une carte réseau pci que j'ai acheter suite à mon problème précédent:
- flapping du lien en négociation auto (quelques soit le câble, sur ma freebox v5 et un routeur linksys): en boucle, lien pendant 0.8s, pas de lien pendant 1,7s.
- lien possible uniquement en forçant le lien à 10Mbit.
J'ai donc tenté le coup de m'acheter une carte ethernet en pci et constate aujourd’hui ceci:
- autonégo ok à 100Mbit mais "destination host unreachable"
- réseau ok une fois forcé à 10Mbit
L'ensemble des problèmes (disque et réseau) me fait en effet penser à un problème matériel.
Du reste, sur ce même pc qui sent le sapin, j'ai joué plusieurs heures à Skyrim sans que la machine sourcille. Bon wine et/ou le jeu ont plantés plusieurs fois mais rien d’anormal dans les logs systèmes suite à ce mini stress test de la machine.
# Conclusion ... ?
Posté par peshane . Évalué à 0.
Alors finalement, j'ai racheté une carte mère (le même modèle d'ailleurs) et tout va bien à présent. Fin de l'histoire... j'espère!
Suivre le flux des commentaires
Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.