Bonjour,
Il y a quelque jours, j'ai eu une alarme Nagios car MegaCLI a détecté une Media Error sur un de mes disques.
La documentation de MegaCLI étant une chose relativement nébuleuse, je me retourne vers la communauté afin de trouver une explication à ce nom.
Dois-je m'inquiéter (il n'y a qu'une erreur)? Est-ce que cela signale un secteur cassé/invalidé?
Merci.
L'output de la commande:
BRUBLUst01:/usr/local/bin# /opt/MegaRAID/MegaCli/MegaCli64 -PDList -a0
Adapter #0
Enclosure Device ID: 32
Slot Number: 0
Device Id: 0
Sequence Number: 2
Media Error Count: 1
Other Error Count: 0
Predictive Failure Count: 0
Last Predictive Failure Event Seq Number: 0
Raw Size: 715404MB [0x575466f0 Sectors]
Non Coerced Size: 714892MB [0x574466f0 Sectors]
Coerced Size: 714880MB [0x57440000 Sectors]
Firmware state: Online
SAS Address(0): 0x1221000000000000
Connected Port Number: 0(path0)
Inquiry Data: ATA ST3750640NS 3BKS 5QD3ZT7W
# Réalloué ?
Posté par fcartegnie . Évalué à 4.
Ca peut être un secteur réalloué, ou bien que la table de réalloc est pleine et les données endommagés.
Pour en être sur, faut sortir un log des données smart.
[^] # Re: Réalloué ?
Posté par Henry-Nicolas Tourneur (site web personnel) . Évalué à 1.
Merci pour la réponse.
Quand j'essaye d'activer SMART, je vois ceci:
Server:~# smartctl -i -d scsi /dev/sda
smartctl version 5.38 [x86_64-unknown-linux-gnu] Copyright (C) 2002-8 Bruce Allen Home page is http://smartmontools.sourceforge.net/
Device: DELL PERC 6/i Version: 1.11
Serial number: 00fc5880057514391200cff021f0e401
Device type: disk Local Time is: Wed Mar 30 11:27:59 2011 UTC Device does not support SMART
Un lspci retourne (entre autre):
01:00.0 RAID bus controller: LSI Logic / Symbios Logic MegaRAID SAS 1078 (rev 04)
Une idée de la raison pour laquelle ce ne serait pas disponible?
Dois activer quelque chose sur le contrôleur?
[^] # Re: Réalloué ?
Posté par maxix . Évalué à 2.
C'est normal, c'est un raid Hard.
[^] # Re: Réalloué ?
Posté par Henry-Nicolas Tourneur (site web personnel) . Évalué à 1.
Conclusion à laquelle j'étais déjà arrivée quant à l'usage de smartmontools de part le passé (maintenant je me sens bête...).
Une idée, sans smartmontools et sans open manage?
[^] # Re: Réalloué ?
Posté par fcartegnie . Évalué à 4.
Y'a un passthrough, comme pour l'USB, suffit de trouver la commande spéciale pour smartctl.
2 sec de google: http://timelordz.com/wiki/MegaRAID_CLI
[^] # Re: Réalloué ?
Posté par Henry-Nicolas Tourneur (site web personnel) . Évalué à 1.
Merci, c'est du tout bon ça, je pourrais donc avoir un meilleur monitoring de la santé de mes disques :)
# "Open"Manage
Posté par maxix . Évalué à 2.
Ce sont les infos de l'adaptateur que tu a consulté, et non les informations liées au disque lui même (media). Tu en saura probablement plus avec cela. Au passage, puisque tu bosse avec du matos Dell et que tu n'a pas envie de te farcir trop de CLI, jette un oeil au logiciel OpenManage (qui n'est pas open, mais qui manage)
[^] # Re: "Open"Manage
Posté par Henry-Nicolas Tourneur (site web personnel) . Évalué à 1.
Je préfère la CLI à un soft comme OpenManage (que je ne veux pas installer sur une Debian clean). J'ai un problème tout particulier avec le software MegaCli (pas de man page, l'output d'aide est pourri).
Si quelqu'un sait comment obtenir cette info sans OpenManage, ça m'intéresse.
# 1 erreur ça va, ...
Posté par eric gerbier (site web personnel) . Évalué à 2.
D'expérience (je gère un petite centaine de serveurs dell avec des cartes lsi) : 1 erreur, ce n'est pas grave, le controleur est capables de gérer.
Il y a ensuite 2 cas de figure :
ça reste comme ça des mois, voire des années : tout va bien
le nombre d'erreur augmente vite, voire très vite ... Dans ce cas vérifier/mettre à jour la version de firmware de la carte RAID et des disques sur le site dell ( http://support.euro.dell.com/fr/fr/home.asp) et en final changer le disque avant qu'il ne lache
[^] # Re: 1 erreur ça va, ...
Posté par Henry-Nicolas Tourneur (site web personnel) . Évalué à 1.
Ok merci beaucoup pour ta réponse.
J'ai donc changer le nombre de media error count que le script Nagios considère comme acceptable en mettant 2; on verra le cas de figure pour la suite.
Suivre le flux des commentaires
Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.