J'ai des problèmes avec les infos récoltées par snmp pour la charge CPU et uniquement celle là.
Je monitor la plupart de mon réseau et ses services via nagios et snmp et j'ai donc plusieurs services qui font des requètes snmp pour récolter les informations que je désire.
Ce qui est bizzard c'est que pour la demande d'infos sur le load CPU j'ai des informations totalement fausse, contrairement aux autres résultats qui eux sont corrects (% disk, nb de connection, nb processus,...)
Voici les infos que me retourne un snmpwalk & snmpget:
# snmpwalk -v 2c -c ro_com 10.14.0.1 1.3.6.1.4.1.2021.10.1.5.3
UCD-SNMP-MIB::laLoadInt.3 = INTEGER: 1778
# snmpget -v 2c -c ro_com 10.14.0.1 1.3.6.1.4.1.2021.10.1.5.3
UCD-SNMP-MIB::laLoadInt.3 = INTEGER: 1785
Mais quand je vérifie ces infos avec la commande 'top' voici ce que j'obtiens:
14:05:34 up 35 days, 2:58, 1 user, load average: 17.99, 17.33, 17.76
J'ai déja redémarrer le demon snmpd cela n'a rien changer. Et voila 24H que j'ai ce problème sur 1 seul serveur alors que j'en monitor une trenteine et tous de même modèle.
Merci de vos lecture,
Ludo
# x100
Posté par daggett . Évalué à 2.
/usr/share/snmp/mibs/UCD-SNMP-MIB.txt:
laLoadInt OBJECT-TYPE
"The 1,5 and 10 minute load averages as an integer.
This is computed by taking the floating point
loadaverage value and multiplying by 100"
Donc apparemment c'est le comportement attendu. Tu n'as plus qu'à gérer tes unités en fonction de cette échelle.
Maintenant pourquoi les autres serveurs ne sont pas pareils ? Peut-être qu'ils utilisent une autre MIB avec une autre sémantique ? Ou juste qu'ils ne sont pas chargés du tout et donc ça ne se voit pas même multiplié par 100 ?
[^] # Re: x100
Posté par Ludovic César . Évalué à 1.
Merci pour ta précision cela m'a mit sur la voie.
Pour info voici une comparaison d'un autre serveur:
17:03:30 up 121 days, 5:30, 1 user, load average: 0.00, 0.08, 0.24
[^] # Re: x100
Posté par daggett . Évalué à 1.
Soit tu as effectivement des processus qui bouffent tout, soit c'est plus subtil: si le serveur reste réactif, regarde s'il y a des processus en état "D" dans la colonne "Status" de top ou de ps. C'est en gros un process bloqué en attente d'un retour d'appel système qui ne rendra jamais la main, mais qui en pratique ne consomme absolument pas de CPU.
J'ai déja eu ça par exemple pour un ls sur un CD-rom vérolé (bon, là ça peut consommer si le kernel recommence continuellement), ou sur un montage NFS "cassé". Ça peut aussi arriver sur des drivers buggués.
Suivre le flux des commentaires
Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.