Hier soir 31 août, en protestation envers la rentrée et la fin de l'été, le serveur LinuxFr.org (le
vserver de la partie web en fait) a connu une corruption SQL sur une des tables de la base de données. Le temps d'être averti et d'intervenir, nous n'avons pu que constater que la machine hôte et l'ensemble des vservers (web, courriel,
Jabber/XMPP, développement, ...) de l'association avaient disparu du monde IP.
Ne disposant pas de carte d'administration distante sur l'hôte, nous avons contacté le
NOC de la fondation Free (qui nous héberge) pour obtenir plus d'infos. À 2h du matin, nous avons eu confirmation que la baie concernée n'avait pas connu de souci et que le problème venait de notre serveur. Aujourd'hui, le NOC a confirmé ce que nous pressentions, un
kernel panic sur la console (un problème sur le RAID apparemment) et le serveur a été redémarré.
Après analyse des logs (identification d'une saturation disque sur un des vservers par exemple), vidage des files d'attente courriel notamment et lancement des tâches cron en retard, le retour à la production a été possible (sinon vous ne liriez pas cette dépêche d'ailleurs).
Bref, une bonne occasion de tester nos adminsys, la politique de sauvegarde (ah les révisions à la rentrée), l'utilité d'une carte d'administration distante (ah les fournitures à la rentrée...). Et merci au NOC pour son efficacité et la rapidité des réponses.