Journal C2550D4I et marvell 88SE9230

Posté par  . Licence CC By‑SA.
11
15
mai
2017

Bonjour à tous,

J'ai acheté il y a 1 an une carte C2550D4I pour monter mon serveur.
Tout fonctionnait bien jusqu'au moment ou j'ai fait fonctionner le serveur non stop pendant la semaine.
La, stupeur : le serveur était bloqué (freeze) avec la LED des disques allumée, de manière aléatoire. Rien n'y faisait : bouton restet, IPMI etc…

Config :
- Logiciels : ubuntu server 12.04, containers LXC,
- 1 SSD 40 Go en système,
- 5 disques 5,1/2 de 1To en ZFS
- Alimentation NFP de 300W (consommation au repos de la bête 56W)
- Onduleur APC backups cs-500
- Cordons SATA 6Go de bonne qualité et courts …
- Petit ventilateur sur le dissipateur du proc (quand même !)
- Coffret Inter-Tech IPC-30255

J'ai donc commencé à investiguer, à première vue les problèmes se concentraient sur le contrôleur Marvell SE9230.
Il y a beaucoup de remontée de problèmes sur ce contrôleur (en particulier ici http://linuxfr.org/users/kioob/journaux/stabilite-du-controleur-sata-marvell-88se9230 mais ne sachant pas comment faire une réponse, je poste ici).
J'ai tenté les modifications des paramètres : passer en 1.5G, désactiver le NCQ… rien n'y faisait
MAJ du bios -> ok mais toujours ce problème …
MAJ du firmware du contrôleur -> ok mais toujours ce problème …

J'ai remis tout en cause, allant jusque démonter l'alimentation !!
j'y ai changé une capa qui était clairement morte au passage, elle était bombée et au multimètre elle était HS. Intéressant de noter que l'alimentation fonctionnait bien avec ! d'ou l'intérêt de faire une maintenance préventive sur les alims, tous les 3 ans les démonter, nettoyer et vérifier les composants…

Et puis… et puis au fil de mes recherches, j'ai vu des cartes PCIE avec ce même contrôleur.
Seulement, elles avaient un gros dissipateur !

Ni une, ni deux, je prends ma caméra thermique et je regarde la carte : 4 points chauds :
- le BMC (qui est en fait un processeur ARM)
- un chip juste en dessous du dissipateur processeur, j'ai pas encore travaillé dessus (c'est surement le PEX8608)
- le fameux contrôleur Marvell 88SE9230,
- le second contrôleur Marvell 88SE9172

Les deux contrôleurs chauffent vraiment fort ! Sur le doigt ça brûle presque, je prends un thermomètre infra rouge, et la j'ai environ 54°C boîtier ouvert, dans le bios. Du coup je me dis que c'est quand même un peu hot !

Tout ça pour dire que j'ai mis un ventilo 40x40 juste au dessus des chips, et que depuis j'ai pu faire 3 scrub entiers sans erreurs ! (alors qu'avant à 15% j'avais un freeze)

Donc [à priori] le problème est parti !
A l'avenir j'aimerais mettre des dissipateurs, et pas un ventilateur à l'arrache. Mais si je dois renvoyer la carte pour les autres problèmes (clock par ex) je voudrais pas que la garantie soit annulée par des dissipateurs collés !

Note : le pb ne vient pas tout de suite, ça "tournait" bien pendant quelques temps avant… avec le temps le chip devient peut être plus sensible à la température ?

Autre info : pour ceux qui ne voient pas le bios du Marvell s'afficher : il faut l'activer, mais surtout le rendre bootable dans le bios, si il est activé et non bootable, le bios du marvelle ne s'affiche pas ! (on y rentre par Ctrl + M, mais attention clavier US !! donc c'est ctrl + "," )

  • # Pas de soucis

    Posté par  (site web personnel) . Évalué à 1.

    Même carte, posée à l'arrache sur un bureau, 3 disques de 2To en RAID 5, 17 VM Qemu/KVM :

    root@cheshire:~# uptime
    10:44:57 up 102 days, 5:01, 1 user, load average: 0,59, 0,39, 0,30

    Je n'ai pas constaté le problème que tu décris. :/

    There is no spoon...

    • [^] # Re: Pas de soucis

      Posté par  . Évalué à 1.

      En tout cas j'espère que tu ne l'auras pas !

      Le pb n'était pas venu tout de suite, je crois que je l'utilisais depuis 8 mois avec un uptime max d'une journée. Ce n'est que récemment que je l'ai mis non stop.

      J'avais les VM avant avec quemu, pratique la console à distance ! J'ai fini par lâcher pour prendre des containers, question d'utilisation de RAM et de rapidité !

      Sinon tu ne veux pas mettre tout ça en boite ? :D

      • [^] # Re: Pas de soucis

        Posté par  (site web personnel) . Évalué à 1.

        J'espère aussi.

        Je l'ai achetée en août 2015 et elle tourne 24/24 depuis.

        Pour la virtu, j'ai fait l'inverse. :D
        J'utilisais LXC quasi depuis les débuts du projet et j'ai migré sous qemu/kvm faute d'une intégration me convenant sous Debian.
        Je zieute LXD depuis son annonce, mais j'ai pas envie de passer sous Ubuntu. :/
        Quand ce sera dans Debian, je ne dis pas que je n'y regarderai pas de plus près (ou avant si je suis motivé pour l'intégrer à la mano).
        Mais je garderai quand même qemu/kvm en parallèle pour des Windows de test.

        Pour la boite, c'est prévu. ;)
        J'ai récupéré des vieux boitiers 19" ainsi qu'une baie, et il faut que je vois comment je peux intégrer ça, mais j'ai pas pris le temps.

        There is no spoon...

        • [^] # Re: Pas de soucis

          Posté par  . Évalué à 1.

          Ah ok lol :D
          Que te manquais-t-il sur l'intégration en Débian ?
          Pourquoi ubuntu te rebute-t-il ?

          J'avoue, je me suis un peu arraché les cheveux pour configurer le réseau avec LXC… et j'ai pas voulu utiliser le docker ..

          Pour la boite, le gros frein, ça a été la taille de la CM, très peu de boitier supportent les ITX d'après ce que j'ai vu, avec bcp de disques possibles …

          • [^] # Re: Pas de soucis

            Posté par  (site web personnel) . Évalué à 1.

            Pour Ubuntu, j'en sais trop rien à la réflexion. :D
            Plus par principe et habitude de Debian qu'autre chose en fait.
            Du coup, c'est con. ^
            J'essaierai pour voir.

            Pour LXC sur Debian, je trouvais que ça manquait d'outils de management de "l'hyperviseur" - d'où l'arrivée de LXD.
            J'avais également un souci au niveau du partage des ressources de stockage.
            Concrètement j'ai des partitions qui sont accédées par plusieurs VM. Je montais via bind la partition dans les conteneurs, mais je ne suis pas sûr que ce soit top au niveau intégrité des données, et malheureusement, je ne voyais pas de moyen de faire autrement et plus propre.
            Ce que j'ai fait avec qemu/kvm, c'est une VM qui fait office de serveur NFS et les autres VM ayant besoin d'accéder aux données le font via un montage NFS. Pas super élégant, mais ça fonctionne.
            Enfin, j'avais un souci quand je voulais redimensionner les volumes bindés. Impossible de le faire à chaud, il fallait que je coupe les conteneurs. Pas super pratique.

            Pour le boitier ITX 19", j'ai trouvé un vieux NAS LaCie Titre de l'image qui devrait convenir parfaitement : 4 emplacements disques 3,5", carte mini-ITX, alim Flex-ATX, ventilé.

            There is no spoon...

            • [^] # Re: Pas de soucis

              Posté par  . Évalué à 1.

              Tu es allé plus loin que moi dans l'intégration des VM !
              La solution du serveur NFS est au moins pas mal car elle permet d'isoler les data des VM, dans un point central :)

  • # Condo

    Posté par  (site web personnel) . Évalué à 1.

    Souvent les condensateurs servent à nettoyer/filtrer le courant, et à le stabiliser.
    Ils servent aussi à fournir un surplus d'énergie en cas de besoins ponctuels, par exemple dans les disques durs quand il faut lancer les plateaux etc.

    Un condensateur mort devrait être remplacé, bien sur.

    Si ça chauffe trop, il y a peut être un vice de conception, ou un usage non conforme…
    Je pencherais vers l'obsolescence programmée, parce que c'est l'habitude des constructeurs.

    Pourquoi bloquer la publicité et les traqueurs : https://greboca.com/Pourquoi-bloquer-la-publicite-et-les-traqueurs.html

    • [^] # Re: Condo

      Posté par  . Évalué à 2.

      Ah oui je suis tout a fait d'accord avec toi …

      Vu que ce chip consomme quand même beaucoup (le datasheet indique 1W alors que le boîtier est 8mm x 8mm! par comparaison même un 7805 en TO220 @ 1W je ne le laisse pas sans dissipateur !) et bien il va forcément chauffer.
      Mettre un dissipateur coûte un peu, mais je me serais attendu à ça pour une carte à 290€ destinée à un serveur ! c'est quand même dommage, surtout qu'en la mettant "fanless" elle est bien plus disposée à surchauffer.

      Sur les alims je suis toujours étonné de la disposition : c'est très rustique ! la capa était à 105°C c'est pas trop mal, mais la tension à 10V, et la marque inconnue… j'ai mis une Philips 105°C 16V pour être sur …
      Je m'étais aussi fait la remarque : il n'y a pas tant de capas que ça dans ces alims ! grâce aux fréquences de découpage élevées me diras-tu mais bon quand même j'ai bien eu envie de rajouter un petit banc de condensateurs !

      Et vous, combien de cartes qui tournent correctement ?

    • [^] # Re: Condo

      Posté par  (site web personnel) . Évalué à 5.

      Je pencherais vers l'obsolescence programmée, parce que c'est l'habitude des constructeurs.

      La bêtise explique beaucoup plus souvent le problème que la malhonnêteté.

  • # Atom/Avoton bug

    Posté par  . Évalué à 2.

    • [^] # Re: Atom/Avoton bug

      Posté par  . Évalué à 3.

      Je ne vois pas comment ça aurait été réglé avec un ventilateur.

      « Rappelez-vous toujours que si la Gestapo avait les moyens de vous faire parler, les politiciens ont, eux, les moyens de vous faire taire. » Coluche

      • [^] # Re: Atom/Avoton bug

        Posté par  . Évalué à 1.

        En fait il y a les deux … euu non les 3 !

        • l'horloge qui lâchera, ça risque de me tomber dessus bientôt
        • le pb avec les contrôleurs marvell, dont je crois que c'est une surchauffe (https://forums.tweaktown.com/asrock/56191-c2750d4i-marvel-9230-sata-port.html) et la on trouve bcp de threads avec marvell SE9230
        • un ancien bios et bmc qui écrivait périodiquement dans une mémoire flash et qui l a cramait, les dernières versions du bios et du BMC résolvent le problème
  • # apparemment t'es pas le seul

    Posté par  . Évalué à 1.

    voici un retour sur la qualité de ta carte,
    ASROCK C2550D4I

    c'est pas jojo.

  • # 2 PC Asrock grillés

    Posté par  . Évalué à 2.

    Tiens, j'avais acheté 2 PC Asrock il y a 5-6 ans, dans des petits boîtiers aluminium. Ils ont grillé tous les 2. Un au bout d'un an, envoyé en SAV et réparé. Puis il a regrillé au bout de 2 ans et quelques jours, avec l'autre. Je n'achèterai plus jamais cette marque. J'utilise du ACER, ça m'a l'air bien plus robuste.

  • # C2550D4I et marvell 88SE9230

    Posté par  . Évalué à 1.

    bon bien contre preuve : après 3J d'up nouveau plantage…
    j'ai changé l'alimentation on va voir ce que ça donne !

Suivre le flux des commentaires

Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.