Le classement Top 500 de juin 2010 est disponible

Posté par  (site web personnel) . Modéré par Nÿco.
Étiquettes :
22
31
mai
2010
Technologie
Le trente-cinquième Top 500 des supercalculateurs mondiaux est sorti aujourd'hui à l'occasion de l'International Supercomputing Conference (ISC'10) qui a lieu à Hambourg en Allemagne.

La machine Jaguar du laboratoire d'Oak Ridge aux Etats-Unis garde la première place avec 1.75 pétaflops mais la très grosse surprise est l'arrivée inattendue du supercalculateur chinois Nebulae à la seconde place du classement avec 1.271 pétaflops.
Comme Nebulae possède une architecture particulière incluant des cartes NVidia sa performance absolue est encore bien plus haute que le résultat LINPACK puisqu'il est capable d'atteindre, en théorie, le chiffre faramineux de 2.98 pétaflops (soit 2 980 000 000 000 000 opérations à virgule flottante par seconde).

NdM: Merci à Thomas Baron pour son journal sur l'ordinateur TERA-100. Rappelons que le classement de la liste Top 500 se fait en évaluant les résultats du benchmark LINPACK (résolution d'un système d'équations linéaires). C'est un test parfaitement parallélisable et il donne habituellement une assez bonne idée de la performance de pointe d'un supercalculateur. La FAQ du créateur du bench est extrêmement complète et très intéressante à lire. On apprend notamment que le tout premier Cray (le modèle CRAY 1) atteignait 3.4 mégaflops en 1979.
Évidemment nous n'en sommes plus là et la compétition ayant débouché sur le classement de juin 2010 s'est déroulée à des hauteurs bien plus vertigineuses.

La machine Jaguar, qui avait ravi la première place au Roadrunner la dernière fois, n'a pas progressé depuis. C'est un Cray XT5 qui tourne sous SUSE Linux pour les nœuds de service et qui utilise un noyau Linux ultra-minimal pour les nœuds de calcul. Il utilise 37 421 processeurs AMD Istambul hexa-cores (224 162 cœurs en tout) et offre aux chercheurs une vitesse de pointe de 2.33 pétaflops et de 1.75 pétaflops sur le bench LINPACK.

La machine chinoise Nebulae est bien plus intéressante puisqu'il s'agit d'un supercalculateur hybride qui mélange les processeurs Intel Xeon 5650 avec des cartes Tesla C2050 de NVidia.
Les Xeon sont des hexa-cores (12 threads) cadencés à 2.66 GHz et les cartes Tesla (au nombre de 4 640) sont basées sur l'architecture Fermi et possèdent chacune 3 Go de mémoire vive.
La carte Tesla de NVidia, même si elle ne possède plus que 448 Stream Processors au lieu des 512 prévus et qu'elle dégage une chaleur torride, prouve ainsi sa puissance hors norme dans le domaine du calcul haute performance.
La firme chinoise Dawning - à l'origine du superordinateur Nebulae - a indiqué son intention de se passer dans le futur des puces Intel et de basculer vers un processeur domestique de type Loongson 3 amélioré.

La première machine européenne est le supercalculateur Jugene du centre de calcul de Juelich en Allemagne. Basé sur un IBM BlueGene/P avec près de 300 000 coeurs de calcul, il atteint 825 téraflops au benchmark LINPACK.
Le superordinateur TERA-100, pour lequel un communiqué de presse récent du CEA revendiquait la troisième place mondiale, est seulement à la 44ème place du Top 500 avec un maigre bilan de 108 téraflops. Il est probable que la mise sous tension de cet ordinateur est trop récente (26 mai) pour avoir eu le temps de lancer un run LINPACK vraiment représentatif.

En terme de puissance agrégée le total se monte maintenant à 32.4 pétaflops (contre 27,6 il y a six mois et 22,6 pétaflops il y a à peine un an).
Le tout dernier de la liste atteint 24.7 téraflops et il était classé en 357ème position dans le Top 500 de novembre 2009. Ce ticket d'entrée à 24.7 téraflops est un peu en dessous des prévisions et reflète sans doute un moindre renouvellement des machines du fait de la crise économique.
Si on regarde maintenant les performances par rapport à la consommation le système le plus efficace du Top 500 est le cluster QPace en 132ème position qui utilise des processeurs IBM PowerXCell 8i. Son ratio est de 774 mégaflops/Watt. De manière plus générale le ratio moyen de ce Top 500 de juin 2010 est de 195 mégaflops/Watt (il était de 150 mégaflops/Watt il y a seulement un an).
Il est remarquable de constater que les monstres les plus puissants sont aussi ceux qui ont généralement un très bon ratio performances/consommation. Ainsi la moyenne des 10 machines en tête de liste est de 300 mégaflops/Watt.

La répartition selon les différentes architectures de processeurs montre une concentration toujours plus grande vers les x86-64 (440 machines en tout contre 436 il y a un an). Les machines IA-64 sont à l'article de la mort avec seulement 5 machines et la transition de Bull et des autres firmes vers le Nehalem-EX va planter le dernier clou sur le cercueil. Les processeurs de type Power régressent également (de 52 à 42 machines) mais IBM reste leader en terme de puissance agrégée totale (33.6 %) et est second en nombre de machine (128 contre 167 à HP).

Les statistiques par pays montrent la rapide progression de la Chine qui est maintenant à la seconde place derrière les Etats-Unis en terme de puissance agrégée (et qui possède deux machines dans le top 10 avec Nebulae et Tianhe-1). En nombre de machine (24) elle fait jeu égal avec l'Allemagne à la quatrième place derrière les Etats-Unis (282 machines), la Grande-Bretagne (38) et la France (29). La domination étasunienne reste, on le voit, écrasante et les USA possèdent en outre 7 des 10 machines du top 10.

Enfin, si on regarde les statistiques en terme de système d'exploitation on constate que l'écrasante domination de Linux s'accentue encore un peu plus. Lors du classement de novembre dernier on en était à 446 machines sur 500 (soit 89.2 %). Maintenant c'est 455 superordinateurs sur 500 (soit 91 %) qui tournent sous l'OS libre le plus populaire du monde. Si ces chiffres ne sont pas suffisamment parlants on peut même visualiser un très réjouissant graphique (/!\ flash) en allant sur cette page.
Les miettes qui restent se partagent entre les systèmes mixtes, les Unix purs ou les systèmes BSD. En dépit des efforts de Microsoft, les machines sous Windows HPC 2008 ne décollent pas et restent à 1% du total.

Aller plus loin

  • # Un journal a sauvé le CEA

    Posté par  . Évalué à 3.

    Merci LinuxFr, sans ses journaux la machine du CEA serait passée inaperçue ;-)

    ⚓ À g'Auch TOUTE! http://afdgauch.online.fr

    • [^] # Re: Un journal a sauvé le CEA

      Posté par  (site web personnel) . Évalué à 2.

      > Les machines IA-64 sont à l'article de la mort avec seulement 5 machines et la transition
      > de Bull

      Et la nouvelle est gentille en citant Bull sur ce passage sachant que c'était SGI les rois de l'Itanium avec leur Atix4600 qui était vraiment une belle machine SMP.

      Pour info, SGI fait maintenant des machines SMP sur base Nehalem.
      • [^] # Re: Un journal a sauvé le CEA

        Posté par  . Évalué à 3.

        Oui, SGI fait même une machine Nehalem qui se place sur la première place du podium Français depuis plusieurs années (mais dont on ne parle jamais, car sur linuxfr, on parle que du cea !). C'est même la troisième ou quatrième machine européenne, et en plus elle tourne pour des travaux publics ouvert pour les chercheurs (à l'opposé d'une hypothétique machine « patatra100 » qui sert à .... ??
  • # La 3e place de Tera100

    Posté par  . Évalué à 4.

    J'étais très surpris de l'annonce sur LinuxFR que la machine du CEA serait 3e, et ce classement confirme mes doutes. Le communiqué ne dit pas que la machine allait être classée 3e, il dit juste que sa puissance théorique le classe 3e. Et si on regarde le classement de novembre 2009, c'est vrai (il faut regarder la colonne Rpeak, pas Rmax qui est la perf mesurée par Linpack). Avec ce classement, elle serait 4e.

    Il est probable que le run Linpack a été fait sur un sous-ensemble de la machine, avant qu'elle soit complètement allumée. Sur top500.org, il est indiqué que la machine contient 14400 coeurs, alors que le communiqué de presse du CEA en annonce 140 000. Avec une règle de trois, et à la louche, on arriverait donc à 1050 TFlops.
    • [^] # Re: La 3e place de Tera100

      Posté par  . Évalué à 3.

      Je plussoie. Il y a une vrai différence entre la place #44 visible aujourd'hui et le #4 qui lui semble promis. On pourrait râler contre les effets d'annonce, mais merci à toi de remarquer les 14K cores mentionnés dans le Top 500.

      Par contre, entre #3 et #4, je ne vois que peu de différences : ça reste remarquable à mon avis.
      • [^] # Re: La 3e place de Tera100

        Posté par  (site web personnel) . Évalué à 2.

        >>> le #4 qui lui semble promis

        Attention au delta entre la performance max théorique (impossible à atteindre) et la performance réelle sur le bench LINPACK.
        • [^] # Re: La 3e place de Tera100

          Posté par  . Évalué à 2.

          Exact, mais la règle de 3 ne part pas d'un max théorique mais de la perf. LINPACK sur ~10%.

          Ca ne veut pas dire que l'on va faire x10 stricto sensu pour le passage à l'échelle, certes. Mais ça ne veut pas dire que l'on va se prendre le "rendement" pratique/théorie une 2ème fois, vu qu'il impacte déjà la perf atteinte sur les ~10%.
  • # Supercomputer Superpowers

    Posté par  . Évalué à 10.

    Sur le site de la BBC, il y a une treemap [http://news.bbc.co.uk/2/hi/technology/10187248.stm] qui illustre très bien la place de chacun en terme de pays, de supercalculateurs, de processeurs, d'OS, etc.
  • # Classement sur des vrais calculs

    Posté par  (site web personnel) . Évalué à 2.

    Il n'y a pas que le Linpack dans la vrai vie. Je dirais même qu'il est assez rare de faire du Linpack...

    Il est même pas courant d'avoir un code qui tourne réellement sur 10000 coeurs et qui reste performant. Ces grosses machines sont finalement des datacenters de calcul plus que des machines de calcul. D'ailleurs, il n'y a pas d'interconnexion rapide entre tous les noeuds deux à deux généralement...

    Bref, il faudrait AUSSI un vrai classement mettant en oeuvre des vrais codes sur des vrais problèmes.
    • [^] # Re: Classement sur des vrais calculs

      Posté par  (site web personnel) . Évalué à 5.

      Genre un truc ou tu t'aperçoit que google et facebook ont plus de noeuds que les labos des gouvernement ?
      • [^] # Re: Classement sur des vrais calculs

        Posté par  (site web personnel) . Évalué à 2.

        On parle ici de code de calcul.

        Sinon, les cluster de google sont plus puissant mais ne sont pas destinés à faire du calcul HPC ou il faut une liaison très rapide entre noeuds pour diminuer la latence des appels parallèles (MPI par exemple).
    • [^] # Re: Classement sur des vrais calculs

      Posté par  . Évalué à 10.

      Je sais pas pour toi, mais les quelques codes de calculs parallèles sur lesquels je me suis penché (sans avoir la prétention d'en avoir écrit un) me semblent bien adaptés au passage à la GRANDE échelle. C'est pour moi la grosse différence entre des codes de calculs de simulation et des serveurs d'applications, donc la différence entre des SuperCalculateurs et des datacenters : le caractère physique du problème traité fait qu'il est "facilement" parallélisable.

      Les codes auxquels je pense sont essentiellement des codes d'aérodynamique, c'est à dire de calcul d'écoulements d'air autour d'un objet (un avion, une voiture, un aspirateur etc...) Le mode de parallélisation est géométrique : on considére le domaine de calcul (e.g. un cube de 10m de côté) et on subdivise ce domaine en sous domaines (10'000 petits cubes de 10cm de côté) Chaque sous domaine est alors confié à un core (ou un CPU ou un noeud...)

      Ca, c'est la partie facile. Il faut maintenant savoir que le code de calcul est itératif i.e. il affine une solution de calcul au fur et à mesure. Cet affinage se fait en échangeant les valeurs aux limites entre un sous-domaine donné et ses voisins. C'est cet échange de données qui est le gros problème : cela représente un gros débit de données, d'autant plus que le domaine est subdivisé. D'où l'intérêt des solutions de type InfiniBand à faible latence : la faible latence étant préférable au débit global, car on échange surtout des petites données très fréquemment. Sur certaines configurations (souvenir de Power6 IBM notamment) les switches InfiniBand sont d'ailleurs plus consommatrice de volume dans les racks que les noeuds de calculS.

      Maintenant ça c'est juste de la théorie : le maillage du domaine de calcul n'est évidemment un cube géométrique subdivisé (l'avion n'est pas fait en Lego) les échanges de données demandent un gros boulot de synchro pour assurer la convergence du calcul... Voilà (pour revenir sur la discussion de mon journal) l'intérêt de maîtriser l'intégrateur pour pouvoir faire coller le HW aux besoins logiciels (nombre de core par noeud, quantité de RAM, bande-passante...)
      • [^] # Re: Classement sur des vrais calculs

        Posté par  (site web personnel) . Évalué à 4.

        Tu as tout écrit. Un des gros soucis est la latence des appels parallèle et puis aussi les petits bouts ou ils faut tout synchroniser...

        Bref, avec un programme bien écrit, tu montes (assez facilement) à 1000 coeurs. Ensuite, pas sur que le passage a 10000 coeurs te permette le même gain. Ton programme peux marcher mais avec une efficacité de plus en plus moindre.

        Comme souvent, tu as 10 calculs à faire. Tu vas lancer 10 calcul de 1000 coeurs en parallèle plutôt qu'enchaîner 10 calcul de 10000 coeurs. Mais dans l'absolue, il faut commencer à avoir des codes efficaces avec 10000 coeurs voir réfléchir à l'étape suivante et le passage au 100000 coeurs.

        Ensuite, il faut avoir accès à tous ces coeurs sur une machine de calcul. Même sur les centres universitaires, on << paye >> à l'heure donc plus on utilise de coeur, plus notre crédit d'heure tombe vite !
  • # Gaming ?

    Posté par  . Évalué à 2.

    C'est qui la boite de jeu française qui a un cluster de 7200 proc ?
    http://www.top500.org/site/systems/2965

    Ankama ?
    • [^] # Re: Gaming ?

      Posté par  (site web personnel, Mastodon) . Évalué à 1.

      UBI soft ?

      « Je vois bien à quels excès peut conduire une démocratie d'opinion débridée, je le vis tous les jours. » (Nicolas Sarkozy)

  • # Virgules en français

    Posté par  (site web personnel) . Évalué à 10.

    Depuis quelques années, j'observe que l'habitude anglo-saxone de mettre des points à la place des virgules pour les nombres décimaux s'imposent...
    Cette news ne fait pas exception.

    Tout comme le 'Mr' qui n'est pas français s'impose aussi, même dans des documents officiels.

    Franchouillardes, franchouillards, résistons !

    « Il n’y a pas de choix démocratiques contre les Traités européens » - Jean-Claude Junker

Suivre le flux des commentaires

Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.