Intel et Huawei s’apprêtent à collaborer dans le domaine du calcul de haute performance

L’annonce a probablement de quoi étonner : Intel et Huawei annoncent un partenariat dans le domaine du calcul de haute performance. En effet, si Intel est un nom très répandu dans le domaine (surtout pour ses processeurs Xeon, moins pour ses coprocesseurs Xeon Phi), Huawei est nettement plus connu pour les télécommunications et téléphones mobiles que pour ses serveurs de calcul. Pourtant, Huawei a développé une large gamme de serveurs à haute densité (exploitant exclusivement des processeurs Intel), sous le nom FusionServer, ainsi que des serveurs bien plus gros dans la gamme KunLun.

Les termes de l’accord portent sur le développement de serveurs fabriqués par Huawei, prévus pour le calcul de haute performance et les services infonuagiques, avec des processeurs Intel (Xeon et Xeon Phi) et sa technologie d’interconnexion entre serveurs Omni-Path. Ainsi, Huawei pourra différentier ses produits par rapport à la concurrence en incluant des composants plus centrés sur le calcul de haute performance.

L’accord prévoit aussi la construction de trois centres d’innovation dans le domaine du calcul de haute performance (deux en Chine, un en Europe, à Munich), où Huawei et Intel lanceront des activités communes, comme des formations, des optimisations d’applications existantes ou encore l’animation de communautés.

Le partenariat avec Huawei se justifie par sa stratégie expansionniste ces dernières années : sa gamme de produits dans le domaine s’étend à vue d’œil, ses profits croissent au même rythme. D’ailleurs, en nombre de serveurs livrés, Huawei est maintenant troisième mondial, juste derrière Dell et HPE (quatrième en termes de revenus). La compagnie compte également seize superordinateurs dans la liste des cinq cents les plus puissants au monde, dont sept en Europe (notamment le Polonais HETMAN, d’une puissance d’un pétaflops).

Au niveau recherche et développement, Intel et Huawei jouent dans la même cour : Huawei a le plus gros budget R&D en Chine, un peu plus de dix milliards de dollars (soit quatorze pour cent de ses revenus) ; Intel monte à vingt-deux pour cent, c’est-à-dire presque treize milliards de dollars. Toute synergie sera donc la bienvenue pour les deux groupes.

Sources : Huawei and Intel Sign Up For HPC Collaboration, Huawei and Intel Sign a MOU to Accelerate HPC Innovation (image).

FUJITSU annonce le développement d’un processeur pour l’apprentissage profond

FUJITSU continue ses développements pour les prochaines générations de superordinateurs. Après le remplacement de l’architecture SPARC64 par ARM, voici l’annonce de processeurs spécifiques pour l’apprentissage profond, des DLU (deep learning unit). L’objectif est de fournir des puces dix fois plus efficaces en termes de puissance de calcul par watt consommé que la concurrence. Ces processeurs sont en développements depuis 2015, mais la première annonce n’a eu lieu qu’à la conférence ISC 2017, centrée autour du calcul de haute performance.

Comme les autres fabricants, FUJITSU mise sur des calculs avec une faible précision pour augmenter la performance et diminuer la consommation d’énergie : en effet, pas besoin d’une très grande précision pour ces réseaux neuronaux (une trop grande précision favoriserait le surapprentissage : le réseau est capable de reproduire les données d’entrée, mais pas d’extrapoler sur de nouvelles données). Ainsi, les DLU ne pourraient gérer que quatre types de données : des nombres à virgule flottante sur trente-deux (précision simple) ou seize bits (demi-précision), ainsi que des entiers de même taille.

Vus de haut, ces processeurs sont constitués d’une série d’unités de calcul spécifiques, des DPU (deep learning processing unit), connectés par des liens à haute performance. Un cœur de calcul distinct gère l’exécution sur les DPU et négocie les accès en mémoire.

Chacun de ces DPU est constitué de seize DPE (deep learning processing element), qui effectuent les calculs. Plus en détail, chaque DPE comporte huit unités de calcul SIMD, avec une banque de registres assez grande : cette dernière n’est pas contrôlée par le matériel comme un cache classique, mais uniquement par du logiciel.

La mémoire est assurée par des puces HBM2, tandis qu’il est possible de rassembler une série de DPU (les processeurs) par une interface Tofu : FUJITSU envisage de créer des systèmes de très grande taille, modulable à l’infini.

Les premiers DLU devraient être disponibles en 2018 en tant que coprocesseurs de calcul : les machines devront disposer d’un autre processeur pour lancer l’apprentissage du réseau neuronal. Cependant, tout comme Intel avec ses Xeon Phi, la deuxième génération de DPU devrait être capable de s’affranchir de ce processeur principal. On ne peut que remarquer des similitudes avec l’approche d’Intel et ses Lake Crest, à venir également l’année prochaine. NVIDIA aurait-il du souci à se faire pour ses processeurs graphiques optimisés pour l’apprentissage profond ?

Source et images : Fujitsu Will Pursue AI with Custom-Built Processor.

NVIDIA envisage d’intégrer plusieurs puces dans un même boîtier

Les cartes graphiques promettent, de génération en génération, de meilleures performances, de préférence selon une loi géométrique. L’utilité de cette puissance ne se manifeste pas que dans les jeux, là où ces cartes sont les plus utilisées (avec des résolutions qui montent, certains joueurs utilisant plusieurs écrans 4K, sans oublier la réalité virtuelle), mais également dans le calcul de haute performance et l’apprentissage de réseaux neuronaux profonds (pour lesquels les processeurs NVIDIA Volta se spécialise).

Cependant, les procédés de fabrication des processeurs deviennent de plus en plus des obstacles à cette croissance de la performance. Ainsi, un GPU GV100 requiert 815 mm² de silicium, une prouesse technique sur un procédé de fabrication assez récent et aux limites de ce qu’il est possible de faire. Pour continuer à monter en puissance sans devoir utiliser des composants qui nécessitent autant d’étude, un changement de paradigme est requis.

Une exploration de la compagnie, menée avec des utilisateurs de ces accélérateurs (comme le BSC) et des universitaires, tente de quantifier les gains en performance en divisant un GPU monolithique en plusieurs modules, intégrés dans le même boîtier. Par rapport à l’approche traditionnelle, qui est de mettre plusieurs cartes graphiques distinctes dans un même ordinateur, l’idée est de les intégrer au niveau de la puce, avec une structure d’interconnexion de type EMIB, pour former un boîtier MCM (multichip module).

Des approches similaires ont déjà été utilisées dans le passé, notamment pour les Tesla K10 et K80, qui mettent plusieurs processeurs sur une même carte. Cependant, cela pose des problèmes pour répartir la charge entre les différents processeurs : cette communication doit être gérée par le développeur.

Au contraire, la technique proposée fonctionne à un tout autre niveau : les différents modules auraient une taille nettement plus réduite et pourraient communiquer efficacement, étant présents physiquement dans le même boîtier. Chaque module serait nettement plus facile à produire que les GPU de taille déraisonnable comme le GV100 (ces modules auraient une taille réduite approximativement d’un facteur deux). Ainsi, le programmeur pourrait considérer le processeur comme une seule entité, sans devoir gérer des communications entre processeurs.

En termes de chiffres, une telle conception pourrait, d’après des simulations, être 45,5 % plus rapide que le GPU monolithique le plus gros que l’on pourrait envisager de fabriquer, mais aussi 10 % plus rapide qu’un GPU monolithique équivalent (en nombre de cœurs CUDA). Par rapport à une conception utilisant plusieurs processeurs distincts sur la même carte, hypothèse plus réaliste, les gains seraient de 26,8 %.

Les impacts industriels de cette recherche pourraient tomber en même temps que la prochaine feuille de route de NVIDIA (l’actuelle s’arrêtait à Volta), probablement à la prochaine conférence GTC.

NVIDIA n’est pas la seule firme à poursuivre cette direction. AMD a récemment annoncé ses processeurs EPYC, qui utilisent le même mécanisme pour monter en nombre de cœurs. Ils pourraient d’ailleurs l’exploiter également pour la prochaine génération de cartes graphiques, Navi.

Plus de détails : MCM-GPU: Multi-Chip-Module GPUs for Continued Performance Scalability.

MareNostrum 4 comparera les technologies du futur des superordinateurs

Le superordinateur de Barcelone, hébergé au BSC (Barcelona supercomputer centre), en est à sa quatrième génération. La construction n’est qu’à la première des quatre phases prévues, avec une série de processeurs Intel de dernière génération (des Xeon v5). La puissance de calcul est déjà à 13,4 pétaflops, douze fois plus élevée que pour la troisième génération de MareNostrum — pour une consommation électrique d’à peine trente pour cent plus élevée (1,3 MW).

La différence de MareNostrum 4 par rapport à la majorité des supercalculateurs actuels viendra avec les trois phases successives, qui utiliseront du matériel tout à fait différent et de dernière génération : des processeurs IBM POWER9 couplés avec des processeurs graphiques NVIDIA de génération Volta, pour une puissance de 1,5 pétaflops (exactement comme Sierra et Summit, deux supercalculateurs à venir au département de l’Énergie américain) ; des processeur Intel Xeon Phi de génération Knight Hills, avec nettement plus de cœurs que les Xeon traditionnels, pour une puissance de 0,5 pétaflops (exactement comme Theta et Aurora, prévus pour le laboratoire national d’Argonne) ; des processeurs ARM v8 en 64 bits, pour une puissance de 0,5 pétaflops également (comme le successeur du K japonais). Peu de superordinateurs pourront se targuer de présenter autant de choix à leurs utilisateurs !

Par contre, ces technologies n’étant pas encore prêtes, les concepteurs du superordinateur ne peuvent pas donner de date précise pour leur mise à la disposition des utilisateurs. Pour le moment, cependant, des machines POWER8 avec des GPU NVIDIA plus anciens et d’autres avec des processeurs Intel Xeon Phi Knights Landing ont été déployées.

Toute cette puissance de calcul sera mise au profit des trois cent cinquante chercheurs du BSC, qui œuvrent dans des domaines comme la médecine personnalisée (prédire l’effet d’un médicament sur un patient particulier grâce à son profil génétique, ce qui nécessite de prendre en compte toute une série d’effets dans le corps humain). Au contraire, l’hétérogénéité des processeurs aura un tout autre objectif : déterminer celles à privilégier quand il faudra encore monter en puissance de calcul.

Source : New MareNostrum Supercomputer Reflects Processor Choices Confronting HPC Users.

AMD vise le marché des centres informatiques avec EPYC

AMD a longtemps laissé un certain nombre de segments du marché des microprocesseurs à Intel et NVIDIA : le haut de gamme pour les particuliers, le calcul à haute performance, les centres informatiques, notamment. Le retour de la compagnie s’est d’abord fait dans les cartes graphiques, avec Polaris. Ensuite, ces derniers mois, il fait peur à Intel dans le haut de gamme (qui se voit obligé de lancer des processeurs avec plus de cœurs à des tarifs abordables, en relative urgence), avec Ryzen. Maintenant, c’est au tour de la plus grosse vache à lait d’Intel : les centres informatiques, où les Xeon règnent en maîtres… avant d’être détrônés par des processeurs ARM ou AMD ?

Ainsi, AMD porte sur le marché ses processeurs EPYC, construits sur la même architecture Zen que ses processeurs grand public, Ryzen (suivant la même stratégie qu’Intel). Les EPYC 7000 pourront avoir jusque trente-deux cœurs (vingt-huit côté Intel), avec jusque deux fils d’exécution par cœur. Ils sont prévus pour être mis seul à deux sur une même carte mère (là où Intel peut monter à huit, avec cependant une demande assez faible).

Contrairement à Intel, la distinction se fait très peu sur la fréquence (tous les EPYC 7000 fonctionnent entre 2,0 et 2,4 GHz, avec un mode turbo qui monte à 2,7 GHz — voire plus, si certains cœurs sont désactivés). Leur cache L3 est relativement grand (64 Mo), ils gèrent huit canaux DDR4 (maximum deux barrettes par canal, c’est-à-dire seize barrettes de mémoire par processeur ; contrairement à quatre chez Intel) pour un total de deux téraoctets maximum par processeur. La communication avec la mémoire peut être chiffrée et déchiffrée en temps réel, avec des clés générées par le processeur ou du côté logiciel (notamment pour la virtualisation) : ainsi, cela limite très fortement les possibilités d’attaque d’une machine virtuelle à l’autre.

Pour la communication, ils prévoient cent vingt-huit lignes PCIe, quatre fois ce que propose Intel, mais la moitié des lignes (c’est-à-dire soixante-quatre) est réservée en cas de deuxième processeur sur la carte mère. Ainsi, peu importe la configuration, ces processeurs offriront cent vingt-huit lignes vers l’extérieur — de quoi offrir une connectivité pour huit cartes graphiques (seize lignes chacune) ou encore trente-deux SSD en NVMe (quatre lignes chacun)… ou toute autre combinaison. Huit lignes sont cependant réservées pour être compatibles SATA.

Au niveau architectural, une puce EPYC est constituée de quatre plus petits éléments, reliés par l’Infinity Fabric d’AMD. Cette même technologie est utilisée pour la communication entre processeurs. L’intérêt est donc de fabriquer des puces relativement petites (et donc faciles à réaliser), puis de les assembler. Chaque bloc a un total de trois liens Infinity Fabric, avec un débit maximum de trente-huit gigaoctets par seconde. Infinity Fabric est aussi utilisé à l’intérieur de chaque bloc de huit cœurs, afin de relier des “complexes” (CCX, pour core complex) de quatre cœurs), mais avec un débit plus important (quarante-deux gigaoctets par seconde) — la probabilité d’erreur de transmission est plus faible.

Cette manière de procéder montre à quel point EPYC n’est qu’un sous-produit de l’architecture Zen : Ryzen n’a qu’un seul de ces éléments (huit cœurs) et Threadripper deux (seize cœurs). Le travail de conception spécifique à EPYC est donc très limité.

Cependant, les statistiques pour les processeurs Intel sont données pour la génération actuelle, Broadwell, où effectivement EPYC a de nombreux avantages à mettre en avant. La compétition aura cependant lieu avec la prochaine génération, Skylake, qui devrait aussi arriver en fin d’année. Certaines fonctionnalités des processeurs EPYC seront donc mises à mal (AMD affirme augmenter la performance en calcul à virgule flottante de 75 %, mais sans compter les instructions AVX-512 d’Intel) — on ne s’attend pas à ce qu’EPYC batte Intel à plates coutures au niveau de la performance brute par cœur. Néanmoins, AMD semble avoir prévu le coup en ce qui concerne la mémoire (Intel ne proposera que six canaux, contre huit pour EPYC) et la communication (cent vingt-huit lignes PCIe, quand on s’attend à quarante-huit pour Intel). Sans oublier qu’AMD se placera probablement un peu en-dessous d’Intel niveau prix… et que la distinction entre les processeurs se fait surtout au niveau du nombre de cœurs, toutes les fonctionnalités étant disponibles sur toute la gamme.

Sources : AMD Challenges Intel’s Datacenter Dominance with New EPYC ProcessorsAMD muscles in on Xeon’s turf as it unveils Epyc (images).

NVIDIA détaille la version PCIe du Tesla V100

Quelques mois après la première annonce de ses processeurs graphiques pour le calcul intensif Tesla V100, NVIDIA dévoile les derniers détails sur la version PCIe de ces cartes. L’annonce précédente portait uniquement sur les modules SXM2, un format propriétaire nécessaire notamment pour le bus NVLink. Les grandes lignes de Volta sont déjà connues : ces puces de 815 mm² sont fabriquées avec un procédé spécifique de TSCM, le 12FFN, une variante du 12 nm ; l’architecture des cœurs fait place à des unités spécifiques aux traitements tensoriels, les caches L1 sont unifiés au sein d’un multiprocesseur de flux.

La version PCIe de ces cartes, certes plus standard, est quelque peu limitée par rapport au format SXM2 : la puissance délivrable est moindre (250 W au lieu de 300 W), ce qui limite de facto la fréquence des processeurs graphiques (qui passe de 1455 à 1370 MHz, soit une perte d’approximativement six pour cent). La puissance de calcul est donc aussi en baisse : au plus vingt-huit téraflops en demi-précision (au lieu de trente), par exemple. Le processeur en lui-même est identique, avec le même nombre de cœurs CUDA par exemple (5376). Cependant, la diminution de puissance de calcul n’est pas directement proportionnelle à la diminution d’énergie consommée : l’efficacité énergétique augmente donc (de cent gigaflops par watt à cent douze).

Contrairement à la génération Pascal (P100), ces processeurs spécifiquement prévus pour le calcul intensif ne seront pas déclinés en une gamme : le P100 existait en versions seize et douze gigaoctets de mémoire, le V100 n’existera qu’en version seize gigaoctets. Cela est probablement dû au fait que NVIDIA maîtrise mieux les processus de fabrication de puces avec interposeur (requis pour une mémoire de type HBM2) — ce qui diminue le taux de puces partiellement mal formées — et que la production de mémoire HBM2 a augmenté en volume.

On attend les premières cartes PCIe pour la fin de l’année, notamment intégrées dans des systèmes de HP Entreprise.

Source : NVIDIA Formally Announces PCIe Tesla V100: Available Later This Year.

Les États-Unis n’ont plus de superordinateur dans le top 3 mondial

La situation est inédite depuis 1996 : les États-Unis ne classent plus le moindre superordinateur dans le top 3 mondial. En effet, la liste des superordinateurs les plus puissants de juin 2017 montre que la Suisse a, grâce à la mise à jour de son Piz Daint, détrôné Titan à la troisième place. Les deux premières restent occupées par la Chine, avec TaihuLight (nonante-trois pétaflops — nonante-trois millions de milliards d’opérations en virgule flottante par seconde —, premier depuis juin 2016) et Tianhe-2 (trente-quatre pétaflops, passé de la première place en juin 2013 à la deuxième avec l’arrivée de TaihuLight).

Le superordinateur hébergé à ETH Zürich a plus que doublé sa puissance pour maintenant atteindre 19,6 pétaflops, grâce à de nouveaux cabinets Cray XC50. Le financement de quarante millions de francs suisses (trente-sept millions d’euros) a servi au remplacement des machines avec des GPU NVIDIA plus anciens (des cartes Tesla K20X) avec la toute dernière génération Pascal (P100).

Le gain ne se mesure pas qu’en puissance de calcul, mais également en consommation énergétique : Piz Daint consomme quatre fois moins que Titan (2,3 MW contre 8,2 pour Titan), avec une différence de puissance de calcul d’à peine deux pétaflops (Titan fournit dix-sept pétaflops de puissance de calcul). Selon la manière d’utiliser le superordinateur, il peut monter jusqu’à 10,4 gigaflops par watt consommé — pas la plus haute efficacité énergétique, mais sûrement à cette échelle.

Ainsi, Piz Daint est composé de deux types de nœuds de calcul. 5320 nœuds XC50 sont équipés avec des processeurs Intel de génération Haswell (Xeon E5-2690 v3, deux par nœud) et un accélérateur NVIDIA Tesla P100 par nœud. 1430 nœuds XC40 ont été conservés et ne possèdent pas d’accélérateur — ils possèdent par contre deux processeurs d’une génération plus récente, Broadwell (Xeon E5-2695 v4).

Outre la partie calcul pure, les travaux sur Piz Daint ont servi à déployer une nouvelle technologie de Cray, DataWarp, pour quadrupler la bande passante envers la zone de stockage à long terme. En pratique, il devient donc plus facile pour les utilisateurs du système d’effectuer des simulations (matériaux, physique, géophysique, chimie, climat, météo, etc.) en parallèle plutôt que les unes après les autres.

Au contraire de la plupart des organismes utilisant des superordinateurs, le CSCS (en charge de Piz Daint) a très vite commencé à utiliser des GPU pour les calculs (dès 2010), de telle sorte que la majorité des calculs effectués le sont sur les accélérateurs disponibles (alors que, au début, peu de machines en étaient équipées).

Plus bas dans la liste, après le top 10 (peu altéré, si ce n’est les investissements du CSCS dans Piz Daint), on constate une augmentation de la puissance moyenne des machines — mais aussi de leur efficacité énergétique. Ils utilisent de plus en plus d’accélérateurs pour y arriver : généralement, soit des NVIDIA Tesla, soit des Intel Xeon Phi, très rarement les deux. Néanmoins, pour mettre les choses en perspective, la machine la plus puissante du top 500, la Chinoise TaihuLight, fournit 12,5 % de la puissance totale.

Sources : Swiss Deploy World’s Fastest GPU-Powered Supercomputer, U.S. Slips in New Top500 Supercomputer Ranking.