FUJITSU annonce le développement d’un processeur pour l’apprentissage profond

FUJITSU continue ses développements pour les prochaines générations de superordinateurs. Après le remplacement de l’architecture SPARC64 par ARM, voici l’annonce de processeurs spécifiques pour l’apprentissage profond, des DLU (deep learning unit). L’objectif est de fournir des puces dix fois plus efficaces en termes de puissance de calcul par watt consommé que la concurrence. Ces processeurs sont en développements depuis 2015, mais la première annonce n’a eu lieu qu’à la conférence ISC 2017, centrée autour du calcul de haute performance.

Comme les autres fabricants, FUJITSU mise sur des calculs avec une faible précision pour augmenter la performance et diminuer la consommation d’énergie : en effet, pas besoin d’une très grande précision pour ces réseaux neuronaux (une trop grande précision favoriserait le surapprentissage : le réseau est capable de reproduire les données d’entrée, mais pas d’extrapoler sur de nouvelles données). Ainsi, les DLU ne pourraient gérer que quatre types de données : des nombres à virgule flottante sur trente-deux (précision simple) ou seize bits (demi-précision), ainsi que des entiers de même taille.

Vus de haut, ces processeurs sont constitués d’une série d’unités de calcul spécifiques, des DPU (deep learning processing unit), connectés par des liens à haute performance. Un cœur de calcul distinct gère l’exécution sur les DPU et négocie les accès en mémoire.

Chacun de ces DPU est constitué de seize DPE (deep learning processing element), qui effectuent les calculs. Plus en détail, chaque DPE comporte huit unités de calcul SIMD, avec une banque de registres assez grande : cette dernière n’est pas contrôlée par le matériel comme un cache classique, mais uniquement par du logiciel.

La mémoire est assurée par des puces HBM2, tandis qu’il est possible de rassembler une série de DPU (les processeurs) par une interface Tofu : FUJITSU envisage de créer des systèmes de très grande taille, modulable à l’infini.

Les premiers DLU devraient être disponibles en 2018 en tant que coprocesseurs de calcul : les machines devront disposer d’un autre processeur pour lancer l’apprentissage du réseau neuronal. Cependant, tout comme Intel avec ses Xeon Phi, la deuxième génération de DPU devrait être capable de s’affranchir de ce processeur principal. On ne peut que remarquer des similitudes avec l’approche d’Intel et ses Lake Crest, à venir également l’année prochaine. NVIDIA aurait-il du souci à se faire pour ses processeurs graphiques optimisés pour l’apprentissage profond ?

Source et images : Fujitsu Will Pursue AI with Custom-Built Processor.

Lithographie aux ultraviolets extrêmes : ASML atteint une puissance de 250 W

Pour les prochains processus de fabrication de processeurs (7 nm ou 5 nm), les techniques de lithographie se baseront très probablement sur le rayonnement aux ultraviolets extrêmes (EUV). Cependant, la technologie a longtemps souffert d’une puissance relativement faible : elle était limitée à 185 W l’année dernière, ASML vient de la porter à 250 W (avec quatre ans de retard sur les plans initiaux). Il aura fallu cinq ans à l’entreprise pour dépasser les premiers prototypes, avec une puissance d’à peine 25 W en 2012.

Avec cette augmentation, l’EUV devient intéressant d’un point de vue commercial : il devient possible de produire cent vingt-cinq galettes par heure et par machine (par rapport aux quatre-vingt-cinq de l’année dernière). En effet, plus la puissance est importante, moins une galette doit rester longtemps dans la machine.

D’ailleurs, le succès commercial de la machine d’ASML (seule firme présente sur le marché de l’EUV, Canon poursuivant une voie similaire mais distincte) ne cesse de se démentir : la compagnie a déjà livré vingt-sept machines (notamment, à Intel, TSMC, GlobalFoundries ou encore Samsung), plus trois ces trois derniers mois ; huit autres ont été précommandées. Globalement, ASML annonce un chiffre d’affaires de presque trois milliards d’euros pour ces ventes, à raison de cent millions l’unité.

Les fabricants qui passent à l’EUV avec ce genre de machines n’ont pas uniquement pour objectif de graver plus finement leur silicium : pour une finesse équivalente, l’EUV devrait permettre de limiter la complexité du processus de fabrication. Actuellement, il faut une série d’expositions de la même galette de silicium (trois ou quatre fois) pour atteindre les finesses d’une dizaine de nanomètres ; grâce à l’EUV, il suffirait d’une seule exposition — l’avantage étant aussi en temps de fabrication pour le même nombre de puces.

Sources : Chipmaschinenausrüster: ASML demonstriert 250-Watt-EUV-System, ASML Claims Major EUV Milestone.

NVIDIA envisage d’intégrer plusieurs puces dans un même boîtier

Les cartes graphiques promettent, de génération en génération, de meilleures performances, de préférence selon une loi géométrique. L’utilité de cette puissance ne se manifeste pas que dans les jeux, là où ces cartes sont les plus utilisées (avec des résolutions qui montent, certains joueurs utilisant plusieurs écrans 4K, sans oublier la réalité virtuelle), mais également dans le calcul de haute performance et l’apprentissage de réseaux neuronaux profonds (pour lesquels les processeurs NVIDIA Volta se spécialise).

Cependant, les procédés de fabrication des processeurs deviennent de plus en plus des obstacles à cette croissance de la performance. Ainsi, un GPU GV100 requiert 815 mm² de silicium, une prouesse technique sur un procédé de fabrication assez récent et aux limites de ce qu’il est possible de faire. Pour continuer à monter en puissance sans devoir utiliser des composants qui nécessitent autant d’étude, un changement de paradigme est requis.

Une exploration de la compagnie, menée avec des utilisateurs de ces accélérateurs (comme le BSC) et des universitaires, tente de quantifier les gains en performance en divisant un GPU monolithique en plusieurs modules, intégrés dans le même boîtier. Par rapport à l’approche traditionnelle, qui est de mettre plusieurs cartes graphiques distinctes dans un même ordinateur, l’idée est de les intégrer au niveau de la puce, avec une structure d’interconnexion de type EMIB, pour former un boîtier MCM (multichip module).

Des approches similaires ont déjà été utilisées dans le passé, notamment pour les Tesla K10 et K80, qui mettent plusieurs processeurs sur une même carte. Cependant, cela pose des problèmes pour répartir la charge entre les différents processeurs : cette communication doit être gérée par le développeur.

Au contraire, la technique proposée fonctionne à un tout autre niveau : les différents modules auraient une taille nettement plus réduite et pourraient communiquer efficacement, étant présents physiquement dans le même boîtier. Chaque module serait nettement plus facile à produire que les GPU de taille déraisonnable comme le GV100 (ces modules auraient une taille réduite approximativement d’un facteur deux). Ainsi, le programmeur pourrait considérer le processeur comme une seule entité, sans devoir gérer des communications entre processeurs.

En termes de chiffres, une telle conception pourrait, d’après des simulations, être 45,5 % plus rapide que le GPU monolithique le plus gros que l’on pourrait envisager de fabriquer, mais aussi 10 % plus rapide qu’un GPU monolithique équivalent (en nombre de cœurs CUDA). Par rapport à une conception utilisant plusieurs processeurs distincts sur la même carte, hypothèse plus réaliste, les gains seraient de 26,8 %.

Les impacts industriels de cette recherche pourraient tomber en même temps que la prochaine feuille de route de NVIDIA (l’actuelle s’arrêtait à Volta), probablement à la prochaine conférence GTC.

NVIDIA n’est pas la seule firme à poursuivre cette direction. AMD a récemment annoncé ses processeurs EPYC, qui utilisent le même mécanisme pour monter en nombre de cœurs. Ils pourraient d’ailleurs l’exploiter également pour la prochaine génération de cartes graphiques, Navi.

Plus de détails : MCM-GPU: Multi-Chip-Module GPUs for Continued Performance Scalability.

Intel annonce avoir achevé la conception préliminaire d’Ice Lake

Intel est lancé dans sa cadence de lancement de nouvelles générations de processeurs. La huitième s’approche très franchement (Coffee Lake), une amélioration légère de la génération actuelle. La neuvième (Cannon Lake) utilisera un processus de fabrication amélioré (10 nm au lieu du 14 nm), qui avance comme prévu et devrait être disponible à la fin 2017 (pour les processeurs à basse consommation, probablement) — la conception du processeur étant très proche de la huitième génération.

Intel a très récemment annoncé sur Twitter que les travaux sur la dixième génération (Ice Lake) sont aussi bien avancés, puisque la conception initiale du processeur est achevée (avec une microarchitecture améliorée). Plus spécifiquement, les premiers prototypes sont sortis de l’usine (tape-in). Il faudra encore quelques mois pour que des processeurs entièrement fonctionnels soient produits : les différentes parties du processeur ont été conçues, il faut encore les assembler et s’assurer que tout fonctionne bien ensemble.

Source : compte Twitter d’Intel.

AMD vise le marché des centres informatiques avec EPYC

AMD a longtemps laissé un certain nombre de segments du marché des microprocesseurs à Intel et NVIDIA : le haut de gamme pour les particuliers, le calcul à haute performance, les centres informatiques, notamment. Le retour de la compagnie s’est d’abord fait dans les cartes graphiques, avec Polaris. Ensuite, ces derniers mois, il fait peur à Intel dans le haut de gamme (qui se voit obligé de lancer des processeurs avec plus de cœurs à des tarifs abordables, en relative urgence), avec Ryzen. Maintenant, c’est au tour de la plus grosse vache à lait d’Intel : les centres informatiques, où les Xeon règnent en maîtres… avant d’être détrônés par des processeurs ARM ou AMD ?

Ainsi, AMD porte sur le marché ses processeurs EPYC, construits sur la même architecture Zen que ses processeurs grand public, Ryzen (suivant la même stratégie qu’Intel). Les EPYC 7000 pourront avoir jusque trente-deux cœurs (vingt-huit côté Intel), avec jusque deux fils d’exécution par cœur. Ils sont prévus pour être mis seul à deux sur une même carte mère (là où Intel peut monter à huit, avec cependant une demande assez faible).

Contrairement à Intel, la distinction se fait très peu sur la fréquence (tous les EPYC 7000 fonctionnent entre 2,0 et 2,4 GHz, avec un mode turbo qui monte à 2,7 GHz — voire plus, si certains cœurs sont désactivés). Leur cache L3 est relativement grand (64 Mo), ils gèrent huit canaux DDR4 (maximum deux barrettes par canal, c’est-à-dire seize barrettes de mémoire par processeur ; contrairement à quatre chez Intel) pour un total de deux téraoctets maximum par processeur. La communication avec la mémoire peut être chiffrée et déchiffrée en temps réel, avec des clés générées par le processeur ou du côté logiciel (notamment pour la virtualisation) : ainsi, cela limite très fortement les possibilités d’attaque d’une machine virtuelle à l’autre.

Pour la communication, ils prévoient cent vingt-huit lignes PCIe, quatre fois ce que propose Intel, mais la moitié des lignes (c’est-à-dire soixante-quatre) est réservée en cas de deuxième processeur sur la carte mère. Ainsi, peu importe la configuration, ces processeurs offriront cent vingt-huit lignes vers l’extérieur — de quoi offrir une connectivité pour huit cartes graphiques (seize lignes chacune) ou encore trente-deux SSD en NVMe (quatre lignes chacun)… ou toute autre combinaison. Huit lignes sont cependant réservées pour être compatibles SATA.

Au niveau architectural, une puce EPYC est constituée de quatre plus petits éléments, reliés par l’Infinity Fabric d’AMD. Cette même technologie est utilisée pour la communication entre processeurs. L’intérêt est donc de fabriquer des puces relativement petites (et donc faciles à réaliser), puis de les assembler. Chaque bloc a un total de trois liens Infinity Fabric, avec un débit maximum de trente-huit gigaoctets par seconde. Infinity Fabric est aussi utilisé à l’intérieur de chaque bloc de huit cœurs, afin de relier des “complexes” (CCX, pour core complex) de quatre cœurs), mais avec un débit plus important (quarante-deux gigaoctets par seconde) — la probabilité d’erreur de transmission est plus faible.

Cette manière de procéder montre à quel point EPYC n’est qu’un sous-produit de l’architecture Zen : Ryzen n’a qu’un seul de ces éléments (huit cœurs) et Threadripper deux (seize cœurs). Le travail de conception spécifique à EPYC est donc très limité.

Cependant, les statistiques pour les processeurs Intel sont données pour la génération actuelle, Broadwell, où effectivement EPYC a de nombreux avantages à mettre en avant. La compétition aura cependant lieu avec la prochaine génération, Skylake, qui devrait aussi arriver en fin d’année. Certaines fonctionnalités des processeurs EPYC seront donc mises à mal (AMD affirme augmenter la performance en calcul à virgule flottante de 75 %, mais sans compter les instructions AVX-512 d’Intel) — on ne s’attend pas à ce qu’EPYC batte Intel à plates coutures au niveau de la performance brute par cœur. Néanmoins, AMD semble avoir prévu le coup en ce qui concerne la mémoire (Intel ne proposera que six canaux, contre huit pour EPYC) et la communication (cent vingt-huit lignes PCIe, quand on s’attend à quarante-huit pour Intel). Sans oublier qu’AMD se placera probablement un peu en-dessous d’Intel niveau prix… et que la distinction entre les processeurs se fait surtout au niveau du nombre de cœurs, toutes les fonctionnalités étant disponibles sur toute la gamme.

Sources : AMD Challenges Intel’s Datacenter Dominance with New EPYC ProcessorsAMD muscles in on Xeon’s turf as it unveils Epyc (images).

NVIDIA détaille la version PCIe du Tesla V100

Quelques mois après la première annonce de ses processeurs graphiques pour le calcul intensif Tesla V100, NVIDIA dévoile les derniers détails sur la version PCIe de ces cartes. L’annonce précédente portait uniquement sur les modules SXM2, un format propriétaire nécessaire notamment pour le bus NVLink. Les grandes lignes de Volta sont déjà connues : ces puces de 815 mm² sont fabriquées avec un procédé spécifique de TSCM, le 12FFN, une variante du 12 nm ; l’architecture des cœurs fait place à des unités spécifiques aux traitements tensoriels, les caches L1 sont unifiés au sein d’un multiprocesseur de flux.

La version PCIe de ces cartes, certes plus standard, est quelque peu limitée par rapport au format SXM2 : la puissance délivrable est moindre (250 W au lieu de 300 W), ce qui limite de facto la fréquence des processeurs graphiques (qui passe de 1455 à 1370 MHz, soit une perte d’approximativement six pour cent). La puissance de calcul est donc aussi en baisse : au plus vingt-huit téraflops en demi-précision (au lieu de trente), par exemple. Le processeur en lui-même est identique, avec le même nombre de cœurs CUDA par exemple (5376). Cependant, la diminution de puissance de calcul n’est pas directement proportionnelle à la diminution d’énergie consommée : l’efficacité énergétique augmente donc (de cent gigaflops par watt à cent douze).

Contrairement à la génération Pascal (P100), ces processeurs spécifiquement prévus pour le calcul intensif ne seront pas déclinés en une gamme : le P100 existait en versions seize et douze gigaoctets de mémoire, le V100 n’existera qu’en version seize gigaoctets. Cela est probablement dû au fait que NVIDIA maîtrise mieux les processus de fabrication de puces avec interposeur (requis pour une mémoire de type HBM2) — ce qui diminue le taux de puces partiellement mal formées — et que la production de mémoire HBM2 a augmenté en volume.

On attend les premières cartes PCIe pour la fin de l’année, notamment intégrées dans des systèmes de HP Entreprise.

Source : NVIDIA Formally Announces PCIe Tesla V100: Available Later This Year.

Un processeur Intel Kaby Lake remarqué avec une carte graphique AMD embarquée

La rumeur courait, elle semble se confirmer. SiSoft Sandra est un logiciel qui donne bon nombre d’informations sur les composants d’un ordinateur. Pour ce faire, il se base en grande partie sur une base de données, qui est une source privilégiée d’informations pour les prochains composants à venir sur le marché. Cette fois, l’analyse a montré qu’Intel a en stock un processeur de génération Kaby Lake avec une carte graphique signée AMD intégrée, bien plus puissante que ce qu’Intel est actuellement capable de produire.

En effet, une entrée montre un processeur avec une puce graphique de neuvième génération — jusque-là, rien de neuf —, mais composée de 1720 SP, la nomenclature d’AMD pour désigner les cœurs de ses cartes graphiques (Intel utilise plutôt EU). Ils seraient cadencés à un gigahertz, ce qui correspondrait à un GPU de gamme moyenne (le nombre de cœurs aurait pu faire espérer mieux). Élément supplémentaire, la référence du processeur Intel correspond partiellement à une référence de carte AMD (694C). On s’attendrait donc à une performance de l’ordre de trois téraflops pour cette partie graphique (ce qui n’est pas rien, sachant qu’elle est intégrée au processeur).

Une question reste en suspens : pour quel marché ce processeur serait-il destiné ? Les utilisateurs les plus exigeants préfèrent déjà utiliser une carte graphique externe plutôt que celle intégrée à leur processeur, malgré leur augmentation de performance. La situation est cependant différente dans le monde des ordinateurs portables, où la consommation énergétique est nettement plus importante. Apple pourrait être un client, pour proposer des ordinateurs portables avec une très faible consommation (la carte graphique étant intégrée au processeur), mais avec une puissance plus que décente. Apple est souvent cité, puisque cette firme a un goût particulier pour les processeurs spécifiquement conçus pour elle — mais rien n’empêcherait Intel de vendre ces puces à d’autres, a priori.

Source : Intel Kaby Lake Processor With AMD Graphics Core Spotted On SiSoft Sandra – 1720 Stream Processors Clocked At 1 GHz For Peak Performance of 3.4 TFLOPs.