Comment accélérer la mémoire 3D XPoint d’Intel ?

L’une des dernières innovations d’Intel concerne la mémoire, avec sa technologie 3D XPoint. Son intérêt est de rendre la frontière entre mémoire persistante (comme un disque dur ou un SSD) et mémoire volatile (la RAM) plus floue : outre son côté persistant (même en cas de perte de courant, la mémoire de l’ordinateur est préservée : il peut instantanément continuer ses opérations comme si de rien n’était), la mémoire 3D XPoint offre un niveau de performance comparable aux SSD (même s’il est moins bon que pour la RAM), avec une densité et un prix de fabrication inférieurs à la RAM. Un point négatif pour le moment est cependant la consommation d’énergie, par rapport à la RAM.

Une équipe de chercheurs de la North Carolina State University a ainsi cherché des solutions pour améliorer la performance de la mémoire 3D XPoint, en cherchant principalement à la rendre plus attractive face à la RAM traditionnelle. Ils se sont focalisés sur la synchronisation entre la mémoire principale (RAM) et sa copie sur le disque principal, par exemple lors de la mise à jour d’un fichier.

Dans ce cas, le processeur commence par effectuer les transformations nécessaires dans sa mémoire interne (ses caches, de la mémoire “statique”), qui sont alors transférés en mémoire centrale (RAM) avant de finir écrites sur le disque. Cependant, si un plantage se produit lors de l’opération d’écriture sur le disque (transfert depuis la RAM vers le stockage à long terme), comment s’assurer que les données sont bien cohérentes ?

Pour le moment, la seule technique disponible est la persistance hâtive, où chaque transformation est écrite aussi vite que possible sur disque. Néanmoins, avec des technologies de mémoire non volatile, on peut faire mieux : effectuer ces mises à jour quand le système est moins chargé, par exemple, pour qu’il fonctionne aussi vite que possible. De fait, même s’il y a un plantage entre les deux, puisque la mémoire n’est pas volatile, les transformations sont conservées.

C’est l’idée développée par cette équipe et formalisée sous le nom de persistance paresseuse. Cette technique permet de gagner presque dix pour cent sur le temps de transaction moyen, dont vingt et un pour cent en temps d’écriture en mémoire. La récupération après un plantage devient plus compliquée, mais ce cas est assez rare : le cas le plus général devient aussi plus rapide.

Voir aussi : la présentation de ces recherches à l’International symposium on computer architecture, l’article scientifique.

Source : Researchers Invent a Way to Speed Intel’s 3D XPoint Computer Memory.

Advertisements

ARM et Samsung collaborent pour des Cortex A76 à 3 GHz

ARM est le concepteur de la majorité des processeurs utilisés actuellement dans les téléphones, probablement aussi dans les supercalculateurs de demain, si pas nos ordinateurs personnels. Sa dernière génération de cœurs de calcul Cortex A76 est prévue pour le très haut de gamme en performance, en promettant d’être comparable à certains processeurs Intel pour des ordinateurs portables à basse consommation.

Pour arriver à ce niveau, il faut un processus de fabrication des processeurs suffisamment évolué : c’est pour cela qu’ARM s’est associé avec Samsung pour développer une architecture physique complète des cœurs Cortex A76 déjà optimisée pour les derniers processus Samsung (7LPP), qui devraient être disponibles dès la fin de cette année.

Cette architecture prédéfinie permettra d’atteindre des fréquences de plus de trois gigahertz, selon les estimations actuelles (pas de chiffre définitif avancé), avec une consommation d’énergie compatible avec des périphériques très mobiles. Elle comprend à la fois le processeur, la mémoire, ainsi que les entrées-sorties en 1,3 V et 3,3 V, pour s’adapter à un maximum de situations différentes.

Ce partenariat continuera à se développer, notamment pour la migration vers le nœud 5 nm de Samsung (5LPE), qui devrait arriver vers 2020 (même si, à ce moment-là, l’A76 sera probablement obsolète), mais aussi pour des cœurs avec une consommation énergétique plus faible, les Cortex A55.

Sources : Samsung, ARM’s 5LPE & 7LPP Partnership For Cortex A76 Will Allow 3GHz+ Frequencies, Samsung And ARM Expand Collaboration To Drive High Performance Computing, Arm and Samsung Extend Artisan POP IP Collaboration to 7LPP and 5LPE Nodes.

NGD lance sa deuxième génération de SSD programmables

Les disques électroniques (SSD) entrent dans de plus en plus de domaines par la grande porte : leur performance est excellente en comparaison des disques durs magnétiques habituels (il n’y a pas de tête de lecture à déplacer avant de commencer à lire ou à écrire des données), leur prix est en chute libre, leur capacité augmente sans cesse.

NGD surfe sur cette vague en ajoutant une partie pas forcément attendue sur un SSD : une capacité de calcul non négligeable. La deuxième génération de leur seul produit, Catalina 2, offre une série de cœurs de calcul ARM ainsi qu’un FPGA Xilinx associés à un SSD, ce qui garantit un très haut niveau de programmabilité et de performance. Le problème à résoudre est que le traitement de grandes quantités de données nécessite de transporter ces volumes à travers d’abord les bus d’un serveur, puis peut-être le réseau d’un centre informatique : si les traitements les plus courants et simples peuvent être effectués directement au niveau du stockage, alors tous ces moyens de communication seront utilisés bien plus efficacement. Un autre bénéfice est que la consommation d’énergie est moindre — les disques de NGD consomment une douzaine de watts au plus.

Ces disques sont compatibles avec NVMe 1.3 et peuvent se connecter sur un port PCI Express 3.0 x4 ou U.2. La carte Catalina 2 est complètement indépendante de la mémoire flash installée : elle est connectée à l’aide de ports M.2 que l’on peut remplacer n’importe quand (pour le moment, il s’agit de composants fournis par Toshiba). Ces disques fournissent une performance en lecture et écriture d’au plus 3,9 Go/s. Pour assurer la cohérence des données écrites, NGD a adopté une technologie de codes correcteurs à faible densité.

Source : NGD Launches Catalina 2 Programmable SSDs: 16 TB – 32 TB, ARM A-53 Cores.

 

Les prochains processeurs graphiques d’AMD n’utiliseront PCIe 4.0 que dans leurs déclinaisons professionnelles

La prochaine génération de processeurs graphiques d’AMD, les Vega 20, devrait être annoncée cette année et être disponible un peu plus tard. Selon les sources, ces processeurs devraient être équipés de trente-deux gigaoctets de mémoire HBM2, ce qui les destine principalement au marché professionnel, ainsi qu’être fabriquées sur un processus 7 nm. Une des évolutions de ces puces sera probablement la mise à disposition d’une implémentation de PCI Express 4.0, le bus qui sert à relier la carte graphique au reste de l’ordinateur dans la plupart des cas. La version 4.0 de ce bus n’est disponible que depuis peu, les produits commencent à arriver et AMD veut faire partie des premiers à l’adopter.

Les avantages de PCIe 4.0 se résument principalement à la bande passante disponible : chaque seconde, il sera possible d’effectuer jusque seize milliards de transferts (le double de PCIe 3.0), c’est-à-dire jusque soixante-quatre gigaoctets de données transférées par seconde (pour un port x16). Pour les processeurs graphiques, cette évolution est très importante, vu que la bande passante est déjà un facteur limitant pour certaines applications depuis quelques années (ce qui a poussé NVIDIA à développer sa propre interface NVLINK pour la communication à haut débit).

Ce bus PCIe 4.0 n’arrivera que du côté professionnel, principalement à cause des coûts de développement et de qualification de ces bus. Selon certaines études, ces développements n’auraient de sens économique que dans le cas d’applications de niche comme le calcul haute performance, car le besoin de performance est là et le budget ne représente pas un gros problème. En effet, en augmentant la vitesse de transfert, on augmente une série de problèmes : le signal perd plus vite en puissance (avec PCIe 1.0, la puissance reste suffisamment élevée même après cinquante centimètres ; avec PCIe 4.0, on estime plutôt cette distance à une dizaine de centimètres) ; deux signaux doivent être synchronisés de manière nettement plus précise.

Ces problèmes ne sont pas tellement importants au niveau d’une carte graphique : un composant pour gérer la synchronisation sur seize lignes coûterait entre quinze et vingt-cinq euros à la revente, par exemple. Cependant, au niveau d’une carte mère (bien plus grande qu’une carte graphique), on parlerait de surcoûts de l’ordre de cent à trois cents euros !

Au lieu d’utiliser des pistes sur un circuit imprimé, il serait évidemment possible d’envisager d’autres solutions. Bon nombre d’industriels semblent intéressés par le remplacement de ces pistes par des câbles, notamment twinax (des câbles coaxiaux avec deux conducteurs internes) et des connecteurs en luciole (déjà utilisés pour certaines connexions optiques). Leurs propriétés sont très bonnes d’un point de vue ingénierie (impact faible sur la latence et la puissance du signal), mais moins pour la fabrication (malgré un coût limité, il faut connecter tous ces câbles manuellement).

On pourrait donc voir apparaître assez vite des cartes PCIe 4.0, si pas 5.0, mais uniquement lorsque ces nouvelles versions apportent suffisamment au niveau de la performance — ce qui n’est pas encore clair pour les usages grand public.

Source :

L’Europe se lance dans la conception de ses propres processeurs

L’Union européenne est bien lancée dans la course aux superordinateurs dont la puissance dépasse un exaflops, c’est-à-dire une dizaine de fois plus puissants que les meilleurs actuels, dans le cadre de H2020. Pour y arriver, simplement mettre à l’échelle les architectures actuelles ne suffira pas : la consommation énergétique de ces machines est trop importante, il n’est pas question de construire plusieurs centrales nucléaires par supercalculateur. C’est pourquoi l’Union européenne a lancé un programme pour se doter de telles machines, en finançant les programmes de recherche nécessaires. Les résultats sont déjà là, avec un premier superordinateur déjà déployé pour tester les résultats de recherche obtenus. In fine, l’objectif est d’atteindre des machines, vers 2022, qui consomment entre vingt et trente mégawatts, maximum quarante (machines et refroidissement inclus), avec un coût entre quatre cent et six cent millions d’euros l’unité.

Le consortium EPI (European processor initiative) complémente le premier programme. Lancé en mars dernier, son objectif est d’arriver à construire un superordinateur complètement européen, pour l’entièreté de ses composants et logiciels. La pièce manquante principale est le processeur de calcul, pièce maîtresse s’il en est.

Au vu de l’évolution géopolitique, ce programme n’est pas isolationniste : la plupart des supercalculateurs utilisent aujourd’hui des processeurs AMD, Cavium, Intel ou encore NVIDIA — uniquement des sociétés américaine. La Chine s’est aussi lancée dans le même genre de programme, avec Tianhe-2, suite au refus du gouvernement des États-Unis de leur fournir les puces nécessaires. L’Europe n’est pas à l’abri d’un tel camouflet, surtout avec les relations actuellement tendues. Le Japon, historiquement, n’utilise que des puces développées “en interne” et cette tradition se perpétuera avec le Post-K.

Les choix techniques sont loin d’être posés, vu l’âge du projet. Cependant, deux architectures ressortent du lot : RISC-V, complètement libre ; ARM, entièrement commerciale (et, accessoirement, anglais). Réaliser des processeurs x86 n’aurait pas beaucoup de sens, vu qu’il n’existe pas de programme de licence — contrairement à ARM, puisque les développeurs de l’architecture conçoivent certains cœurs, mais n’en fabriquent pas : ils n’ont pas d’autre choix que d’offrir un programme de licence. De plus, le fabricant français de superordinateurs Atos a une certaine expérience avec l’architecture ARM, de par son projet Mont Blanc par exemple. OpenPOWER serait un candidat raisonnable, au vu de sa licence, mais aucune entreprise ne s’est risquée à un développement dans un cadre HPC en Europe.

Deux types de processeurs seront développés : l’un plutôt pour les superordinateurs (assez générique), l’autre aussi pour les voitures (pour accélérer plus spécifiquement certaines opérations, comme l’inférence dans les réseaux neuronaux). Ils n’utiliseront pas forcément la même architecture (on pourrait voir le premier en ARM et le second en RISC-V), mais seront développés en parallèle pour réduire les coûts. Les machines déployées utiliseront une architecture modulaire, chaque partie étant spécialisée dans un type de calcul.

Le projet prévoit d’aller vite : la première génération de puces devrait être prête vers 2020-2021, avec les premiers systèmes (qui n’atteindront probablement pas l’exaflops) entre 2021 et 2022. La deuxième génération pourrait arriver deux ans plus tard, vers 2022-2023, des machines d’un exaflops devant arriver dès la fin 2023. Pendant ce temps, les processeurs pour l’automobile devraient être disponibles comme prototypes dès la fin 2021 et comme produits finis dès la fin 2024.

Le projet sera financé à hauteur de cent vingt millions d’euros par les pouvoirs publics, vingt-trois partenaires industriels et chercheurs investiront aussi leurs moyens. On compte notamment Atos (assembleur de machines), BSC, CEA, Jülich Supercomputing Centre (trois centres de recherche hébergeant des superordinateurs) et STMicroelectronics (fabricant de semiconducteurs),

Sources : European Program to Develop Supercomputing Chips Begins to Take Shape, European Processor Initiative: consortium to develop Europe’s microprocessors for future supercomputers.

Selon une analyse détaillée, les processeurs ARM ont un futur prometteur pour le HPC

À l’instar de l’Espagne, le Royaume-Uni s’est lancé dans l’analyse de plusieurs types de processeurs pour ses futurs superordinateurs. Notamment, Isambard (un superordinateur en cours de construction) utilisera uniquement des puces ARM, des Cavium ThunderX2 précisément, afin d’évaluer cette technologie. Ce choix n’est pas dénué de sens : l’architecture ARM est très utilisée dans le monde de l’embarqué (notamment pour les téléphones portables) pour sa bonne performance avec une efficacité énergétique très haute. Le Japon ne s’y est pas trompé, son prochain superordinateur l’exploitera.

Isambard est une machine de dix mille processeurs ARM (moins puissante qu’Astra, récemment déployée aux États-Unis). Son exploitant, GW4 (un rassemblement de quatre universités anglaises), l’a comparée aux supercalculateurs existants sur différentes mesures. Leurs résultats montrent que, en termes de puissance brute, l’architecture ARM n’est pas la plus compétitive, mais qu’elle pourrait se tailler une part de marché importante. Trois processeurs sont en lice :  Cavium ThunderX2 (ARM, trente-deux cœurs), Intel Xeon Broadwell (x86, vingt-deux cœurs) et Intel Xeon Skylake (x86, vingt-huit cœurs).

La comparaison indique, sans surprise, que les processeurs d’Intel sont bien meilleurs quand il s’agit d’effectuer des opérations en virgule flottante. Notamment, la génération Skylake propose les instructions AVX2, qui peuvent travailler sur des vecteurs de cinq cent douze bits d’un seul coup : côté ARM, cette longueur est limitée à cent vingt-huit bits (deux nombres en virgule flottante avec une double précision, la plus utilisée en calcul scientifique).

Au contraire, les processeurs Intel sont déficients du côté de la mémoire : la bande passante du ThunderX2 est presque vingt-cinq pour cent supérieure à celle de la génération Skylake. De fait, le ThunderX2 dispose de huit canaux d’accès à la mémoire (six côté Skylake). Les caches sont souvent à l’avantage des processeurs Intel. Ceci signifie que ces derniers sont préférables pour tous les codes de calcul extrêmement intenses en opérations en virgule flottante (idéalement, toutes les données pouvant tenir dans les caches), mais pas en opérations mémoire, où le ThunderX2 brille bien plus.

Un autre avantage des processeurs ARM est leur prix. Bien que celui des processeurs utilisés pour Isambard n’a pas été dévoilé, il a été décrit comme “réduit d’un facteur deux à trois”. Le rapport performance-prix est donc bien plus intéressant — un facteur qui sera privilégié par certains acteurs de moindre taille.

La conclusion principale de cette analyse est que les processeurs ARM ont toute leur place dans les infrastructures HPC modernes, selon les cas d’utilisation prévus. Il est illusoire d’espérer obtenir une puce parfaite, capable d’effectuer un très grand nombre d’opérations par seconde et de disposer d’un très grand nombre de canaux d’accès à la mémoire, puisque le nombre de transistors est limité par processeur (à moins d’augmenter fortement la quantité de silicium qui est utilisée, ce qui ferait grimper fortement les prix).

Source : Benchmarks in Hand, UK Academics See Promising Future for Arm Chips in HPC.

Intel serait-il incapable de produire ses puces assez vite pour ses clients ?

Intel est l’un des plus grands fabricants de semi-conducteurs au monde, étant au cœur de l’extrêmement grande majorité des ordinateurs actuels. Connu pour son avance sur les processus de fabrication de processeurs depuis des dizaines d’années, la société perd sa position dominante sur le secteur : sa technologie en 10 nm devait voir le jour en 2015-2016, elle ne sera utilisée en volume qu’au début 2019 (certains processeurs l’utilisent déjà, mais le taux de rebut est trop important pour de grands volumes). Pendant ce temps, la concurrence n’attend pas : TSMC a déjà lancé la production de son processus en 7 nm (équivalent, d’un point de vue technique, au 10 nm d’Intel).

Sauf qu’Intel avait prévu que le développement de son 10 nm se passerait comme prévu. Ou pas trop loin. Conséquence : Intel sort plus de modèles de processeur exploitant son processus actuel, le 14 nm ou une de ses nombreuses variantes. Les nouveaux modèles ont plus de cœurs et sont donc plus gros : pour la même quantité de silicium, on fait donc moins de processeurs. Ainsi, la demande continue d’être forte, alors qu’Intel est en cours de transition vers le 10 nm (et prévoyait peut-être de faire passer certaines de ses usines 14 nm en 10 nm).

Il semblerait que cela crée quelques problèmes au niveau de l’approvisionnement : Intel n’a pas pu livrer toutes les puces H310 (des PCH, qui gèrent l’interconnexion entre le processeur et les périphériques) à peine un mois après son lancement. Intel n’avait tout simplement pas assez de capacité de production pour la demande… Il aura fallu quelques mois à Intel pour résoudre le problème.

De même, le Z390 (également un PCH) pourrait ne pas voir le jour sous la forme souhaitée, il pourrait n’être que la gamme inférieure (Z370) sous un autre nom. La différence est importante : le Z370 est fabriqué avec un processus encore plus vieux, le 22 nm… ce qui libère de la place pour de la production en 14 nm. Le changement de processus de fabrication n’a pas tellement d’impact sur ce type de puce, d’où la relative possibilité d’intervertir les processus.

La réponse actuelle d’Intel est assez simple, il s’agit d’augmenter les capacités de production en 14 nm. Les besoins en processeurs 14 nm se poursuivront probablement pendant encore une bonne partie de 2019 et ces capacités serviront de toute façon après la transition vers le 10 nm : certaines puces n’ont pas besoin de processus très avancés (comme les PCH ou certaines formes de mémoire), d’autres produits ont des durées de vie assez importantes (FPGA, par exemple) ou ont des besoins qui ne seront pas forcément rencontrés aux débuts du 10 nm (les puces qui consomment énormément d’énergie, notamment), des clients d’Intel Custom Foundry pourraient être plus intéressés par du 14 nm que du 10 nm.

Source : Intel Can’t Crank Chips Out Fast Enough.