NVIDIA détaille la version PCIe du Tesla V100

Quelques mois après la première annonce de ses processeurs graphiques pour le calcul intensif Tesla V100, NVIDIA dévoile les derniers détails sur la version PCIe de ces cartes. L’annonce précédente portait uniquement sur les modules SXM2, un format propriétaire nécessaire notamment pour le bus NVLink. Les grandes lignes de Volta sont déjà connues : ces puces de 815 mm² sont fabriquées avec un procédé spécifique de TSCM, le 12FFN, une variante du 12 nm ; l’architecture des cœurs fait place à des unités spécifiques aux traitements tensoriels, les caches L1 sont unifiés au sein d’un multiprocesseur de flux.

La version PCIe de ces cartes, certes plus standard, est quelque peu limitée par rapport au format SXM2 : la puissance délivrable est moindre (250 W au lieu de 300 W), ce qui limite de facto la fréquence des processeurs graphiques (qui passe de 1455 à 1370 MHz, soit une perte d’approximativement six pour cent). La puissance de calcul est donc aussi en baisse : au plus vingt-huit téraflops en demi-précision (au lieu de trente), par exemple. Le processeur en lui-même est identique, avec le même nombre de cœurs CUDA par exemple (5376). Cependant, la diminution de puissance de calcul n’est pas directement proportionnelle à la diminution d’énergie consommée : l’efficacité énergétique augmente donc (de cent gigaflops par watt à cent douze).

Contrairement à la génération Pascal (P100), ces processeurs spécifiquement prévus pour le calcul intensif ne seront pas déclinés en une gamme : le P100 existait en versions seize et douze gigaoctets de mémoire, le V100 n’existera qu’en version seize gigaoctets. Cela est probablement dû au fait que NVIDIA maîtrise mieux les processus de fabrication de puces avec interposeur (requis pour une mémoire de type HBM2) — ce qui diminue le taux de puces partiellement mal formées — et que la production de mémoire HBM2 a augmenté en volume.

On attend les premières cartes PCIe pour la fin de l’année, notamment intégrées dans des systèmes de HP Entreprise.

Source : NVIDIA Formally Announces PCIe Tesla V100: Available Later This Year.

Un processeur Intel Kaby Lake remarqué avec une carte graphique AMD embarquée

La rumeur courait, elle semble se confirmer. SiSoft Sandra est un logiciel qui donne bon nombre d’informations sur les composants d’un ordinateur. Pour ce faire, il se base en grande partie sur une base de données, qui est une source privilégiée d’informations pour les prochains composants à venir sur le marché. Cette fois, l’analyse a montré qu’Intel a en stock un processeur de génération Kaby Lake avec une carte graphique signée AMD intégrée, bien plus puissante que ce qu’Intel est actuellement capable de produire.

En effet, une entrée montre un processeur avec une puce graphique de neuvième génération — jusque-là, rien de neuf —, mais composée de 1720 SP, la nomenclature d’AMD pour désigner les cœurs de ses cartes graphiques (Intel utilise plutôt EU). Ils seraient cadencés à un gigahertz, ce qui correspondrait à un GPU de gamme moyenne (le nombre de cœurs aurait pu faire espérer mieux). Élément supplémentaire, la référence du processeur Intel correspond partiellement à une référence de carte AMD (694C). On s’attendrait donc à une performance de l’ordre de trois téraflops pour cette partie graphique (ce qui n’est pas rien, sachant qu’elle est intégrée au processeur).

Une question reste en suspens : pour quel marché ce processeur serait-il destiné ? Les utilisateurs les plus exigeants préfèrent déjà utiliser une carte graphique externe plutôt que celle intégrée à leur processeur, malgré leur augmentation de performance. La situation est cependant différente dans le monde des ordinateurs portables, où la consommation énergétique est nettement plus importante. Apple pourrait être un client, pour proposer des ordinateurs portables avec une très faible consommation (la carte graphique étant intégrée au processeur), mais avec une puissance plus que décente. Apple est souvent cité, puisque cette firme a un goût particulier pour les processeurs spécifiquement conçus pour elle — mais rien n’empêcherait Intel de vendre ces puces à d’autres, a priori.

Source : Intel Kaby Lake Processor With AMD Graphics Core Spotted On SiSoft Sandra – 1720 Stream Processors Clocked At 1 GHz For Peak Performance of 3.4 TFLOPs.

La nouvelle structure d’interconnexion des cœurs d’Intel est maillée

Les derniers processeurs d’Intel, tant pour le grand public (gamme i9) que pour les entreprises (Xeon), proposent un très grand nombre de cœurs : les i9 montent jusque dix-huit cœurs sur une même puce, les Xeon vingt-huit. Cependant, à l’intérieur de chaque puce, les cœurs étaient jusqu’il y a peu connectés de la même manière qu’en 2008, avec une architecture circulaire prévue pour huit cœurs au plus. Cette dernière faisait sentir ses limites, tant en termes de latence que de bande passante ou de consommation énergétique. C’est pourquoi la génération qui arrive très bientôt sur le marché profitera d’un changement très profond : cet anneau est remplacé par des mailles. Ce changement est annoncé plus tardivement qu’AMD, dont l’Infinity Fabric avait été annoncé début 2016, bien avant la confirmation des plans de processeurs de trente-deux cœurs et plus.

En 2008, Intel lance une nouvelle gamme de processeurs grand public sous la marque Core i, avec une révolution : la présence de plusieurs cœurs. Désormais, il faut donc partager le contrôleur mémoire, les accès au matériel (lignes PCIe et autres), etc. entre plusieurs unités de calcul. Une solution simple et relativement efficace est de relier tous ces éléments dans un anneau (inspiré des premiers réseaux informatiques). Pour limiter les délais, celui-ci est doublé : un anneau dans chaque sens. Chacun des éléments y est connecté, ce qui permet à tous les cœurs d’accéder à tous les éléments importants.

Cependant, au vu de la fréquence des processeurs, on ne peut pas considérer que l’information se propage infiniment vite. Par conséquent, pour assurer une certaine synchronisation du signal, les données ne peuvent se propager qu’un élément de l’anneau plus loin par coup d’horloge. Chaque cœur y est connecté indépendamment, mais tous les éléments ne sont pas logés à la même enseigne : par exemple, les accès au matériel externe doivent se partager un point d’accès à l’anneau.

S’il faut connecter plus de cœurs, les transmissions deviennent bien trop lentes, vu le nombre d’éléments connectés à l’anneau : si l’envoi d’un paquet d’information au cœur voisin peut se faire en un coup d’horloge, le plus éloigné peut prendre une dizaine coups, pour huit cœurs ; avec une vingtaine de cœurs, cette solution n’est pas adaptée. Dans ce cas, l’anneau peut être doublé, avec une architecture d’interconnexion des deux anneaux. Chaque anneau peut avoir son propre contrôleur mémoire, pour éviter de ralentir ces accès — nettement plus fréquents que les échanges entre cœurs. Néanmoins, la communication entre deux cœurs peut prendre nettement plus de temps, si chacun des deux cœurs est dans son propre anneau et loin des interconnexions.

Cette architecture ne peut plus s’adapter aux processeurs avec un grand nombre de cœurs sans limiter leur performance. Pour cette génération à venir, l’anneau a complètement disparu : maintenant, tous les éléments sont reliés dans une grille, la communication peut se faire selon un bien plus grand nombre de chemins (si certains sont déjà très chargés). De telle sorte, la latence peut être fortement réduite ; vu le nombre de liens supplémentaires, la bande passante augmente également.

Les mêmes inégalités que précédemment sont répétées, mais amoindries : un cœur proche du contrôleur mémoire aura accès nettement plus rapidement à la mémoire qu’un cœur en plein milieu de la grille. Ainsi, un cœur situé au centre aura intérêt à collaborer avec les cœurs voisins, tandis que ceux proches des contrôleurs auront intérêt à préparer l’information pour les autres cœurs. Il n’y a néanmoins plus d’intérêt à communiquer avec les cœurs dans le même anneau.

Par rapport à la génération précédente, cependant, on peut positionner nettement plus de contrôleurs mémoire sur les côtés (la structure en anneaux était limitée à un contrôleur par anneau) : par exemple, les Xeon à vingt-huit cœurs en auront trois de chaque côté. En effet, ajouter des points d’arrêt dans la grille n’augmente pas les délais pour toutes les communications. Même chose pour les accès au matériel extérieur : ces Xeon auront droit à deux points d’accès pour les lignes PCIe, ce qui augmentera les débits potentiels depuis et vers les cartes graphiques, les SSD ou le réseau (surtout en fibre optique, avec des pointes à cent gigabits par seconde).

Globalement, Intel indique avoir pu diminuer la fréquence et la tension sur les bus de communication de cette grille par rapport aux anneaux tout en augmentant la bande passante totale et en diminuant la latence (sans avancer de chiffre, toutefois) : c’est donc une bonne nouvelle, puisque la consommation “inutile” des processeurs diminuera — cette puissance pourra donc être consommée par les cœurs de calcul directement.

Cette nouvelle architecture s’imposera dans tous les processeurs à venir du fondeur s’ils disposent d’un grand nombre de cœurs — l’architecture en anneau étant largement suffisante pour les processeurs les plus courants, jusque huit cœurs. Elle n’a probablement pas été dictée par AMD, mais est plutôt en développement depuis deux à trois ans — ce qui n’empêche qu’elle tombe très bien, d’un point de vue commercial. Il restera à voir comment elle s’adaptera dans les années à venir avec encore plus de cœurs par puce… mais déjà comment elle fonctionne maintenant, par rapport aux anneaux.

Sources et images : Intel Introduces New Mesh Architecture For Xeon And Skylake-X Processors, Intel Skylake-X and Skylake-SP Mesh Architecture For XCC “Extreme Core Count” CPUs Detailed – Features Higher Efficiency, Higher Bandwidth and Lower Latency.

PCIe 4.0 : jusqu’à seize millions de transferts par seconde

PCI Express (peripheral component interconnect) est le bus de référence dans les ordinateurs actuels. Il sert notamment à connecter toutes les cartes d’extension, y compris (voire surtout) les cartes graphiques, ainsi que certains SSD. Les cartes PCIe ont une forme bien spécifique pour les enchâsser dans la carte mère, une longue série de points de contact (comme pour PCI, AGP et ISA) ; plusieurs longueurs ont été normalisées, avec un nombre de contacts variables, afin de correspondre aux différents besoins en performance (entre x1 et x16, avec une bande passante qui augmente d’un facteur seize). PCIe, ce n’est pas que ces ports : on peut connecter des SSD à travers des ports M.2, qui peuvent utiliser le protocole PCIe, tout comme les ports externes Thunderbolt (compatibles USB C).

La version 3.0 est sortie en 2010 et permettait un total de huit millions de transferts par seconde (8 GT/s), un transfert étant un échange d’informations (équivalent d’un paquet dans les réseaux informatiques traditionnels). La quatrième version de la norme est maintenant prête (il ne manque que quelques vérifications légales, qui devraient être faites pour fin de l’année) et double la bande passante à seize gigatransferts par seconde. Ainsi, pour un port x16, PCIe 4.0 peut fournir un débit de soixante-quatre gigaoctets par seconde.

Cette augmentation de débit maximum est importante pour bon nombre d’applications, comme les cartes graphiques : pour le traitement de jeux de données de plus en plus grands ou l’utilisation de textures plus détaillées dans les jeux vidéos, les quantités de données à transférer augmentent régulièrement (il est actuellement difficile de remplir entièrement un bus de seize gigaoctets par seconde pour ces applications, mais cela le sera probablement dans les années à venir).

La conversion entre le nombre de transferts par seconde et le débit s’effectue selon la manière d’encoder un paquet. Depuis PCIe 3.0, un encodage 128b/130b est utilisé : cent vingt-huit bits sont codés sur cent trente bits, les deux bits supplémentaires étant utilisés pour détecter et corriger les erreurs de transmission (principalement des horloges non synchronisées). Chaque ligne PCIe est utilisée pour la transmission (en duplex : en envoi ou réception, selon les besoins) : un port x1 définit une seule ligne, un x16 seize lignes.

Puisque l’encodage ne change pas, les gains en débit sont obtenus uniquement par une montée en fréquence de l’émission : PCIe 3.0 fonctionne à huit gigahertz, on peut attendre que la version 4.0 fonctionne à une douzaine de gigahertz, mais aucun chiffre n’est avancé officiellement. Le problème de ces hautes fréquences est que la synchronisation sur une longue distance devient plus difficile : une différence de quelques millimètres sur une piste peut induire un décalage important des paquets dans le temps.

Un avantage de cette augmentation de fréquence est que, pour un débit donné, une carte PCIe aura besoin de moins de lignes : les besoins en énergie pour une même transmission diminuent donc (ce qui est important notamment dans le calcul de haute performance, actuellement limité par ce facteur).

Une version 5.0 est d’ores et déjà en cours de préparation, toujours en utilisant des pistes de cuivre (la 4.0 devait être la dernière sur ce support). La rédaction devrait être achevée pour 2019, avec les premiers produits pour 2020 ou 2021. Le débit annoncé est de cent vingt-huit gigaoctets par seconde (le double de PCIe 4.0), notamment pour suivre dans des applications comme des cartes Ethernet 400 Go/s ou InfiniBand 200 Go/s.

Sources et image : PCIe 4.0 specification finally out with 16 GT/s on tap, PCI-SIG® Fast Tracks Evolution to 32GT/s with PCI Express 5.0 Architecture.

Samsung et TSMC s’ouvrent sur leurs futurs processus de fabrication de semiconducteurs

TSMC et Samsung ont récemment effectué une série d’annonces au niveau de leurs processus de fabrication de semiconducteurs, tant dans les procédés actuels que ceux qui devraient venir dans un futur proche (jusqu’en 2020). Voici donc un petit tour d’horizon de ce qui devrait arriver sur le marché des microprocesseurs.

De manière générale, les deux fabricants se lancent dans les processus 10 nm (tout comme Intel). Septante mille gaufrettes ont été produites, côté Samsung, avec leur première génération de 10 nm à base de FinFET (le nœud 10LPE) ; trois nouveaux processus seront mis sur le marché dans les années à venir. TSMC, quant à lui, se prépare à lancer une production en masse de son nœud 10 nm ; parmi les nouveaux processus, un 7 nm à base d’EUV devrait arriver en 2019.

Quid du 10 nm ?

Les premiers processeurs en 10 nm (10LPE, pour low power early) de type “système sur une puce” (SoC), utilisés notamment sur les téléphones portables, datent d’octobre dernier pour Samsung. Ces puces ont de nombreux avantages par rapport au procédé précédemment utilisé pour ce segment (14LPE) : elles sont trente pour cent plus petites ; la consommation énergétique à complexité et fréquence constante diminue de quarante pour cent ; la fréquence à consommation énergétique et complexité constante augmente de vingt-sept pour cent.

Septante mille gaufrettes sont sorties de production avec ce nœud 10LPE. Cependant, peu de processeurs mobiles sont prévus pour bénéficier de ces procédés améliorés : seuls les Samsung Exynos 9 Octa 8895 et Qualcomm Snapdragon 835.

Vers la fin 2017, une variante de ce procédé devrait être disponible pour la production de masse : le 10LPP (low power plus) devrait augmenter la performance d’une dizaine de pour cent par rapport au 10LPE. Fin 2018, le 10LPU devrait arriver avec une augmentation de la densité de transistors sur une puce ; il pourrait viser le segment des appareils de très petite taille et d’extrêmement faible consommation. Cette stratégie d’améliorations incrémentales d’un nœud avec le même nom commercial (10 nm) n’est pas sans rappeler celle d’Intel.

Côté TSMC, le processus 10FF n’est pas encore aussi mature : la production de masse ne devrait arriver que dans la deuxième moitié de 2017. La capacité de production devrait être de l’ordre de centaines de milliers de gaufrettes par trimestre (les prévisions de TSMC sont de quatre cent mille gaufrettes en 2017).

Ce 10FF apporte bon nombre d’avantages par rapport au 16FF++ pour les puces mobiles : une densité de transistor augmentée de cinquante pour cent ; la consommation énergétique à complexité et fréquence constante diminue de quarante pour cent ; la fréquence à consommation énergétique et complexité constante augmente de vingt pour cent (ce qui est moins que Samsung).

Et après le 10 nm ?

La stratégie post-10 nm de TSMC diffère fortement de celle de Samsung et d’Intel : il prévoit de passer au 7 nm extrêmement rapidement, dès l’année prochaine, avec un processus nommé 7FF. Technologiquement, il ne devrait pas être révolutionnaire, en se limitant aux ultraviolets profonds (DUV), comme les technique actuelles — un processus plus évolué sera disponible plus tard, en utilisant l’EUV, comme ses concurrents. La production en risque de 7FF est lancée depuis avril, avec la production en masse dès le deuxième trimestre 2018.

La deuxième génération, 7FF+, utilisera l’EUV pour certains couches des puces produites. La densité devrait augmenter de dix à vingt pour cent, la fréquence de dix pour cent. Le principal avantage par rapport au 7FF devrait cependant être un temps de production réduit. La production en risque devrait débuter dès le deuxième trimestre 2018, pour une production de masse dans la deuxième moité de 2019.

Cette réticence à utiliser rapidement l’EUV est probablement due aux limitations de la technologie : la puissance de la lithographie a du mal à monter (un problème qui n’est pas neuf). Néanmoins, tous les fabricants de semiconducteurs semblent confiants en la capacité d’ASML d’améliorer ses produits sur ce point, avec des sources à 250 W pour la fin 2018.

Samsung semble prendre une toute autre approche pour améliorer ses processus de production, nettement plus incrémentale : ses prochains nœuds seront nommés 8LPP, 7LPP, 6LPP, 5LPP et 4LPP. Le 8LPP devrait être une variante légère du 10 nm, avec quelques gains en performance et densité.

La vraie révolution devrait venir avec le 7LPP, prévu pour la fin 2018. La lithographie EUV devrait faire son apparition à ce moment, en tablant comme TSMC sur une puissance de 250 W. Le 6LPP devrait être, à nouveau, une variante légère du 7LPP, avec diverses techniques pour augmenter la densité, en fonction de l’expérience acquise avec l’utilisation du 7LPP.

Le nœud complet suivant devrait être le 4LPP, avec un tout nouveau type de transistor : les FinFET seront remplacés par les GAAFET. Peu de détails ont fuité à ce sujet pour le moment, si ce n’est que la porte devrait entourer le canal du transistor. Ce procédé devrait arriver à l’horizon 2020 pour la production en risque, sans engagement formel.

Sources, images et tableaux : Samsung and TSMC Roadmaps: 8 and 6 nm Added, Looking at 22ULP and 12FFC, Samsung Expands its Advanced Foundry Offerings with 14LPU and 10LPU Processes, TSMC’s 7nm Risk Production Will Start In April; 7nm+ Will Use EUV, With 1.2x Logic Density & 10% Performance Boost Over 7nm, Samsung détaille sa roadmap jusqu’au 4nm.

Apple abandonne les processeurs graphiques PowerVR : comment Imagination réagit-il ?

Début avril 2017, l’annonce d’Apple tombe comme une massue : ils n’utiliseront plus, à l’avenir, les processeur graphiques PowerVR produits par Imagination. Les deux firmes conservent un accord, mais lié exclusivement aux brevets : à partir de 2019, Apple utilisera ses propres GPU pour ses processeurs A (iPhone, iPad, Apple TV) et S (Apple Watch). Ce n’est pas la première fois que la marque se passe des concurrents pour développer ses produits en interne : les premières générations d’iPhone utilisaient des processeurs Smasung, mais l’iPhone 4 a changé la donne avec un processeur A4 entièrement conçu par Apple.

Peu d’informations ont filtré sur les détails de l’opération côté Apple. Par contre, pour Imagination, c’est un très gros problème : Apple représente la moitié du chiffre d’affaire de la compagnie, 69 % pour le segment GPU. Autant dire qu’ils doivent se réinventer pour survivre — déjà que, l’année dernière, 350 emplois sont passés à la trappe à la suite des ventes insuffisantes des iPhone. Les premières discussions avec Apple ne se sont pas montrées très efficaces, la suite se fera donc en justice… mais le résultat est, comme toujours, incertain et tardif.

Imagination était en pleine stratégie de diversification. Outre les GPU, ils développaient des processeurs MIPS (grâce à une acquisition de cent millions de dollars en 2012) — gérés par Android au même titre qu’ARM, même si leur succès était plus du côté de l’embarqué — et des solutions de communication Ensigma (aussi une acquisition, en 2000, d’une valeur de cinq millions de livres). Ces deux dernières divisions sont maintenant à vendre, dans le seul objectif de garder la société à flot : maintenant, sa survie est entièrement liée à celle de ses processeurs graphiques. Heureusement pour eux qu’une nouvelle génération, Furian, vient d’être annoncée.

Le dernier souffle d’Itanium : la série 9700

Avant les Xeon, Intel s’était déjà aventuré dans le monde des serveurs avec ses processeurs Itanium, au début des années 2000. D’un point de vue technique, il s’agissait des premiers processeurs 64 bits de la marque, l’avantage principal était d’arriver à exploiter plus de mémoire vive. L’architecture était entièrement repensée par rapport au x86 et les Pentium de l’époque : les Itanium disposaient d’un jeu d’instructions plutôt réduit, avec des opérations atomiques (RISC), comme ARM actuellement, ce qui a l’avantage de simplifier la conception du processeur ; au contraire, x86 est composé d’une multitude d’instructions, chacune très spécifique et pouvant donc être plus rapide à l’exécution, au prix d’un processeur extrêmement complexe (cette complexité limitant les gains de temps). Une complexité qui semble limiter Intel dans ses possibilités d’améliorer ses processeurs

La vraie particularité d’Itanium était de prévoir le parallélisme au niveau des instructions : le compilateur peut déterminer, à l’avance, quelles instructions peuvent être exécutées en parallèles et les marque comme telles ; ainsi, le processeur n’a plus qu’à s’exécuter (au lieu d’utiliser des unités très compliquées de prédiction et d’analyse du code pour y arriver, comme dans les processeurs x86 actuels). Les derniers processeurs Itanium peuvent ainsi exécuter douze instructions en même temps sur un cœur donné.

La première génération d’Itanium n’a pas été un grand succès, les performances n’étaient pas au rendez-vous. Les programmes x86 devaient être exécutés en mode de compatibilité, avec des performances encore plus désastreuses (un Itanium 800 MHz était équivalent à un Pentium 100 MHz, alors que des Pentium à 1,1 GHz existaient en même temps). Au fil du temps, ce problème a été corrigé… mais les ventes n’ont jamais vraiment décollé. AMD a porté un grand coup à l’architecture en proposant ses premiers processeurs 64 bits, en se limitant à une évolution de x86 — pas une révolution comme Itanium.

Les derniers coups sont plus récents. En 2008, Microsoft arrête de développer systèmes d’exploitation et compilateurs pour Itanium. En 2011, Oracle fait de même pour ses bases de données. La gamme Xeon a pris le relais pour la plupart des clients. Cependant, certains irrésistibles restaient sur Itanium — et leurs contrats leur garantissaient un support à plus long terme. C’est ainsi qu’Intel, contraint et forcé légalement, a développé une dernière génération de processeurs Itanium, Kitson, la série 9700. Ils seront probablement intégrés dans les systèmes HP Integrity i6, fonctionnant avec le système d’exploitation HP-UX (vendus à partir de 14 500 $ pièce). HP continuera à offrir un support pour ces machines jusqu’en 2025. Cette série remplace Poulson, arrivée sur le marché en… 2012.

Cette gamme comprend quatre processeurs, avec des fréquences d’horloge dans la moyenne basse actuelle (1,73–2,66 GHz) et quatre à huit cœurs. Ils sont loin des derniers processeurs du fabricant : ils utilisent toujours un procédé de lithographie à 32 nm, qui date de 2010, avec au plus trois milliards de transistors (NVIDIA vient de sortir un processeur graphique avec vingt et un milliards). Les contrôleurs mémoire sont limités à la DDR3-1067, la génération précédente de mémoire vive, avec des fréquences en-deça des meilleures barrettes actuellement disponibles (en x86, des barrettes standard fonctionnent à 1,3 GHz au lieu de 1,067). Par rapport à la génération précédente, on compte presque exclusivement une légère augmentation de fréquence. Les besoins spécifiques de l’un ou l’autre client ont peut-être été comblés, mais Intel indique n’avoir ajouté aucune fonctionnalité.

Sources : Itanium, Intel’s Itanium Takes One Last Breath: Itanium 9700 Series CPUs Released, Intels letzte Itanium-Generation ist da.