NVIDIA se relance dans les cartes graphiques avec plusieurs processeurs

Pour l’avancée des processeurs en général, les fabricants de semi-conducteurs semblent converger vers une piste : plus de petites puces, mais fortement intégrées (AMD et Intel, par exemple) — même si l’option inverse, de bien plus grosses puces, pourrait aussi être bénéfique. NVIDIA avait déjà tenté, par le passer, d’intégrer plusieurs processeurs graphiques sur une même carte (comme les GeForce 9800 GX2), vues par l’ordinateur comme deux cartes graphiques distinctes. En cela, leur programmation est relativement ardue, afin d’exploiter leurs propriétés au maximum pour obtenir un gain de performance sérieux (ce qui impose notamment de limiter les communications entre les deux processeurs).

À cause des difficultés que ce schéma imposait, NVIDIA a abandonné cette piste… mais seulement temporairement, selon les résultats d’une équipe de chercheurs de NVIDIA Research. Leur dernier prototype intègre trente-six modules dans un même boîtier, avec un interconnecteur de haute performance. Chacun de ces modules implémente un cœur RISC-V, seize éléments de calcul (PE, processing element), de la mémoire tampon, ainsi que huit liens GRS (ground-referenced signalling) pour une bande passante de cent gigabits par seconde. Ce processeur est prévu pour des tâches de type inférence dans les réseaux neuronaux.

Cette puce n’est pas prévue pour une commercialisation à court terme, mais plutôt pour que NVIDIA se fasse la main avec des technologies qui pourraient se révéler importantes dans les prochaines cartes graphiques, comme des possibilités de mise à l’échelle et la communication entre puces. Ce prototype utilise un réseau en grille pour relier les trente-six modules. Ils communiquent par leurs ports GRS avec une très faible latence. Au niveau de la description des modules, NVIDIA a plongé dans le domaine du OOHLS (object-oriented high-level synthesis), qui propose d’apporter les mêmes avantages en termes d’organisation du code que la programmation orientée objet à la description de puces (en SystemC).

À voir quand des cartes graphiques utiliseront ces techniques pour monter en puissance de calcul.

Source : Nvidia’s 36-module research chip is paving the way to multi-GPU graphics cards.

Advertisements

Samsung annonce ses puces de mémoire HBM2E, nom de code “Flashbolt”

Les cartes graphiques ont un gros point noir au niveau de la performance, l’accès à la mémoire. Pour augmenter la bande passante (nombre de bits transférés par seconde) et diminuer la latence (nombre de microsecondes entre la demande d’une adresse en mémoire et la récupération des données), NVIDIA et AMD se sont tournés vers des puces de mémoire intégrée dans le même boîtier que le processeur, au plus près des circuits réalisant les calculs. Cela a donné la mémoire HBM.

Samsung est l’un des grands producteurs de mémoire HBM (l’autre étant SK Hynix). L’entreprise coréenne a récemment annoncé sa génération Flashbolt de mémoire HBM, qui respecte la norme HBM2E. Ces puces proposent une capacité de seize gigaoctets, en empilant huit puces de mémoire. On garde un bus de mille vingt-quatre broches, mais avec une bande passante de plus de trois gigabits par seconde (presque deux et demi pour la génération précédente), c’est-à-dire une bande passante totale (pour toute la puce HBM) de quatre cent dix gigaoctets seconde (augmentation d’une centaine de gigaoctets par seconde).

Samsung n’a dévoilé que peu d’informations au sujet de cette nouvelle puce. On n’a par exemple peu d’informations sur les procédés de fabrication ou les modifications apportées depuis l’année dernière. On ne sait même pas si la production de masse a commencé ou si Flashbolt n’en est qu’à ses dernières étapes de développement.

Source : Samsung HBM2E ‘Flashbolt’ Memory for GPUs: 16 GB Per Stack, 3.2 Gbps.

Une nouvelle source d’EUV pourrait apporter une nouvelle génération de photolithographie

La photolithographie à rayons ultraviolets extrêmes (EUV) est présentée depuis belle lurette comme la planche de salut dans l’industrie des semi-conducteurs : les techniques de fabrication actuelles montraient leurs limites pour dessiner des transistors encore plus petits sur les galettes de silicium, l’EUV est une petite révolution qui permet de graver des détails bien plus fins. Finalement, on voit l’EUV arriver sur le marché dès cette année, avec des sources de deux cents watts (bientôt beaucoup plus).

Actuellement, l’EUV est utilisé pour des processus en 7 nm. La fabrication souffre d’un nombre relativement élevé de défauts, en comparaison avec les processus précédents en début de leur carrière. En effet, les photons utilisés précédemment avaient une longueur d’onde de 193 nm : avec l’EUV, on passe à 13,5 nm — et l’énergie d’un photon est proportionnelle à l’inverse de sa longueur d’onde. Les masques utilisés (un dessin des transistors à créer : selon que le masque retient ou non un photon, la galette de silicium est creusée ou non) doivent donc résister à des photons bien plus énergétiques qu’auparavant. Ceux qui sont actuellement utilisés souffrent d’un problème assez particulier : de manière assez aléatoire, ils causent des défauts (des photons qui passent quand ils ne devraient pas ou l’inverse), des “erreurs d’impression stochastiques” (stochastic print failures).

Pour résoudre le problème, IMEC (une société belge) et KMLabs (américaine) ont formé une équipe pour créer un laboratoire d’imagerie EUV à très haute résolution. Le système qu’ils ont créé génère des EUV grâce à des impulsions infrarouges de très haute énergie envoyées dans un gaz : les EUV ainsi obtenues sont des trains d’impulsions de quelques attosecondes (un milliardième de milliardième de seconde) à quelques picosecondes (un millionième de millionième), avec des longueurs d’onde entre 6,5 et 47 nm.

Ce laser peut être utilisé pour l’interférométrie (procédé derrière certains microscopes optiques) sur des zones à l’échelle du micron : on peut repérer des détails de l’ordre de huit nanomètres. De même, il peut observer la dynamique moléculaire et l’ionisation, donc servir à comprendre le déroulement de processus chimiques. En pratique ? Bon nombre de laboratoires testent des masques photorésistants avec des sous-couches de divers matériaux, mais ils n’avaient aucun moyen d’en analyser le comportement lors de l’exposition.

Par contre, ce laser a une puissance extrêmement limitée : il ne pourrait pas servir à fabriquer des semi-conducteurs (ou alors très lentement). De nouveaux développements (assez conséquents) pourraient étendre la technologie, mais ils prendraient plusieurs décennies de développement.

Source : New EUV Source Can Aid Next-Gen Photolithography.

Les cartes graphiques Intel Xe seront à l’œuvre dans Aurora

Aurora est un futur superordinateur américain qui devrait arriver en production en 2021. Son coût est d’approximativement un demi-milliard de dollars américains. Il est prévu qu’il ouvre à la voie à des superordinateurs d’une puissance totale d’un exaflops (un milliard de milliards d’opérations en virgule flottante par seconde). Dès l’origine, cette machine, commandée auprès de Cray, devait intégrer du matériel Intel : il devait s’agir de coprocesseurs Intel Xeon Phi, mais ces produits ne sont plus développés.

Entre temps, Intel a annoncé son retour en grande pompe sur le marché des cartes graphiques haut de gamme (d’un point de vue des joueurs). Les processeurs correspondants sont prévus pour être utilisés tant comme processeurs graphiques intégrés à faible consommation que comme cartes hauts de gamme (peu importe la consommation tant qu’on a la puissance de calcul)… ou que comme coprocesseurs de calcul intensif.

C’est cette dernière déclinaison qui viendra dans Aurora, avec oneAPI pour en faciliter la programmation. On n’a, pour le moment, aucun détail sur les processeurs qui seront intégrés : il pourrait très bien s’agir de processeurs graphiques intégrés aux Xeon ou de cartes additionnelles ; incidemment, cela veut dire qu’on n’a aucune idée du nombre de ces processeurs graphiques. Par ailleurs, aucun chiffre de performance estimé n’est disponible (sauf pour la machine au complet). Tout ce qu’on en sait vient d’autres annonces d’Intel : processeurs fabriqués en 10 nm, disponibles dès 2020.

Source : Intel’s Xe Graphics Architecture to Power World’s First Exascale Supercomputer.

Western Digital double les têtes et espère doubler la performance

La capacité des disques durs ne cesse d’évoluer : un seul disque dur peut contenir plus de dix téraoctets de données. La technologie pour continuer à monter en densité est là et s’apprête à débarquer sur le marché. Cependant, leur performance a tendance à stagner, voire à se réduire selon les indicateurs : par téraoctet de stockage, on peut maintenant effectuer moins d’opérations de lecture et d’écriture par seconde. Ainsi, si on remplace cent disques durs d’un téraoctet par dix disques durs de dix téraoctets, on a la même capacité de stockage, mais une performance grandement amoindrie.

Western Digital se lance dans de nouvelles technologies pour contrer cette baisse de performance par unité de stockage. Un disque dur est constitué d’une série de plateaux, sur lesquels les données sont stockées. Chaque plateau est assigné à une tête de lecture et d’écriture : celle-ci se déplace à un endroit pour y lire ou écrire des données. Cependant, tous les disques tournent sur le même axe et toutes les têtes se déplacent de la même manière : en pratique, il est courant de ne pouvoir exploiter qu’une seule tête, alors qu’un disque dur contient souvent quatre plateaux.

Pour améliorer la performance, Western Digital propose donc de découpler les têtes, en utilisant plusieurs moteurs au lieu d’un seul (tout comme son grand concurrent Seagate). L’espoir est de monter à des débits de cinq cents mégaoctets par seconde et entre cent soixante et deux cents opérations par seconde.

Et pour la consommation ? Un disque dur avec deux moteurs est presque équivalent à deux disques durs — vingt-six pour cent de consommation économisés, tout de même. Ainsi, un disque dur normal consomme plus ou moins sept watts : si on prend deux disques durs de capacité moindre, on consomme à peu près quatorze watts ; avec cette nouvelle technologie, on serait plus à onze et demi. L’évolution n’est pas radicale de ce point de vue, mais on garde surtout des disques durs sous la limite des douze watts, ce pour quoi les baies actuelles sont prévues.

Western Digital n’envisage pas une commercialisation à court terme : la société se borne à une démonstration technologique la semaine prochaine, sans avancer de date pour le moment.

Source : Western Digital to Demo Dual-Actuator HDDs Next Week: Double the Actuators for Double the Perf.

Intel propose de nouveaux types de transistors : MESO

L’industrie du semi-conducteur est toujours à la recherche d’innovations fondamentales pour diminuer ses coûts de production, la consommation des puces produites ou encore pour augmenter leur fréquence. C’est notamment pour cela qu’on a régulièrement droit à de nouveaux processus de fabrication, qui permettent d’imprimer des transistors plus petits sur du silicium. Cependant, on arrive aux limites physiques : il n’est plus possible de faire baisser la tension d’entrée d’un transistor CMOS bien en-dessous d’un demi volt — vu qu’on s’approche fortement de cette tension, il ne sera plus possible de faire baisser la consommation d’un transistor en le rapetissant. Or, cette famille de transistors est utilisée depuis les années 1960 !

Les effets électromagnétiques sont pour le moment en vogue chez Intel : après la STT-MRAM, voici les transistors MESO (magneto-electric spin orbit). Ceux-ci ont des caractéristiques très intéressantes pour la suite de l’aventure des semi-conducteurs : grande baisse de tension d’entrée (d’un facteur cinq), d’énergie pour passer d’un état à l’autre (d’un facteur dix à trente pour atteindre quelques attojoules), augmentation de densité (aussi d’un facteur cinq), conservation de l’état sans alimentation électrique… mais ils pourraient n’arriver que dans une dizaine d’années (au plus tôt, selon certains commentateurs qui s’attendent plutôt à un délai de douze à quinze ans). Reste à savoir s’il faut en déduire les huit années de développement qu’Intel a déjà accumulées sur le projet.

Un transistor CMOS est contrôlé par sa tension d’entrée (en la faisant varier, le transistor laisse passer du courant ou pas — il passe d’une faible résistance électrique à une très haute) ; avec son équivalent MESO, il s’agirait plutôt d’un champ électromagnétique qui influencerait une capacité de condensateur. Une information binaire ne serait plus un courant électrique ou son absence, mais plutôt l’orientation du spin des électrons qui transitent. Les deux transistors peuvent être fabriqués sur du silicium (pas besoin d’un matériau miracle comme le graphène, dont on vante les progrès depuis longtemps sans les voir arriver en production) : on pourrait donc imaginer une même puce mêler une partie CMOS et une autre MESO.

Cependant, il semblerait que le principal intérêt de MESO soit le type de structure que l’on puisse créer : outre les portes logiques traditionnelles, MESO ouvre la voie vers les portes majoritaires. Elle indique si la majorité de ses entrées prend une valeur booléenne vraie (auquel cas la sortie de la porte est vraie). Créer ce genre d’opération est bien sûr possible avec des transistors CMOS, mais requiert l’assemblage d’un certain nombre de portes logiques — donc d’un très grand nombre de transistors. Or, c’est justement ce que les neurones biologiques effectuent comme opération : ils s’échangent plutôt des impulsions électriques (on parle de réseaux neuronaux d’impulsions quand il s’agit de les modéliser de manière informatique) que des valeurs continues (comme les réseaux neuronaux artificiels actuels). On pourrait donc voir ce genre de transistor utilisé pour des accélérateurs de réseaux neuronaux d’impulsions. La fonction d’activation ReLU (rectified linear unit), à la base de bien des évolutions dans les réseaux neuronaux artificiels depuis les années 1990, s’apparente aussi à ce genre de porte logique : sa sortie indique si l’activation du neurone dépasse un certain seuil.

Or, les calculs effectués dans un réseau neuronal artificiel sont assez basiques : des multiplications matricielles, surtout. On pourrait donc voir assez rapidement des accélérateurs pour ces opérations spécifiques à base de transistors MESO : une telle puce serait bien plus facile à réaliser qu’un processeur complet, puisqu’il ne serait pas nécessaire d’optimiser chaque opération selon les nouvelles possibilités de ces transistors.

Sources : Intel’s Fundamentally New MESO Architecture Could Arrive in a Few Years, Intel’s MESO transistor promises vast leap in AI processing power, With Spintronics, Intel Sees Efficiency, Density Scaling Far Beyond CMOS.

Intel libère Thunderbolt 3, le futur USB 4.0 qui montera à 40 Gb/s

Depuis 2007, Intel développe conjointement avec Apple l’interface Thunderbolt, prévue pour unifier les connexions sur ordinateur : on peut utiliser le même port pour brancher un écran ou un disque dur externe, par exemple. La troisième itération est parue en 2015 et propose des débits de quarante gigabits par seconde (soit cinq gigaoctets par seconde), que USB 3.2 Gen 2 n’arrive même pas à atteindre.

Le rapprochement entre Thunderbolt et USB semble écrit de longue date : depuis la version 3, Thunderbolt utilise un connecteur USB-C (réversible) ; un port Thunderbolt 3 peut aussi bien accepter des périphériques USB 3 ; en 2017, Intel a aussi annoncé ses plans de libérer les spécifications de Thunderbolt 3 (en incluant une utilisation sans redevances).

La norme USB 4.0 devrait arriver dans la seconde moitié de 2019 et se basera fortement sur les spécifications de Thunderbolt 3 (les débits maximaux seront identiques). Elle maintiendra la compatibilité avec les versions précédentes d’USB, mais aussi avec Thunderbolt 3 : on pourra donc brancher des écrans en USB 4, mais aussi chaîner une série de périphériques USB 4 les uns après les autres.

USB 4 est aussi l’occasion de simplifier la norme, en donnant une liste de fonctionnalités que tout périphérique “compatible USB 4” devra implémenter — une liste qui est toujours en cours de finalisation. Une chose est sûre, les connecteurs de type A (rectangulaires, non réversibles) ne feront plus partie de la norme : il n’y aura plus que le connecteur de type C, avec vingt-quatre connecteurs (au lieu de quatre dans les premières versions d’USB, puis neuf avec USB 3).

Malgré la confusion (volontaire ?) autour des dénominations utilisées avec USB 3.2, aucune décision n’a été (officiellement) prise en ce qui concerne USB 4 : les lignes directrices pour le marketing ne seront disponibles qu’après l’adoption de USB 4.0. Les premiers périphériques USB 4 étant attendus un an et demi après l’adoption de la norme, les choses ne seront claires qu’une fois la pression médiatique largement retombée.

Pour faciliter l’adoption de cette nouvelle norme, Intel a d’ores et déjà annoncé que sa prochaine génération de processeurs, Ice Lake, attendue également à la fin de cette année, gérera directement USB 4. Pour Thunderbolt 3, il fallait impérativement faire appel à un contrôleur externe au processeur (vendu par Intel) — ce qui a eu pour résultat qu’aucun ordinateur avec processeur AMD n’implémente Thunderbolt 3, même si cela n’est pas forcément dû à une compatibilité exclusive des contrôleurs avec les processeurs Intel.

Sources : Aus Thunderbolt 3 wird USB 4, With USB 4, Thunderbolt 3’s benefits become open to all.