FUJITSU annonce le développement d’un processeur pour l’apprentissage profond

FUJITSU continue ses développements pour les prochaines générations de superordinateurs. Après le remplacement de l’architecture SPARC64 par ARM, voici l’annonce de processeurs spécifiques pour l’apprentissage profond, des DLU (deep learning unit). L’objectif est de fournir des puces dix fois plus efficaces en termes de puissance de calcul par watt consommé que la concurrence. Ces processeurs sont en développements depuis 2015, mais la première annonce n’a eu lieu qu’à la conférence ISC 2017, centrée autour du calcul de haute performance.

Comme les autres fabricants, FUJITSU mise sur des calculs avec une faible précision pour augmenter la performance et diminuer la consommation d’énergie : en effet, pas besoin d’une très grande précision pour ces réseaux neuronaux (une trop grande précision favoriserait le surapprentissage : le réseau est capable de reproduire les données d’entrée, mais pas d’extrapoler sur de nouvelles données). Ainsi, les DLU ne pourraient gérer que quatre types de données : des nombres à virgule flottante sur trente-deux (précision simple) ou seize bits (demi-précision), ainsi que des entiers de même taille.

Vus de haut, ces processeurs sont constitués d’une série d’unités de calcul spécifiques, des DPU (deep learning processing unit), connectés par des liens à haute performance. Un cœur de calcul distinct gère l’exécution sur les DPU et négocie les accès en mémoire.

Chacun de ces DPU est constitué de seize DPE (deep learning processing element), qui effectuent les calculs. Plus en détail, chaque DPE comporte huit unités de calcul SIMD, avec une banque de registres assez grande : cette dernière n’est pas contrôlée par le matériel comme un cache classique, mais uniquement par du logiciel.

La mémoire est assurée par des puces HBM2, tandis qu’il est possible de rassembler une série de DPU (les processeurs) par une interface Tofu : FUJITSU envisage de créer des systèmes de très grande taille, modulable à l’infini.

Les premiers DLU devraient être disponibles en 2018 en tant que coprocesseurs de calcul : les machines devront disposer d’un autre processeur pour lancer l’apprentissage du réseau neuronal. Cependant, tout comme Intel avec ses Xeon Phi, la deuxième génération de DPU devrait être capable de s’affranchir de ce processeur principal. On ne peut que remarquer des similitudes avec l’approche d’Intel et ses Lake Crest, à venir également l’année prochaine. NVIDIA aurait-il du souci à se faire pour ses processeurs graphiques optimisés pour l’apprentissage profond ?

Source et images : Fujitsu Will Pursue AI with Custom-Built Processor.

Advertisements

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s