Découvrez L'Art De L'Édition
Google

Le nouveau hub ML TPU v4 de Google Cloud contient 9 exaflops d’IA

Le nouveau hub ML TPU v4 de Google Cloud contient 9 exaflops d'IA

Il y a presque exactement un an, Google lançait ses puces Tensor Processing Unit (TPU) v4 à Google I/O 2021, promettant des performances deux fois supérieures à celles du TPU v3. À l’époque, le PDG de Google, Sundar Pichai, avait déclaré que les centres de données de Google « comporteraient bientôt des dizaines de pods TPU v4, dont beaucoup fonctionneront à ou près de 90 % d’énergie sans carbone ». Maintenant, à Google I/O 2022, Pichai a révélé le fruit de ces travaux : un centre de données alimenté par TPU v4 dans le comté de Mayes, Oklahoma, qui, selon Google, est le plus grand centre d’apprentissage automatique accessible au public au monde.

« Ce hub d’apprentissage automatique dispose de huit pods Cloud TPU v4, construits sur mesure sur la même infrastructure réseau qui alimente les plus grands modèles neuronaux de Google », a déclaré Pichai. Les pods TPU v4 de Google se composent de 4 096 puces TPU v4, chacune offrant 275 téraflops de performances bfloat16 (« virgule flottante cérébrale ») ciblées ML. Au total, cela signifie que chaque pod TPU contient environ 1,13 exaflops bfloat16 de puissance d’IA – et que les pods du centre de données du comté de Mayes totalisent environ 9 exaflops. Google affirme que cela en fait le plus grand hub de ce type au monde « en termes de puissance de calcul cumulée », du moins parmi ceux accessibles au public générique.

« Sur la base de notre récente enquête auprès de 2 000 décideurs informatiques, nous avons constaté que des capacités d’infrastructure inadéquates sont souvent la cause sous-jacente de l’échec des projets d’IA », a commenté Matt Eastwood, vice-président senior pour la recherche chez IDC. « Pour répondre à l’importance croissante de l’infrastructure d’IA spécialement conçue pour les entreprises, Google a lancé son nouveau cluster d’apprentissage automatique dans l’Oklahoma avec neuf exaflops de calcul agrégé. Nous pensons qu’il s’agit du plus grand hub de ML accessible au public[.]”

Sundar Pichai à Google I/O. Image reproduite avec l’aimable autorisation de Google.

De plus, Google indique que ce hub fonctionne à 90 % d’énergie sans carbone sur une base horaire – un exploit qui peut être difficile, compte tenu de l’intermittence des sources d’énergie renouvelables. Pour en savoir plus sur la méthodologie de Google en matière d’énergie sans carbone, Cliquez ici – mais tous les gains d’efficacité ne sont pas attribuables aux efforts de Google en matière d’énergies renouvelables. La puce TPU v4 fournit environ trois fois plus de flops par watt par rapport au TPU v3, et l’ensemble du centre de données fonctionne à une efficacité d’utilisation de l’énergie (PUE) de 1,10, ce qui, selon Google, en fait l’un des centres de données écoénergétiques au monde. « Cela nous aide à progresser vers notre objectif de devenir la première grande entreprise à exploiter tous nos centres de données et campus dans le monde avec une énergie sans carbone 24h/24 et 7j/7 d’ici 2030 », a déclaré Pichai à Google I/O.

« Nous espérons que cela alimentera l’innovation dans de nombreux domaines, de la médecine à la logistique, en passant par la durabilité et plus encore », a-t-il déclaré à propos du centre de données. À cette fin, Google exploite son programme TPU Research Cloud (TRC) depuis plusieurs années, offrant un accès TPU aux « amateurs de ML du monde entier ».

« Ils ont publié des centaines d’articles et de bibliothèques github open source sur des sujets allant de » l’écriture de poésie persane avec l’IA « à » la distinction entre le sommeil et la fatigue induite par l’exercice à l’aide de la vision par ordinateur et de la génétique comportementale «  », a déclaré Jeff Dean, vice-président senior. de Google Research et de l’IA. « Le lancement de Cloud TPU v4 est une étape majeure pour Google Research et notre programme TRC, et nous sommes très heureux de notre collaboration à long terme avec les développeurs ML du monde entier pour utiliser l’IA pour de bon. »

Chez I/O, Pichai a suggéré qu’il ne s’agissait que d’un élément d’un engagement plus profond envers des centres de données efficaces et puissants, citant les 9,5 milliards de dollars d’investissements prévus de la société dans des centres de données et des bureaux à travers les États-Unis rien qu’en 2022.