EuroWire , SAN FRANCISCO : Microsoft introducerede den 26. januar Maia 200, anden generation af deres interne accelerator til kunstig intelligens, der er bygget til at køre AI-modeller i produktion på tværs af Azure-datacentre. Virksomheden sagde, at Maia 200 er designet til inferens, det stadie, hvor trænede modeller genererer svar på live-anmodninger, og vil blive brugt til at understøtte en række Microsoft AI-tjenester.

Maia 200 er fremstillet med TSMC's 3-nanometer-proces og indeholder mere end 140 milliarder transistorer, oplyser Microsoft . Chipparrene beregner med et nyt hukommelsessystem, der inkluderer 216 gigabyte HBM3e højbåndbreddehukommelse og omkring 272 megabyte indbygget SRAM, der har til formål at understøtte storskala tokengenerering og andre inferenstunge arbejdsbyrder.
Microsoft sagde, at Maia 200 leverer mere end 10 petaflops ydeevne ved 4-bit præcision og omkring 5 petaflops ved 8-bit præcision, formater der almindeligvis bruges til at køre moderne generativ AI effektivt. Virksomheden sagde også, at systemet er designet omkring en effekt på 750 watt og er bygget med skalerbart netværk, så chips kan forbindes til større implementeringer.
Virksomheden oplyste, at den nye hardware er begyndt at blive leveret online i et Azure US Central-datacenter i Iowa, med en yderligere placering planlagt i Arizona. Microsoft beskrev Maia 200 som sit mest effektive inferenssystem, der er implementeret til dato, og rapporterede en forbedring på 30 % i ydeevne pr. dollar sammenlignet med sine eksisterende inferenssystemer.
Fokus på AI-inferens og Azure-implementering
Microsoft sagde, at Maia 200 er beregnet til at understøtte AI-produkter og -tjenester, der er afhængige af modeludførelse i høj volumen og med lav latenstid, herunder arbejdsbelastninger, der kører i Azure og Microsofts egne applikationer. Virksomheden sagde, at den har designet chippen og det omgivende system som en del af en end-to-end-infrastrukturtilgang, der omfatter silicium, servere, netværk og software til implementering af AI-modeller i stor skala.
Sammen med chippen annoncerede Microsoft tidlig adgang til et Maia-softwareudviklingssæt til udviklere og forskere, der arbejder med modeloptimering. Virksomheden sagde, at værktøjet har til formål at hjælpe teams med at kompilere og finjustere modeller til Maia-baserede systemer og er struktureret til at passe ind i almindelige AI-udviklingsworkflows, der bruges til at implementere inferens i skyen.
Ydelseskrav og modelunderstøttelse
Microsoft sagde, at Maia 200 er bygget til at køre store sprogmodeller og avancerede ræsonnementssystemer, og at den vil blive brugt til interne og hostede modelimplementeringer i Azure. Virksomheden har positioneret chippen som en produktionsinferensaccelerator, hvilket adskiller den fra træningsfokuserede systemer, der typisk bruges til at bygge modeller før implementering.
Microsoft har accelereret arbejdet med brugerdefineret silicium, da efterspørgslen efter databehandling til generative AI-applikationer er steget, hvor omkostninger og tilgængelighed af acceleratorer kan påvirke, hvor hurtigt tjenester skaleres. Maia 200 følger Maia 100, som Microsoft introducerede i 2023, og repræsenterer virksomhedens seneste iteration af sin dedikerede AI-acceleratorlinje til datacenterinferens.
Opslaget Microsoft afslører Maia 200-accelerator bygget til AI-modelinferens blev først vist på Bedworth Echo .
