AMD-jeva serija GPU Instinct postaja vse bolj priljubljena v računalniški skupnosti in skupnosti umetne inteligence. Evo zakaj.
Nobenega dvoma ni, da NVIDIA še naprej prevladuje v vzporednem računalniškem prostoru s svojimi različnimi priljubljenimi serijami grafičnih procesorjev. Toda z AMD-jevimi pospeševalniki AI Instinct, ki opremljata dva najnovejša in največja superračunalnika (Frontier in El Capitan) in vse večjo podporo skupnosti za njihovo odprtokodno platformo ROCm, je NVIDIA morda našla največjega tekmeca doslej.
Torej, kaj točno so AMD-jevi pospeševalniki Instinct AI? Kaj jih dela močne in kako se primerjajo z grafičnimi procesorji NVIDIA Tensor?
Kaj je procesor AMD Instinct?
Procesorji AMD Instinct so strojna oprema poslovnega razreda, ki se uporablja za visokozmogljivo računalništvo (HPC) in obdelavo, pospešeno z umetno inteligenco. Za razliko od navadnih grafičnih procesorjev potrošniškega razreda so grafični procesorji Instinct specializirani za boljše obvladovanje učenja umetne inteligence in drugih visoko zmogljivih nalog z inovacijami programske in strojne opreme.
AMD-jeva serija grafičnih procesorjev Instinct je bila uporabljena za napajanje prvega superračunalnika, ki je prebil oviro Exascale in deloval pri 1,1 EFLOP-a pri operacijah dvojne natančnosti na sekundo. Superračunalniki, ki uporabljajo grafične procesorje Instinct, se trenutno uporabljajo za raziskovanje zdravljenja raka, trajnostne energije in podnebnih sprememb.
Kako procesorji Instinct pospešujejo AI in HPC
Za najmočnejši mainstream strežniki in superračunalniki na svetu da bi dosegli procesiranje na ravni Exascale, so morali biti pospeševalniki AMD Instinct opremljeni z več tehnološkimi nadgradnjami in inovacijami.
Pogovorimo se o nekaterih novih in posodobljenih tehnologijah, ki se uporabljajo na grafičnih procesorjih AMD Instinct.
1. Izračunaj DNK (CDNA)
Nedavni pospeševalnik AMD Instinct (začenši z MI100) je uporabil arhitekturo podjetja CDNA.
CDNA se primarno osredotoča na funkcije, kot so vzporedna obdelava, hierarhija pomnilnika in optimizirane računalniške zmogljivosti prek njihove tehnologije Matrix Core. Celo HPC in AI ali strojno učenje, ki deluje na posameznih strežnikih, lahko podpirajo CDNA, pa tudi ogromni računalniki Exascale.
AMD-jeva tehnologija Matrix Core pospešuje učenje umetne inteligence s podporo operacijam mešane natančnosti. Sposobnost računanja z različno natančnostjo omogoča grafičnim procesorjem Instinct, da učinkovito izračunajo matrične operacije na podlagi potrebne stopnje natančnosti.
Najbolj priljubljeni formati natančnosti računanja vključujejo FP64, FP32, FP16, BF16 in INT8. FP je kratica za plavajočo vejico, BF za možgansko plavajočo vejico in INT za celo število. Višje kot je število, ki ustreza formatu, natančnejši je izračun. 64-bitno delovanje je znano kot dvojna natančnost. Pri 32-bitnem je enojna natančnost, pri 16-bitnem je polovična natančnost in tako naprej.
Ker velik del usposabljanja modelov globokega učenja ne zahteva veliko natančnosti, je zmožnost izračunavanja matrike operacije s polovično natančnostjo ali celo četrtino natančnostjo za sklepanje znatno zmanjšajo delovno obremenitev in tako pospešijo AI učenje.
2. Pomnilnik visoke pasovne širine (HBM)
Vsak pospeševalnik AMD Instinct AI ima do 880 matričnih jeder. Z AMD-jevimi procesorji Matrix Core, ki lahko izvedejo 383 TFLOP-ov polovično natančnih izračunov, je izjemno hiter pomnilnik nujen. Najnovejša ponudba AMD Instinct je opremljena s pomnilnikom visoke pasovne širine (HBM) namesto običajnega RAM-a DDR4 ali DDR5.
Za razliko od običajnega pomnilnika HBM uporablja tisto, kar je znano kot 3D skladna arhitektura. Ta vrsta arhitekture se nanaša na oblikovalski pristop, kjer so matrice DRAM navpično zložene ena na drugo. To omogoča zlaganje matric na navpični in vodoravni osi, od tod tudi izraz 3D zlaganje.
S to tehnologijo 3D zlaganja imajo lahko HBM zmogljivosti fizičnega pomnilnika do nekaj sto gigabajtov na modul, medtem ko lahko DRR5 doseže le do deset gigabajtov na modul. Poleg zmogljivosti je znano, da imajo HBM tudi višjo zmogljivost v smislu hitrosti prenosa in boljšo energetsko učinkovitost kot običajni pomnilnik DDR.
3. Tkanina Infinity
Druga novost, vključena v grafične procesorje Instinct, je AMD-jeva tehnologija Infinity Fabric. Infinity Fabric je vrsta medsebojnega povezovalnega sistema, ki povezuje CPE in GPU na pameten dinamičen način. To omogoča komponentam učinkovito medsebojno komuniciranje.
Z Infinity Fabric so komponente zdaj namesto povezovanja komponent z navadnim vodilom povezane v mrežasto omrežje, kjer lahko pasovne širine znašajo do nekaj sto gigabajtov na sekundo.
Poleg mrežnega medsebojnega povezovanja Infinity Fabric uporablja tudi senzorje, vgrajene v vsako matrico, za dinamično nadzor frekvence, hitrosti prenosa podatkov in druga prilagodljiva vedenja, optimiziranje delovanja in minimiziranje zakasnitev.
4. Razvojna platforma ROCm
CUDA (compute unified device architecture) družbe NVIDIA je najpogosteje uporabljena razvojna platforma za usposabljanje modelov AI. Težava s CUDA je, da deluje samo z grafičnimi procesorji NVIDIA. To je eden od glavnih razlogov, zakaj ima NVIDIA veliko večino tržnih deležev za HPC in AI GPU pospeševalnike.
Ker je AMD želel pridobiti večji kos trga HPC in AI, so morali razviti lastno platformo ROCm (Radeon Open Compute). ROCm je odprtokodna programska platforma, ki omogoča uporabo grafičnih procesorjev Instinct kot pospeševalnikov umetne inteligence.
Čeprav ni nujno del strojne opreme Instinct, je ROCm temeljnega pomena, ko gre za preživetje linije grafičnih procesorjev Instinct. Z ROCm, razvijalci in raziskovalci dobijo orodja ROCm, prevajalnik, gonilnike jedra, celo vrsto knjižnic in dostop do ogrodij, kot sta TensorFlow in PyTorch, za razvoj s svojimi prednostno Programski jezik AI.
Kakšni so pospeševalniki AI Instinct v primerjavi s pospeševalniki AI Radeon GPU?
AMD ponuja svojo linijo grafičnih procesorjev Instinct za podjetja in grafične procesorje Radeon za redne uporabnike. Kot smo že omenili, Instinct GPU uporablja AMD-jevo arhitekturo CDNA, HBM in medsebojno povezavo Infinity Fabric. Nasprotno pa Radeon uporablja AMD-jevo arhitekturo RDNA, pomnilnik DDR6 in Infinity Cache.
Čeprav je serija pospeševalnikov umetne inteligence Radeon manj zmogljiva, je še vedno močna, saj izvaja eno ali dve jedri pospeševalnika umetne inteligence na računalniško enoto. Zadnji Radeon RX7900 XT GPU ima dve pospeševalni jedri AI na računalniško enoto, kar omogoča 103 TFLOP-ov najvišje polovične natančnosti in 52 TFLOP-ov najvišjih izračunov z enojno natančnostjo.
Medtem ko je serija grafičnih procesorjev Instinct bolj primerna za LLM in HPC, lahko pospeševalnike Radeon AI uporabite za natančno nastavitev vnaprej usposobljenih modelov, sklepanje in grafično intenzivna opravila.
AMD Instinct vs. Tenzor NVIDIA
Po mnenju a Anketa TrendForce, NVIDA ima 80-odstotni tržni delež za strežniške grafične procesorje, medtem ko ima AMD le 20-odstotnega. Ta izjemen uspeh NVIDIA je posledica tega, da so podjetje, ki je specializirano za načrtovanje in sestavljanje GPE. To jim omogoča oblikovanje bistveno bolje zmogljivih grafičnih procesorjev, ki jim ni para v drugih ponudbah.
Primerjajmo AMD-jev Instinct MI205X in NVIDIA-in H100SXM5 z uporabo specifikacij iz Uradna spletna stran AMD in Lastni podatkovni list NVIDIA:
Model GPE |
FP64 (TFLOP) |
FP32 (TFLOP) |
FP16 (TFLOP) |
INT8 (TFLOPs) |
---|---|---|---|---|
AMD Instinct MI250X |
30.0 |
60.0 |
1000 |
2000 |
NVIDIA H100SXMS |
47.9 |
95.7 |
383.2 |
383 |
Kot lahko vidite v tabeli, je AMD-jev MI250X boljši v smislu dvojne natančnosti in polovične natančnosti izračunov, medtem ko je NVIDIA H100SXMS veliko boljši v smislu polovične in četrt natančne matrike izračuni. Zaradi tega je AMD-jev MI250X bolj primeren za HPC, medtem ko je NVIDIA-jev H100SXMS z učenjem in sklepanjem z umetno inteligenco.
Prihodnost AMD-jevih procesorjev Instinct
Čeprav je AMD-jeva najnovejša ponudba, MI250X, zasnovana za HPC, je njihov prihajajoči MI300 bolj usmerjen v usposabljanje z umetno inteligenco. Ta pospeševalnik AI je napovedan kot APU, ki združuje GPE in CPE v enem paketu. To omogoča MI300, da uporablja njihovo arhitekturo CNDA3 Unified Memory APU, kjer bosta GPE in CPE uporabljala samo en pomnilnik, kar poveča učinkovitost in zniža ceno.
Čeprav AMD danes ne bo tekmoval z NVIDIO na trgu pospeševalnikov umetne inteligence, ko bo MI300 izdan in ROCm postane uglajena, AMD-jeva serija Instinct je morda ravno dovolj dobra, da odvzame znaten del trga pospeševalnikov umetne inteligence. NVIDIA.