AMD ja Intel julkaisivat ACE-laajennokset x86-käskykantaan

Kaotik

Banhammer
Ylläpidon jäsen
Liittynyt
14.10.2016
Viestejä
25 085
x86 Ecosystem Advisory Group eli käytännössä AMD ja Intel ovat julkaisseet uuden AI Compute Extensions- eli ACE-laajennoksen x86-käskykantaan.

Uusien laajennosten kerrotaan mahdollistavan jopa 16-kertaisen tekoälysuorituskyvyn verrattuna AVX-laajennoksiin (Advanced Vector eXtensions).

Tämän sisällön näkemiseksi tarvitsemme suostumuksesi kolmannen osapuolen evästeiden hyväksymiseen.
Lisätietoja löydät evästesivultamme.

Linkki: https://x.com/G_melo_ding/status/2049501105462411529


Whitepaper: https://x86ecosystem.org/wp-content/uploads/2026/03/ACE-Whitepaper-v1.pdf

Lähde: Cyan @ Beyond3D Forums
 
Tarkoittaako tämä että tulevaisuudessa voisin generoida niitä tissikuvia yhtä nopeasti jollain uudella Ryzenillä kuin sillä perinteisemmällä nvidian kiuaslämmittimellä? Ainakin ne muistihuolet saisi ratkaistua kohtuubudjeteilla....
 
Tarkoittaako tämä että tulevaisuudessa voisin generoida niitä tissikuvia yhtä nopeasti jollain uudella Ryzenillä kuin sillä perinteisemmällä nvidian kiuaslämmittimellä? Ainakin ne muistihuolet saisi ratkaistua kohtuubudjeteilla....

Se on siitä kiinni, onko 16x peruna edes yhtä hyvä kuin Nvidian peruskortti, kun rasitteena on ainakin paljon hitaammat muistit.

Sen lisäksi nahkatakkimiehellä on muitakin lukuja, kuin BF16 ja INT8 (+OCP).
 
Se on siitä kiinni, onko 16x peruna edes yhtä hyvä kuin Nvidian peruskortti, kun rasitteena on ainakin paljon hitaammat muistit.

Sen lisäksi nahkatakkimiehellä on muitakin lukuja, kuin BF16 ja INT8 (+OCP).
Ei tietenkään ole. Mutta jo nyt on pienissä määrin ajeltu inferenceä CPU niin siihen nähden 16* on aika hyvä. Yllättävänkin tai nykyinen yllättävän huono. Ja kuulemma agentti kuormat vaatii suhteellisesti enemmän CPU

Ihme kun ei ole socet ja DDR5/GDDR7/LPDDR5x 16 kanava (64 bit kansvken mukaan) AI härpätintä. Serverimusiti nopeudetkin on nousseet melko hurjiksi jo. Mutta laskematta nyt nlita kaitlja niin luulisi, että Gddr7 päästäisiin hyviin vauhteihin. Nv verassa toki on mini camm2 vai mikälie.

Tosin kaikissa AI kiihdyttimissä laskentatehon suhde muistikaistaan on
 
Viimeksi muokattu:
Olen miettinyt että mitkä näistä kuluttaja puolen ai jutuista oikeasti hyötyy 16x tehosta. Eikö ne usein ole asioita jotka ei ole aika riippuvaisia esim jos puhelin parantaa valokuvaa onko sillä väliä kestääkö se 100ms vai 1600ms. Ja tuokaan ei ole kovin realistinen arvio koska ei kai ne hirveesti käytä transistoreja pelkästään ai kiihdytykseen.
 
Olen miettinyt että mitkä näistä kuluttaja puolen ai jutuista oikeasti hyötyy 16x tehosta. Eikö ne usein ole asioita jotka ei ole aika riippuvaisia esim jos puhelin parantaa valokuvaa onko sillä väliä kestääkö se 100ms vai 1600ms. Ja tuokaan ei ole kovin realistinen arvio koska ei kai ne hirveesti käytä transistoreja pelkästään ai kiihdytykseen.
Nopeushan on juuri tärkein metriikka muistin määrän jälkeen. Voihan sitä katsoa kun Kiinalainen DeepSeek rullaa vastauksia tunnin tai pari, mutta siihen ei monella ole kärsivällisyyttä.
 
Tarkoittaako tämä että tulevaisuudessa voisin generoida niitä tissikuvia yhtä nopeasti jollain uudella Ryzenillä kuin sillä perinteisemmällä nvidian kiuaslämmittimellä? Ainakin ne muistihuolet saisi ratkaistua kohtuubudjeteilla....
Pystyt tekemään 16 tissin naisen 1 tissin sijaan samassa ajassa. Säästät aikaa ja rahaa
 
Onko näissä taas se hienous, että kun niitä käytetään, niin kellotaajuus tippuu puoleen, että prosessori ei ylikuumene?
 
Taas? Eihän tuo ole koskenut kuin tiettyjä Intelin prossuja tietyillä AVX-versioilla?
Ei vaan se farssi oli nimenomaan, että prossu (samalla stallasi prossun) siirtyi AVX kertoimille riippumatta lämmöstä tai tehonkulutuksesta. Siinä oli ongelma, että jos ajettavasta koodista vaikka 1 % Oli AVX-512, niin silti prossu laski kellotaajutta, ja saatoi pomppia normi ja AVX kellojen välillä tiheään joka ei ole hyvä servereissä.

Uudet joista intelille nolosti paras on ZEN 5. Se nimenomaan laskee kellot lämmöntuoton mukaan. Ja kovin lämmöntuotto on raskailla AVX-512 kuormilla. Zen 5 myös enimmilään -500 MHz. Mutta se ei haittaa kun koodi on nopeampaa. Eikä tuota Intelin alkuperäistä muiden kuormien hidastumista tapahdu. Tämä ACE mikä piin tasolla toimii AVX(10?) rinnalla Kertolaskuja pystytään laskemaan 16*enemmän kellojaksossa. Mutta todellisesta suorituskykylisästä on vaikea sanoa. Tuskin se ainakaan muistukaista rajoitteisia kuormia nopeuttaa. Silti tämä on hyvä juttu X86 kannalta. Ja olettavasti molemmat tulee tätä P-coreissa.
 
Viimeksi muokattu:
Ei vaan se farssi oli nimenomaan, että prossu (samalla stallasi prossun) siirtyi AVX kertoimille riippumatta lämmöstä tai tehonkulutuksesta. Siinä oli ongelma, että jos ajettavasta koodista vaikka 1 % Oli AVX-512, niin silti prossu laski kellotaajutta, ja saatoi pomppia normi ja AVX kellojen välillä tiheään joka ei ole hyvä servereissä.7
Niin, siis tietyillä Intelin prosessoreilla ja AVX-versioilla. Esimerkiksi AMD:n prosessoreilla vastaavaa ei esiintynyt (pientä kellotaajuuksien laskua kyllä, mutta ei mitään sellaista mitä Intelillä oli tietyillä malleilla)
 
Tässä on siis kyse matriisikertolaskukäsky(i)stä, jo(t)ka toimii pääosin outer product-periaatteella. Tosin siellä on myös hiukan pistotuloa mukana.

Perusidea on, että otetaan 512-bittiä leveä 32-bittiset elementit sisältävä 16-kokoinen AVX-512-(pysty)vektori vasemmalta, ja 32-bittiset elementit sisältävä 16-kokoinen AVX512-(vaaka)vektori oikealta ja kerrotaan vasemman puolen alkiot kaikilla oikean puolen alkioilla, muodostaen 16x16-kokoisen tulosmatriisin(256 tulosta). ELi tulosmatriisin koko on 32 bittiä * 256 elementtiä = 8192 bittiä = 1 kiB.
Lisäksi tähän tulokseen voidaan summata toinen tulosmatriisin kokoinen matriisi.

Tätä "perusidean mukaista yksinkertaisinta" 32-bittisten inputtien käskyä ei kuitenkaan ole speksattu, sen sijaan tämän pohjalta on tehty pari muuta variaatiota:

1) Jokainen 32-bittinen alkio käsitellään kahtena 16-bittisenä alialkiona, ja näiden välillä tehdään 2-kokoinen pistetulo, eli kokonaisuudessaan tehdään [16 x 2] x [2x16] - matriisikertolasku (512 kertolaskua)
2) Jokainen 32-bittinen alkio käsitellään neljänä 8-bittisenä alialkiona, ja näiden välillä tehdään 4-kokoinen pistetulo, eli kokonaisuudessaan tehdään [16 x 4] x [4 x 16] -matriisikertolasku (1024 kertolaskua)

Tulokset pysyy aina 32-bittisinä.


En ole vielä onnistunut löytämään tästä mitään oleellista eroa Intelin AMX:ään - onko tämä vaan saman käskykannan uudelleenbrändäys kun AMD tulee mukaan tukemaan tätä?
 
En ole vielä onnistunut löytämään tästä mitään oleellista eroa Intelin AMX:ään - onko tämä vaan saman käskykannan uudelleenbrändäys kun AMD tulee mukaan tukemaan tätä?

16x nopeuden?

Itse paperissakin luki:
ACE is revealed to software as a new palette under the AMXaccelerator framework, allowing reuse of much of the systemprogrammer model and operating system support for AMX.
 

Ei tässä ole mitään 16x nopeutusta AMXään nähden, vaan 16x nopeutus siinä, paljonko flopseja yhdellä käskyllä saavutetaan verrattuna AVX-512een.

Käytännössä tuo 16x on kuitenkin myös täysin teoreettinen, Zen5ssa on kaksi AVX-512-FMA-yksikköä, jolloin yhdellä täysinnopealla tällaisella yksiköllä saavutetaan zen5n AVX-512een verrattuna 8x nopeutus teoreettisissa flopseissa, ja kukaan ei tule vuosikymmeneen toteuttamaan prossua jossa on kaksi tällaista yksikköä. Käytännössä ensimmäiset implementaatiot saattaa olla vajaanopeudella, että laskentayksiköitä on vähemmän ja data pilkotaan suorituksessa pienempiin paloihin ja suoritetaan pienempi pala kerrallaan, jolloin teoreettinen nopeusero AVX-512sta käyttävään zen5een nähden jää joko 4x:ään tai 2x:ään, tosin lisärekisterit voi vähän auttaa siinä, että muistikaista L1D-välimuistiin ei tule niin helpolla pullonkaulaksi ja tosimaailman koodilla päästään lähemmäsi teoreettisia flopseja.
 
En ole vielä onnistunut löytämään tästä mitään oleellista eroa Intelin AMX:ään - onko tämä vaan saman käskykannan uudelleenbrändäys kun AMD tulee mukaan tukemaan tätä?
Noista materiaaleista selvii. Että erillinen käskykanta. Mutta kuten kirjoitit niin hyödyntää AVX(10) resursseja, ja siksi tuskin tulee orosessoria, joka tukee vain tätä, mutta ei AVX(10). Joten tämä olisi voitu nimetä AVX-VNNI tavoin, mutta minustakin on järkevämpää määritellä omaksi käskykannaksi. Markkinointi osaston mielestä varmasti myös.
Intelillä tämä 16-kertaistaa tiettujen kertolaskujen määrän kellojaksossa. Eli jos ajetaan juuri tiettyä ACE-koodia vaikka testimkelessä, niin nopeus on oletettavasti 16* vs AVX-512. Se miten tuo näkyy suorituskyvyssä tosimaailmassa niin todennäköisesti huomattavastikin silloin kun prosessori on pullonkaulana tekoälykuormissa.
 
Intelillä tämä 16-kertaistaa tiettujen kertolaskujen määrän kellojaksossa. Eli jos ajetaan juuri tiettyä ACE-koodia vaikka testimkelessä, niin nopeus on oletettavasti 16* vs AVX-512. Se miten tuo näkyy suorituskyvyssä tosimaailmassa niin todennäköisesti huomattavastikin silloin kun prosessori on pullonkaulana tekoälykuormissa.
Paljos on speedup vs. AMX?
 

Statistiikka

Viestiketjuista
306 633
Viestejä
5 192 065
Jäsenet
82 917
Uusin jäsen
Nahkapora

Hinta.fi

Back
Ylös Bottom