AMD ja Intel julkaisivat ACE-laajennokset x86-käskykantaan

Kaotik

Banhammer
Ylläpidon jäsen
Liittynyt
14.10.2016
Viestejä
25 082
x86 Ecosystem Advisory Group eli käytännössä AMD ja Intel ovat julkaisseet uuden AI Compute Extensions- eli ACE-laajennoksen x86-käskykantaan.

Uusien laajennosten kerrotaan mahdollistavan jopa 16-kertaisen tekoälysuorituskyvyn verrattuna AVX-laajennoksiin (Advanced Vector eXtensions).

Tämän sisällön näkemiseksi tarvitsemme suostumuksesi kolmannen osapuolen evästeiden hyväksymiseen.
Lisätietoja löydät evästesivultamme.

Linkki: https://x.com/G_melo_ding/status/2049501105462411529


Whitepaper: https://x86ecosystem.org/wp-content/uploads/2026/03/ACE-Whitepaper-v1.pdf

Lähde: Cyan @ Beyond3D Forums
 
Tarkoittaako tämä että tulevaisuudessa voisin generoida niitä tissikuvia yhtä nopeasti jollain uudella Ryzenillä kuin sillä perinteisemmällä nvidian kiuaslämmittimellä? Ainakin ne muistihuolet saisi ratkaistua kohtuubudjeteilla....
 
Tarkoittaako tämä että tulevaisuudessa voisin generoida niitä tissikuvia yhtä nopeasti jollain uudella Ryzenillä kuin sillä perinteisemmällä nvidian kiuaslämmittimellä? Ainakin ne muistihuolet saisi ratkaistua kohtuubudjeteilla....

Se on siitä kiinni, onko 16x peruna edes yhtä hyvä kuin Nvidian peruskortti, kun rasitteena on ainakin paljon hitaammat muistit.

Sen lisäksi nahkatakkimiehellä on muitakin lukuja, kuin BF16 ja INT8 (+OCP).
 
Se on siitä kiinni, onko 16x peruna edes yhtä hyvä kuin Nvidian peruskortti, kun rasitteena on ainakin paljon hitaammat muistit.

Sen lisäksi nahkatakkimiehellä on muitakin lukuja, kuin BF16 ja INT8 (+OCP).
Ei tietenkään ole. Mutta jo nyt on pienissä määrin ajeltu inferenceä CPU niin siihen nähden 16* on aika hyvä. Yllättävänkin tai nykyinen yllättävän huono. Ja kuulemma agentti kuormat vaatii suhteellisesti enemmän CPU

Ihme kun ei ole socet ja DDR5/GDDR7/LPDDR5x 16 kanava (64 bit kansvken mukaan) AI härpätintä. Serverimusiti nopeudetkin on nousseet melko hurjiksi jo. Mutta laskematta nyt nlita kaitlja niin luulisi, että Gddr7 päästäisiin hyviin vauhteihin. Nv verassa toki on mini camm2 vai mikälie.

Tosin kaikissa AI kiihdyttimissä laskentatehon suhde muistikaistaan on
 
Viimeksi muokattu:
Olen miettinyt että mitkä näistä kuluttaja puolen ai jutuista oikeasti hyötyy 16x tehosta. Eikö ne usein ole asioita jotka ei ole aika riippuvaisia esim jos puhelin parantaa valokuvaa onko sillä väliä kestääkö se 100ms vai 1600ms. Ja tuokaan ei ole kovin realistinen arvio koska ei kai ne hirveesti käytä transistoreja pelkästään ai kiihdytykseen.
 
Olen miettinyt että mitkä näistä kuluttaja puolen ai jutuista oikeasti hyötyy 16x tehosta. Eikö ne usein ole asioita jotka ei ole aika riippuvaisia esim jos puhelin parantaa valokuvaa onko sillä väliä kestääkö se 100ms vai 1600ms. Ja tuokaan ei ole kovin realistinen arvio koska ei kai ne hirveesti käytä transistoreja pelkästään ai kiihdytykseen.
Nopeushan on juuri tärkein metriikka muistin määrän jälkeen. Voihan sitä katsoa kun Kiinalainen DeepSeek rullaa vastauksia tunnin tai pari, mutta siihen ei monella ole kärsivällisyyttä.
 
Tarkoittaako tämä että tulevaisuudessa voisin generoida niitä tissikuvia yhtä nopeasti jollain uudella Ryzenillä kuin sillä perinteisemmällä nvidian kiuaslämmittimellä? Ainakin ne muistihuolet saisi ratkaistua kohtuubudjeteilla....
Pystyt tekemään 16 tissin naisen 1 tissin sijaan samassa ajassa. Säästät aikaa ja rahaa
 
Onko näissä taas se hienous, että kun niitä käytetään, niin kellotaajuus tippuu puoleen, että prosessori ei ylikuumene?
 
Taas? Eihän tuo ole koskenut kuin tiettyjä Intelin prossuja tietyillä AVX-versioilla?
Ei vaan se farssi oli nimenomaan, että prossu (samalla stallasi prossun) siirtyi AVX kertoimille riippumatta lämmöstä tai tehonkulutuksesta. Siinä oli ongelma, että jos ajettavasta koodista vaikka 1 % Oli AVX-512, niin silti prossu laski kellotaajutta, ja saatoi pomppia normi ja AVX kellojen välillä tiheään joka ei ole hyvä servereissä.

Uudet joista intelille nolosti paras on ZEN 5. Se nimenomaan laskee kellot lämmöntuoton mukaan. Ja kovin lämmöntuotto on raskailla AVX-512 kuormilla. Zen 5 myös enimmilään -500 MHz. Mutta se ei haittaa kun koodi on nopeampaa. Eikä tuota Intelin alkuperäistä muiden kuormien hidastumista tapahdu. Tämä ACE mikä piin tasolla toimii AVX(10?) rinnalla Kertolaskuja pystytään laskemaan 16*enemmän kellojaksossa. Mutta todellisesta suorituskykylisästä on vaikea sanoa. Tuskin se ainakaan muistukaista rajoitteisia kuormia nopeuttaa. Silti tämä on hyvä juttu X86 kannalta. Ja olettavasti molemmat tulee tätä P-coreissa.
 
Viimeksi muokattu:
Ei vaan se farssi oli nimenomaan, että prossu (samalla stallasi prossun) siirtyi AVX kertoimille riippumatta lämmöstä tai tehonkulutuksesta. Siinä oli ongelma, että jos ajettavasta koodista vaikka 1 % Oli AVX-512, niin silti prossu laski kellotaajutta, ja saatoi pomppia normi ja AVX kellojen välillä tiheään joka ei ole hyvä servereissä.7
Niin, siis tietyillä Intelin prosessoreilla ja AVX-versioilla. Esimerkiksi AMD:n prosessoreilla vastaavaa ei esiintynyt (pientä kellotaajuuksien laskua kyllä, mutta ei mitään sellaista mitä Intelillä oli tietyillä malleilla)
 
Tässä on siis kyse matriisikertolaskukäsky(i)stä, jo(t)ka toimii pääosin outer product-periaatteella. Tosin siellä on myös hiukan pistotuloa mukana.

Perusidea on, että otetaan 512-bittiä leveä 32-bittiset elementit sisältävä 16-kokoinen AVX-512-(pysty)vektori vasemmalta, ja 32-bittiset elementit sisältävä 16-kokoinen AVX512-(vaaka)vektori oikealta ja kerrotaan vasemman puolen alkiot kaikilla oikean puolen alkioilla, muodostaen 16x16-kokoisen tulosmatriisin(256 tulosta). ELi tulosmatriisin koko on 32 bittiä * 256 elementtiä = 8192 bittiä = 1 kiB.
Lisäksi tähän tulokseen voidaan summata toinen tulosmatriisin kokoinen matriisi.

Tätä "perusidean mukaista yksinkertaisinta" 32-bittisten inputtien käskyä ei kuitenkaan ole speksattu, sen sijaan tämän pohjalta on tehty pari muuta variaatiota:

1) Jokainen 32-bittinen alkio käsitellään kahtena 16-bittisenä alialkiona, ja näiden välillä tehdään 2-kokoinen pistetulo, eli kokonaisuudessaan tehdään [16 x 2] x [2x16] - matriisikertolasku (512 kertolaskua)
2) Jokainen 32-bittinen alkio käsitellään neljänä 8-bittisenä alialkiona, ja näiden välillä tehdään 4-kokoinen pistetulo, eli kokonaisuudessaan tehdään [16 x 4] x [4 x 16] -matriisikertolasku (1024 kertolaskua)

Tulokset pysyy aina 32-bittisinä.


En ole vielä onnistunut löytämään tästä mitään oleellista eroa Intelin AMX:ään - onko tämä vaan saman käskykannan uudelleenbrändäys kun AMD tulee mukaan tukemaan tätä?
 
En ole vielä onnistunut löytämään tästä mitään oleellista eroa Intelin AMX:ään - onko tämä vaan saman käskykannan uudelleenbrändäys kun AMD tulee mukaan tukemaan tätä?

16x nopeuden?

Itse paperissakin luki:
ACE is revealed to software as a new palette under the AMXaccelerator framework, allowing reuse of much of the systemprogrammer model and operating system support for AMX.
 

Statistiikka

Viestiketjuista
306 539
Viestejä
5 188 955
Jäsenet
82 910
Uusin jäsen
Kale222

Hinta.fi

Back
Ylös Bottom