AMD ja Intel julkaisivat ACE-laajennokset x86-käskykantaan

Kaotik · perjantaina klo 21:32

x86 Ecosystem Advisory Group eli käytännössä AMD ja Intel ovat julkaisseet uuden AI Compute Extensions- eli ACE-laajennoksen x86-käskykantaan.

Uusien laajennosten kerrotaan mahdollistavan jopa 16-kertaisen tekoälysuorituskyvyn verrattuna AVX-laajennoksiin (Advanced Vector eXtensions).

Linkki: https://x.com/G_melo_ding/status/2049501105462411529

Whitepaper: https://x86ecosystem.org/wp-content/uploads/2026/03/ACE-Whitepaper-v1.pdf

Lähde: Cyan @ Beyond3D Forums

m000 · perjantaina klo 21:41

Tarkoittaako tämä että tulevaisuudessa voisin generoida niitä tissikuvia yhtä nopeasti jollain uudella Ryzenillä kuin sillä perinteisemmällä nvidian kiuaslämmittimellä? Ainakin ne muistihuolet saisi ratkaistua kohtuubudjeteilla....

hsalonen · perjantaina klo 22:01

m000 sanoi:
Tarkoittaako tämä että tulevaisuudessa voisin generoida niitä tissikuvia yhtä nopeasti jollain uudella Ryzenillä kuin sillä perinteisemmällä nvidian kiuaslämmittimellä? Ainakin ne muistihuolet saisi ratkaistua kohtuubudjeteilla....

Se on siitä kiinni, onko 16x peruna edes yhtä hyvä kuin Nvidian peruskortti, kun rasitteena on ainakin paljon hitaammat muistit.

Sen lisäksi nahkatakkimiehellä on muitakin lukuja, kuin BF16 ja INT8 (+OCP).

Owern · lauantaina klo 05:33

hsalonen sanoi:
Se on siitä kiinni, onko 16x peruna edes yhtä hyvä kuin Nvidian peruskortti, kun rasitteena on ainakin paljon hitaammat muistit.

Sen lisäksi nahkatakkimiehellä on muitakin lukuja, kuin BF16 ja INT8 (+OCP).

Ei tietenkään ole. Mutta jo nyt on pienissä määrin ajeltu inferenceä CPU niin siihen nähden 16* on aika hyvä. Yllättävänkin tai nykyinen yllättävän huono. Ja kuulemma agentti kuormat vaatii suhteellisesti enemmän CPU

Ihme kun ei ole socet ja DDR5/GDDR7/LPDDR5x 16 kanava (64 bit kansvken mukaan) AI härpätintä. Serverimusiti nopeudetkin on nousseet melko hurjiksi jo. Mutta laskematta nyt nlita kaitlja niin luulisi, että Gddr7 päästäisiin hyviin vauhteihin. Nv verassa toki on mini camm2 vai mikälie.

Tosin kaikissa AI kiihdyttimissä laskentatehon suhde muistikaistaan on

Moilaps · lauantaina klo 07:13

Olen miettinyt että mitkä näistä kuluttaja puolen ai jutuista oikeasti hyötyy 16x tehosta. Eikö ne usein ole asioita jotka ei ole aika riippuvaisia esim jos puhelin parantaa valokuvaa onko sillä väliä kestääkö se 100ms vai 1600ms. Ja tuokaan ei ole kovin realistinen arvio koska ei kai ne hirveesti käytä transistoreja pelkästään ai kiihdytykseen.

Kissatkoiria · lauantaina klo 11:26

Moilaps sanoi:
Olen miettinyt että mitkä näistä kuluttaja puolen ai jutuista oikeasti hyötyy 16x tehosta. Eikö ne usein ole asioita jotka ei ole aika riippuvaisia esim jos puhelin parantaa valokuvaa onko sillä väliä kestääkö se 100ms vai 1600ms. Ja tuokaan ei ole kovin realistinen arvio koska ei kai ne hirveesti käytä transistoreja pelkästään ai kiihdytykseen.

Nopeushan on juuri tärkein metriikka muistin määrän jälkeen. Voihan sitä katsoa kun Kiinalainen DeepSeek rullaa vastauksia tunnin tai pari, mutta siihen ei monella ole kärsivällisyyttä.

Hellsinki · sunnuntaina klo 20:11

m000 sanoi:
Tarkoittaako tämä että tulevaisuudessa voisin generoida niitä tissikuvia yhtä nopeasti jollain uudella Ryzenillä kuin sillä perinteisemmällä nvidian kiuaslämmittimellä? Ainakin ne muistihuolet saisi ratkaistua kohtuubudjeteilla....

Pystyt tekemään 16 tissin naisen 1 tissin sijaan samassa ajassa. Säästät aikaa ja rahaa

Nerkoon · eilen klo 21:34

Onko näissä taas se hienous, että kun niitä käytetään, niin kellotaajuus tippuu puoleen, että prosessori ei ylikuumene?

Kaotik · eilen klo 21:48

Nerkoon sanoi:
Onko näissä taas se hienous, että kun niitä käytetään, niin kellotaajuus tippuu puoleen, että prosessori ei ylikuumene?

Taas? Eihän tuo ole koskenut kuin tiettyjä Intelin prossuja tietyillä AVX-versioilla?

Owern · eilen klo 22:39

Kaotik sanoi:
Taas? Eihän tuo ole koskenut kuin tiettyjä Intelin prossuja tietyillä AVX-versioilla?

Ei vaan se farssi oli nimenomaan, että prossu (samalla stallasi prossun) siirtyi AVX kertoimille riippumatta lämmöstä tai tehonkulutuksesta. Siinä oli ongelma, että jos ajettavasta koodista vaikka 1 % Oli AVX-512, niin silti prossu laski kellotaajutta, ja saatoi pomppia normi ja AVX kellojen välillä tiheään joka ei ole hyvä servereissä.

Uudet joista intelille nolosti paras on ZEN 5. Se nimenomaan laskee kellot lämmöntuoton mukaan. Ja kovin lämmöntuotto on raskailla AVX-512 kuormilla. Zen 5 myös enimmilään -500 MHz. Mutta se ei haittaa kun koodi on nopeampaa. Eikä tuota Intelin alkuperäistä muiden kuormien hidastumista tapahdu. Tämä ACE mikä piin tasolla toimii AVX(10?) rinnalla Kertolaskuja pystytään laskemaan 16*enemmän kellojaksossa. Mutta todellisesta suorituskykylisästä on vaikea sanoa. Tuskin se ainakaan muistukaista rajoitteisia kuormia nopeuttaa. Silti tämä on hyvä juttu X86 kannalta. Ja olettavasti molemmat tulee tätä P-coreissa.

Kaotik · eilen klo 23:28

Owern sanoi:
Ei vaan se farssi oli nimenomaan, että prossu (samalla stallasi prossun) siirtyi AVX kertoimille riippumatta lämmöstä tai tehonkulutuksesta. Siinä oli ongelma, että jos ajettavasta koodista vaikka 1 % Oli AVX-512, niin silti prossu laski kellotaajutta, ja saatoi pomppia normi ja AVX kellojen välillä tiheään joka ei ole hyvä servereissä.7

Niin, siis tietyillä Intelin prosessoreilla ja AVX-versioilla. Esimerkiksi AMD:n prosessoreilla vastaavaa ei esiintynyt (pientä kellotaajuuksien laskua kyllä, mutta ei mitään sellaista mitä Intelillä oli tietyillä malleilla)

Sähköapina · eilen klo 23:35

Kaotik sanoi:
Niin, siis tietyillä Intelin prosessoreilla ja AVX-versioilla. Esimerkiksi AMD:n prosessoreilla vastaavaa ei esiintynyt (pientä kellotaajuuksien laskua kyllä, mutta ei mitään sellaista mitä Intelillä oli tietyillä malleilla)

Ja siitäkin on aikaa, kun tuosta oli ongelmaa Intelillä. Esim. Ice Lake oli jo suuri harppaus eteenpäin: Ice Lake AVX-512 Downclocking.

hkultala · tänään klo 01:50

Tässä on siis kyse matriisikertolaskukäsky(i)stä, jo(t)ka toimii pääosin outer product-periaatteella. Tosin siellä on myös hiukan pistotuloa mukana.

Perusidea on, että otetaan 512-bittiä leveä 32-bittiset elementit sisältävä 16-kokoinen AVX-512-(pysty)vektori vasemmalta, ja 32-bittiset elementit sisältävä 16-kokoinen AVX512-(vaaka)vektori oikealta ja kerrotaan vasemman puolen alkiot kaikilla oikean puolen alkioilla, muodostaen 16x16-kokoisen tulosmatriisin(256 tulosta). ELi tulosmatriisin koko on 32 bittiä * 256 elementtiä = 8192 bittiä = 1 kiB.
Lisäksi tähän tulokseen voidaan summata toinen tulosmatriisin kokoinen matriisi.

Tätä "perusidean mukaista yksinkertaisinta" 32-bittisten inputtien käskyä ei kuitenkaan ole speksattu, sen sijaan tämän pohjalta on tehty pari muuta variaatiota:

1) Jokainen 32-bittinen alkio käsitellään kahtena 16-bittisenä alialkiona, ja näiden välillä tehdään 2-kokoinen pistetulo, eli kokonaisuudessaan tehdään [16 x 2] x [2x16] - matriisikertolasku (512 kertolaskua)
2) Jokainen 32-bittinen alkio käsitellään neljänä 8-bittisenä alialkiona, ja näiden välillä tehdään 4-kokoinen pistetulo, eli kokonaisuudessaan tehdään [16 x 4] x [4 x 16] -matriisikertolasku (1024 kertolaskua)

Tulokset pysyy aina 32-bittisinä.

En ole vielä onnistunut löytämään tästä mitään oleellista eroa Intelin AMX:ään - onko tämä vaan saman käskykannan uudelleenbrändäys kun AMD tulee mukaan tukemaan tätä?

hsalonen · tänään klo 01:52

hkultala sanoi:
En ole vielä onnistunut löytämään tästä mitään oleellista eroa Intelin AMX:ään - onko tämä vaan saman käskykannan uudelleenbrändäys kun AMD tulee mukaan tukemaan tätä?

16x nopeuden?

Itse paperissakin luki:

ACE is revealed to software as a new palette under the AMXaccelerator framework, allowing reuse of much of the systemprogrammer model and operating system support for AMX.

hkultala · tänään klo 09:17

hsalonen sanoi:
16x nopeuden?

Ei tässä ole mitään 16x nopeutusta AMXään nähden, vaan 16x nopeutus siinä, paljonko flopseja yhdellä käskyllä saavutetaan verrattuna AVX-512een.

Käytännössä tuo 16x on kuitenkin myös täysin teoreettinen, Zen5ssa on kaksi AVX-512-FMA-yksikköä, jolloin yhdellä täysinnopealla tällaisella yksiköllä saavutetaan zen5n AVX-512een verrattuna 8x nopeutus teoreettisissa flopseissa, ja kukaan ei tule vuosikymmeneen toteuttamaan prossua jossa on kaksi tällaista yksikköä. Käytännössä ensimmäiset implementaatiot saattaa olla vajaanopeudella, että laskentayksiköitä on vähemmän ja data pilkotaan suorituksessa pienempiin paloihin ja suoritetaan pienempi pala kerrallaan, jolloin teoreettinen nopeusero AVX-512sta käyttävään zen5een nähden jää joko 4x:ään tai 2x:ään, tosin lisärekisterit voi vähän auttaa siinä, että muistikaista L1D-välimuistiin ei tule niin helpolla pullonkaulaksi ja tosimaailman koodilla päästään lähemmäsi teoreettisia flopseja.

Owern · tänään klo 16:14

hkultala sanoi:
En ole vielä onnistunut löytämään tästä mitään oleellista eroa Intelin AMX:ään - onko tämä vaan saman käskykannan uudelleenbrändäys kun AMD tulee mukaan tukemaan tätä?

Noista materiaaleista selvii. Että erillinen käskykanta. Mutta kuten kirjoitit niin hyödyntää AVX(10) resursseja, ja siksi tuskin tulee orosessoria, joka tukee vain tätä, mutta ei AVX(10). Joten tämä olisi voitu nimetä AVX-VNNI tavoin, mutta minustakin on järkevämpää määritellä omaksi käskykannaksi. Markkinointi osaston mielestä varmasti myös.
Intelillä tämä 16-kertaistaa tiettujen kertolaskujen määrän kellojaksossa. Eli jos ajetaan juuri tiettyä ACE-koodia vaikka testimkelessä, niin nopeus on oletettavasti 16* vs AVX-512. Se miten tuo näkyy suorituskyvyssä tosimaailmassa niin todennäköisesti huomattavastikin silloin kun prosessori on pullonkaulana tekoälykuormissa.

pomk · tänään klo 17:20

Owern sanoi:
Intelillä tämä 16-kertaistaa tiettujen kertolaskujen määrän kellojaksossa. Eli jos ajetaan juuri tiettyä ACE-koodia vaikka testimkelessä, niin nopeus on oletettavasti 16* vs AVX-512. Se miten tuo näkyy suorituskyvyssä tosimaailmassa niin todennäköisesti huomattavastikin silloin kun prosessori on pullonkaulana tekoälykuormissa.

Paljos on speedup vs. AMX?

AMD ja Intel julkaisivat ACE-laajennokset x86-käskykantaan

Kaotik

Banhammer

m000

hsalonen

Owern

Moilaps

Kissatkoiria

Hellsinki

Kapteeni pienkonekorjaaja

Nerkoon

Se ainoa oikea

Kaotik

Banhammer

Owern

Kaotik

Banhammer

Sähköapina

Salapoliisi

hkultala

BANNATTU

hsalonen

hkultala

BANNATTU

Owern

pomk

Uutiset

Uutisia lyhyesti

Uusimmat viestit

Statistiikka

Hinta.fi

Arvostamme yksityisyyttäsi