Huhu: M4 ja A18 tulevat sisältämään selvästi järeämmät tekoälyprosessorit

Kaotik · 16.02.2024

Taiwanilaisen Economic Daily Newsin lähteiden mukaan Apple on terästämässä sekä M4:n että A18:n NPU-yksikköä selvästi nykyisiin verrattuna.
Huhu sopii hyvin yksiin sen kanssa, että Apple kertoi aiemmin sillä olevan paljon kerrottavaa tekoälyn tiimoilta myöhemmin tänä vuonna.

Lähde: Apple's M4 and A18 to have more powerful Neural Engines for iOS 18 AI features

Griffin · 16.02.2024

Jos prossuihin käy tulemaan tekoäly-yksiköitä, niin muistijärjestelmän merkitys kokonaispaketin suorityskyvyssä tulee kyllä kasvamaan selvästi entisestään..

Kaotik · 16.02.2024

Griffin sanoi:
Jos prossuihin käy tulemaan tekoäly-yksiköitä, niin muistijärjestelmän merkitys kokonaispaketin suorityskyvyssä tulee kyllä kasvamaan selvästi entisestään..

Ei se mikään jos ole enää, löytyy käytännössä kaikista Arm-prossuista nykyään ja x86 puolella taidetaan vedellä viimeisiä missä ei ole, osassa on jo

pomk · 16.02.2024

Griffin sanoi:
Jos prossuihin käy tulemaan tekoäly-yksiköitä, niin muistijärjestelmän merkitys kokonaispaketin suorityskyvyssä tulee kyllä kasvamaan selvästi entisestään..

Applen paremmissa läppäripiireissä on eniten kaistaa kaikista markkinoiden läppäriprossuista. Kirittävää on siis ennemmin amd:lla ja intelillä.

finWeazel · 16.02.2024

Griffin sanoi:
Jos prossuihin käy tulemaan tekoäly-yksiköitä, niin muistijärjestelmän merkitys kokonaispaketin suorityskyvyssä tulee kyllä kasvamaan selvästi entisestään..

Applella ollut neuroverkkokiihdytin läppäri/desktop piireissä m1:sta lähtien. Kyse lähinnä siitä, että kuinka iso neuroverkkokiihdytin tarvitaan erilaisiin kuormiin. Ei nuo erilliset kiihdyttimet tosin mitään nopeita ole jos verrataan siihen mitä gpu-puolelta saadaan irti. Toki TOPSit yksin ei ole kaiken määrittävä asia, kun on myös latenssi, virrankulutus yms. mittareita

Nyt ostettavissa olevista CPU:n kyljessä tulevissa AI-kiihdyttimissä puhutaan joistain kymmenistä TOPSeista. GPU puolelta löytyy 4090:sta yli tuhat TOPSia.

tuoppi´ · 16.02.2024

Vielä kun joku keksisi näille jonkun käyttötarkoituksenkin. Käyttötarkoituksen pitäisi vielä olla sellainen, että sen ajaminen olisi parempi CPU:n kyljessä olevalla NPU:lla eikä GPU:lla.

pomk · 16.02.2024

tuoppi´ sanoi:
Käyttötarkoituksen pitäisi vielä olla sellainen, että sen ajaminen olisi parempi CPU:n kyljessä olevalla NPU:lla eikä GPU:lla.

Kai se npu on aika huono tehtävässään jos samaan piiriin integroitu gpu tekee hommat nopeammin. Villi veikkaus että joku on näitä miettiny ja npu on nopeampi kuin gpu.

Ja jos tehobudjetti sallii niin miksei laske osaa laskuista sit sillä gpu:lla ja osa npu:lla. Sama muistiavaruus kuitenkin käytössä jne.

finWeazel · 16.02.2024

tuoppi´ sanoi:
Vielä kun joku keksisi näille jonkun käyttötarkoituksenkin. Käyttötarkoituksen pitäisi vielä olla sellainen, että sen ajaminen olisi parempi CPU:n kyljessä olevalla NPU:lla eikä GPU:lla.

Vuoden puolivälissä AI PC windows päivitys, copilot joka hommaan? Apple ehkä perässä softan suhteen, mutta kai ne jotain kertoo wwdc-messuilla. Saa nähdä onko neuroverkkoavustimista mihinkään tänä vuonna vai pitää vielä odotella teknologian kehittymistä.

tuoppi´ · 16.02.2024

pomk sanoi:
Kai se npu on aika huono tehtävässään jos samaan piiriin integroitu gpu tekee hommat nopeammin. Villi veikkaus että joku on näitä miettiny ja npu on nopeampi kuin gpu.

Onko näissä joissain NPU nopeampi kuin GPU?

pomk · 16.02.2024

tuoppi´ sanoi:
Onko näissä joissain NPU nopeampi kuin GPU?

Ehkä? Energiatehokkaampi se ainakin on ja miksei jaa laskentaa molemmille tehobudjetin puitteissa?

finWeazel · 16.02.2024

pomk sanoi:
Kai se npu on aika huono tehtävässään jos samaan piiriin integroitu gpu tekee hommat nopeammin. Villi veikkaus että joku on näitä miettiny ja npu on nopeampi kuin gpu.

Ja jos tehobudjetti sallii niin miksei laske osaa laskuista sit sillä gpu:lla ja osa npu:lla. Sama muistiavaruus kuitenkin käytössä jne.

Voi olla ihan puhtaasti virrankulutus ja latenssiasia(läppärit, tabletit) miksi halutaan npu:ta.

tuoppi´ · 16.02.2024

pomk sanoi:
Ehkä? Energiatehokkaampi se ainakin on ja miksei jaa laskentaa molemmille tehobudjetin puitteissa?

Miksei käytä NPU:n vaatimaa piiritilaa ja laita kylkeen tehokkaampaa GPU:ta ja ajaa sillä kaiken? Sillä GPU:lla voi ajaa sitten muutakin tehokkaammin.

tuoppi´ · 16.02.2024

finWeazel sanoi:
Voi olla ihan puhtaasti virrankulutus ja latenssiasia(läppärit, tabletit) miksi halutaan npu:ta.

Tääkin vähän nojaa siihen, että olisi jokin asia mitä NPU:lla haluttaisiin kiihdyttää, mutta samaa ei voitaisi tehdä GPU:lla.

pomk · 16.02.2024

tuoppi´ sanoi:
Miksei käytä NPU:n vaatimaa piiritilaa ja laita kylkeen tehokkaampaa GPU:ta ja ajaa sillä kaiken? Sillä GPU:lla voi ajaa sitten muutakin tehokkaammin.

Kai se tehobudjetti rajottaa hommaa? Jos vaikka halutaan tehdä jotain kuvakäpäistelyä kameran yhteydessä ja gpu:lla sama homma kuluttais 4W ja npu tekee saman 1W teholla?

finWeazel · 16.02.2024

tuoppi´ sanoi:
Tääkin vähän nojaa siihen, että olisi jokin asia mitä NPU:lla haluttaisiin kiihdyttää, mutta samaa ei voitaisi tehdä GPU:lla.

Uskon, että lokaali copilotit officeen, emailiin,... hey siri ja ehkä osa keveämmistä videoeditointi/... efekteistä ajetaan npu:lla virtaoptimoidusti. Ei kukaan halua, että läppärin akku hyytyy heti. Latenssi myös merkittävä, kun jos copilot on "koko ajan" ajossa niin ei halua joka välilyönnin painamisen jälkeen odotella extra 0.2s tulosta kun gpu:ssa on enemmän latenssia versus npu.

GPU:t raskaammille kuormille missä tarvitaan satoja/tuhansia TOPSeja. 4090:ssa yli tuhat TOPSia. GPU.ssa ongelmana virrankulutus ja latenssi. Nvidiallahan kyllä on gpu:ssa tensoriytimet ja amd:lla gpu:ssa matriisikäskyt joilla saadaan neuroverkkoja kiihdytettyä.

Voin olla väärässä. Paljon on AI PC:ta on hehkutettu microsoft, amd, qualcom jne. toimesta. Jotain siellä on pakko olla tulossa myös softapuolella normikäyttäjille tai puhutaan suurimmasta Flopsista pitkään aikaan.

AMD:lla 16 tops 8040:en npu:ssa, 39 tops kun lasketaan iGPU mukaan.

AMD Announces The Ryzen 8040 Series Mobile Processors With Better Ryzen AI - Phoronix

www.phoronix.com

pomk · 16.02.2024

finWeazel sanoi:
GPU:t raskaammille kuormille missä tarvitaan satoja/tuhansia TOPSeja. 4090:ssa yli tuhat TOPSia. GPU.ssa ongelmana virrankulutus ja latenssi.

Myös muistin määrä on ongelmallinen. Mäkkiin saa yli 100 gigaa rammia perus läppärin kokoluokkaan ja tehokkaalla npu:lla saanee ihan käyttökelpoisen kokemuksen.

ratkakapu · 16.02.2024

Minkä kokoisia nämä NPU:t ovat? Jos NPU:lla saadaan neljäsosan koolla ja neljäsosan kulutuksella sama suorituskyky kuin GPU:lla niin on hyvinkin järkeä tyrkätä mobiililaitteisiin sellainen...

finWeazel · 16.02.2024

ratkakapu sanoi:
Minkä kokoisia nämä NPU:t ovat? Jos NPU:lla saadaan neljäsosan koolla ja neljäsosan kulutuksella sama suorituskyky kuin GPU:lla niin on hyvinkin järkeä tyrkätä mobiililaitteisiin sellainen...

Käytännössähän AI kiihdyttimet ovat isojen matriisien kertomiseen optimoituja yksiköitä. Ei sen kummallisempia kuin tensoriytimet mitä nvidialla ollut 20x0 sarjasta lähtien gpu:ssa. Totuus sitten siinä miten npu toteutus optimoidaan versus gpu optimointi. Optimoida voi latenssi vs. throughput, virrankulutuksen, absoluuttisen tehon, matriisien koon, datatyyppien jne jne. mukaan. Tietty myös sekin, että eihän se gpu:hun integroitu kiihdytin toimi yksinään vaan pitää herättää joitain muitakin gpu:n osia, että saadaan matriiseja murskattua.

pomk · 16.02.2024

ratkakapu sanoi:
Minkä kokoisia nämä NPU:t ovat? Jos NPU:lla saadaan neljäsosan koolla ja neljäsosan kulutuksella sama suorituskyky kuin GPU:lla niin on hyvinkin järkeä tyrkätä mobiililaitteisiin sellainen...

Nykyset on suht mopoja, 17 TOPS luokkaa.

tuoppi´ · 16.02.2024

finWeazel sanoi:
Uskon, että lokaali copilotit officeen, emailiin,... hey siri ja ehkä osa keveämmistä videoeditointi/... efekteistä ajetaan npu:lla virtaoptimoidusti. Ei kukaan halua, että läppärin akku hyytyy heti.

GPU:t raskaammille kuormille missä tarvitaan satoja/tuhansia TOPSeja. 4090:ssa yli tuhat TOPSia. GPU.ssa ongelmana virrankulutus ja latenssi. Nvidiallahan kyllä on gpu:ssa tensoriytimet ja amd:lla gpu:ssa matriisikäskyt joilla saadaan neuroverkkoja kiihdytettyä.

Voin olla väärässä. Paljon on AI PC:ta on hehkutettu microsoft, amd, qualcom jne. toimesta. Jotain siellä on pakko olla tulossa myös softapuolella normikäyttäjille tai puhutaan suurimmasta Flopsista pitkään aikaan.

AMD:lla 16 tops 8040:en npu:ssa, 39 tops kun lasketaan iGPU mukaan.

AMD Announces The Ryzen 8040 Series Mobile Processors With Better Ryzen AI - Phoronix

www.phoronix.com

Joo, siis kyllä käyttötarkoituksia AI:lle voi keksiä. Mutta silti vaikuttaa aika niche tapauksilta mihin tarvittaisiin nimenomaan dedikoitua NPU:ta. GPU kuitenkin käytännössä tekee samaa asiaa. Ehkä jotain etuja voi saada virrankäytössä, mutta onko edut oikeasti niin suuria että sillä olisi merkitystä? Miten suuri ero esim. näillä nykyisillä NPU:lla on AI-käyttötapauksissa suorituskyky per watti verrattuna GPU:hun?
Toisaalta kuitenkin se NPU vie tilaa sieltä piiriltä, minkä olisi voinut hyödyntää GPU:hun. GPU:ta kun voi käyttää muuhunkin.

Raskaampia AI-hommia tekevillä on varmasti sellaiset GPU:t että noi NPU:t on ihan onnettoman tehoisia niihin verrattuna, joten melkein sama kuin niitä ei olisi olemmassakaan.

finWeazel · 16.02.2024

tuoppi´ sanoi:
Joo, siis kyllä käyttötarkoituksia AI:lle voi keksiä. Mutta silti vaikuttaa aika niche tapauksilta mihin tarvittaisiin nimenomaan dedikoitua NPU:ta.

Vaikea sanoa, kun ei tiedä mitä esimerkiki microsoft on miettinyt. AMD:n joulukuun eventissä missä 8040 paljastettiin lisa su sanoi lavalla, että npu on nimenomaan microsoftin pyynnöstä lisätty. Microsoftin edustaja nyökytteli lavalla ja sanoi, että elä sure lisa, me kyllä käytetään sitä kiihdytintä ja ihan jokaista TOPSia minkä amd tarjoaa mutta ei voida vielä kertoa mihin. Kai se kesällä tuleva windows julkaisu on missä asiat paljastuvat. Voi olla hienoa tai sitten tulee tera Flopsi.

NPU jutut jotain loppukäyttäjähommaa, co-pilotit? Ei ole suunnattu konesaleihin tai ai:ta kehittävien työalustaksi gpu:n tilalle.

pomk · 16.02.2024

tuoppi´ sanoi:
Ehkä jotain etuja voi saada virrankäytössä, mutta onko edut oikeasti niin suuria että sillä olisi merkitystä?

Ei näitä varmaan muuten prossuihin integroitaisi.

tuoppi´ · 16.02.2024

pomk sanoi:
Ei näitä varmaan muuten prossuihin integroitaisi.

En nyt tiiä. Tekoäly on nyt niin kovassa hypessä, että ei se mikään ihme olisi jos näitä nyt lisättäisiin vaan sen takia että päästään sanomaan että meidän prossussa on sitä tekoälyä, ostakaa. Sitten muutaman sukupolven päästää pudotetaan pois kun ei näille keksitykkään mitään käyttöä.

EDIT: Enkä tässä nyt sano, etteikö näille voisi käyttöä joskus löytyä. Ehkä löytyy. Vaikea vaan kuvitella sellaista, mikä hyötyisi kiihdytyksestä, mutta toisaalta ei tarvitsisi sitä absoluuttista tehoa mitä on enemmän GPU:ssa.

Griffin · 16.02.2024

Nykyisten pelinäyttisten ongelmahan on AI käytössä näyttisten pieni muistinmäärä. Kun näyttiksen muisti loppuu, niin suorituskyky romahtaa välittömästi pohjamutiin..
Prossujen kanssa taas muistin datansiirtokapasitteetti on surkea VS Näyttiksen leveä ja nopea väylä. Joten saako niihin sitten minkäverran suorituskykyä, vaikka siellä olisi mitenmonta yksikköä tahansa odottamassa dataa muistilta?
-----
Virrankulutus on puhelimia ja läpsyjä lukuunottamatta melko merkityksetöntä.. Näin pienemmässä käytössä, johon kuluttajalaitteet kykenevät..

pomk · 16.02.2024

tuoppi´ sanoi:
En nyt tiiä. Tekoäly on nyt niin kovassa hypessä, että ei se mikään ihme olisi jos näitä nyt lisättäisiin vaan sen takia että päästään sanomaan että meidän prossussa on sitä tekoälyä, ostakaa. Sitten muutaman sukupolven päästää pudotetaan pois kun ei näille keksitykkään mitään käyttöä.

Tarve nuo on nimenomaan prossuihin tuonut. Siis ihan todellinen tarve, eikä kuvitelma tulevasta tarpeesta. Lukase vaikka että miten joku kamera toimii puhelimissa.
Nyt ilmeisesti tarve on kasvanut ja nostetaan npu:n kapasiteettia.

Apple ei myöskään myy prosessoreita, vaan tuotteita.

finWeazel · 16.02.2024

Griffin sanoi:
Nykyisten pelinäyttisten ongelmahan on AI käytössä näyttisten pieni muistinmäärä. Kun näyttiksen muisti loppuu, niin suorituskyky romahtaa välittömästi pohjamutiin..
Prossujen kanssa taas muistin datansiirtokapasitteetti on surkea VS Näyttiksen leveä ja nopea väylä. Joten saako niihin sitten minkäverran suorituskykyä, vaikka siellä olisi mitenmonta yksikköä tahansa odottamassa dataa muistilta?
-----
Virrankulutus on puhelimia ja läpsyjä lukuunottamatta melko merkityksetöntä.. Näin pienemmässä käytössä, johon kuluttajalaitteet kykenevät..

Et sä millään 16tops npu:lla astu gpu:n varpaille kun toisesta löytyy 1000+topsia. Muistilla ei ole merkitystä, kun laskentatehoa on niin vähän. Ajatellaan erilaisia käyttötapauksia

NPU: hei siri - mikä sää helsingissä?, parsi emaili älykkäästi, täytä exceliä/wordia/emailia paremmalla automatiikalla, rajatut efektit videoedioinnissa tms.

GPU: Raskaammat kuormat kuten photoshop, video-editointi, pienempien ai juttujen devaaminen lokaalikoneella

Dedikoidut AI-kiihdytinpiirit: konesalikuormat missä voi olla kymmeniä tuhansia kiihdyttimiä laskemassa samaa kuormaa(gpt4/5 opettaminen)

NPU:lle on oma lokeronsa virtarajatuissa loppukäyttäjäympäristöissä. Läppäreissä, puhelimissa, tableteissa. NPU myös todennäköisesti pienempi latenssi niin exceli tai lause emailissa täydentyy pienemmällä lagilla versus gpu laskee saman asian.

pomk · 16.02.2024

Griffin sanoi:
Prossujen kanssa taas muistin datansiirtokapasitteetti on surkea VS Näyttiksen leveä ja nopea väylä.

Mikä olisi mielestäsi hyvä kaista läppäriprossuun tätä käyttöä ajatellen?

ratkakapu · 16.02.2024

pomk sanoi:
Nykyset on suht mopoja, 17 TOPS luokkaa.

Ihan siis fyysistä pinta-alaa piirillä ajattelin (suhteessa tehoon). Eli vaikkapa AMD:n tapauksessa niin kuinka monta CU:ta saisi lisää näyttikseen, jos pudottaisi NPU:n kokonaan pois ja käyttäisi tämän näyttiksen koon kasvattamiseksi?

Jos siis NPU vie vaikka 10 neliömilliä tilaa piiriltä ja sen suorituskyky AI-kuormassa on 1/3 siitä mitä 100 neliömillin näyttisosion, niin ehdottomasti NPU kannattaa pistää piirille. Jotta NPU:ssa on mitään mieltä, niin sen pitää olla näyttistä huomattavasti pinta-alatehokkaampi tai energiatehokkaampi

tuoppi´ · 16.02.2024

pomk sanoi:
Tarve nuo on nimenomaan prossuihin tuonut. Siis ihan todellinen tarve, eikä kuvitelma tulevasta tarpeesta. Lukase vaikka että miten joku kamera toimii puhelimissa.
Nyt ilmeisesti tarve on kasvanut ja nostetaan npu:n kapasiteettia.

Apple ei myöskään myy prosessoreita, vaan tuotteita.

Tarkennan, itse ajattelin lähinnä tietokoneita tässä. Puhelimet on hieman eri asia. Tuo valokuvaus ei tietokoneella taida olla oikein relevantti käyttötapaus.

pomk · 16.02.2024

tuoppi´ sanoi:
Tarkennan, itse ajattelin lähinnä tietokoneita tässä. Puhelimet on hieman eri asia. Tuo valokuvaus ei tietokoneella taida olla oikein relevantti käyttötapaus.

Webbikamerat on aika kovassa käytössä ja noiden ansiosta applen vehkeissä on paras kuvanlaatu tuohon käyttöön.

Joku tarve noille on kans nähty jo kun m1 piiri väännettiin kasaan 2020 kauan ennen nykystä LLM maniaa.

finWeazel · 16.02.2024

Nämä on upeita. Liekö sais npu:lla menemään nopeasti vai tarvii gpu:n? Sama puolen tunnin videoon, kauanko renderöinti kestää? Video taitaa olla editoitu/superraudalla. Jotain ei markkinointivideoita nähnyt missä kone aina raksuttaa tovin ennen kuin photarin lopputulos tulee esille,...

pomk · 16.02.2024

finWeazel sanoi:
Nämä on upeita. Liekö sais npu:lla menemään nopeasti vai tarvii gpu:n?

Tai käyttää molempia tehobudjetin rajoissa.

Griffin · 16.02.2024

pomk sanoi:
Mikä olisi mielestäsi hyvä kaista läppäriprossuun tätä käyttöä ajatellen?

Jos mennään apple tyyliin, jossa muistia ei voi jokatapauksessa laajentaa, niin esim pari HBM:n uusinta versioita olevaa palikkaa prossun viereen samalle alustalle piristäisi varmasti GPU jaAI leikkejä kummasti..
Kaistaerokin on melko massiivinen:

Comparison Table DDR5 vs DDR4 vs HBM3 Memory

Halpuuttaja · 16.02.2024

Griffin sanoi:
Jos mennään apple tyyliin, jossa muistia ei voi jokatapauksessa laajentaa, niin esim pari HBM:n uusinta versioita olevaa palikkaa prossun viereen samalle alustalle piristäisi varmasti GPU jaAI leikkejä kummasti..

Ihan hyvin Applella taitaa olla balanssissa muistiasiat kun vertaa kilpailuun. Kattona 128 Gt kapasiteetin osalta ja kaistaa saa 400 Gt/s jos M3 Max prossulla varustetun läppärin ostaa. Seuraavaan sukupolveen saataisiin kai aika hyvin kaistaa lisää käyttämällä nopeampia muistipiirejä, tän hetkiset taitaa olla LPDDR5-6400 ja uusimmat sirut muistaakseni 10000+.

x86 läppärit on kaukana takana.

pomk · 16.02.2024

Griffin sanoi:
Jos mennään apple tyyliin, jossa muistia ei voi jokatapauksessa laajentaa, niin esim pari HBM:n uusinta versioita olevaa palikkaa prossun viereen samalle alustalle piristäisi varmasti GPU jaAI leikkejä kummasti..
Kaistaerokin on melko massiivinen:

Comparison Table DDR5 vs DDR4 vs HBM3 Memory

heh. Mikä tarve tommoselle kaistalle on, kun ei noi nytkään ole läheskään kaistarajotteisia? Applen prossuissa on tällä hetkellä noin 400% nopeampi kaista kuin amd:n ja intelin laitteissa, ja ollaan 40% siitä mitä 4090 työpöytänäyttis tarjoaa ja lähes tasoissa markkinoiden nopeimman läppärinäyttiksen kanssa.

Ai leikkejä piristäisi ensisijaisesti tehokkaampi NPU, ei suurempi muistikaista.

Griffin · 16.02.2024

pomk sanoi:
heh. Mikä tarve tommoselle kaistalle on, kun ei noi nytkään ole läheskään kaistarajotteisia? Applen prossuissa on tällä hetkellä noin 400% nopeampi kaista kuin amd:n ja intelin laitteissa, ja ollaan 40% siitä mitä 4090 työpöytänäyttis tarjoaa ja lähes tasoissa markkinoiden nopeimman läppärinäyttiksen kanssa.

Ai leikkejä piristäisi ensisijaisesti tehokkaampi NPU, ei suurempi muistikaista.

Heh ihan vain takaisin. Mallit vievät muistia reippaasti ja 4090:nkin muisti tahtoo loppua helposti kesken.
Jos ja kun meillä on malli, joka vaatii esim 32 tai 64 gigaa ja sitä hyödynnetään suorittimella, jossa on paljon rinnakkaisuutta, niin on selvää, että cachet auttaa kehnohkosti ja kaistaa tarvitaan.. Ja mitä isompi AI suoritin, niin sitä rinnakkaisempi se on, jollon se kaistankin tarve kasvaa siksi kokoajan.

Jos sitä kaistaa ei tarvittaisi, niin GPU voisi vallanhyvin käyttää koneen keskusmuistia lisämuistina. Nyt asia on kuitenkin AI leikeissä niin, että ei voida, kun on liian paska kaista, niin nopeus tippuu olemattomiin..

4090:sta kannattaa lisäksi muistaa, että se on etupäässä suunniteltu näyttikseksi, eikä varsinaisesti AI laskentaan. AIhin kykeneviä yksiköitä on vain lätkaisty sekaan, jotta voidaan tehdä niillä tiettyjä kuvanparannus ym kikkoja.

Ei se valtava datamäärä noissa malleissa loju siellä mustissa vain varastossa, vaan sitä tarvitaan sieltä eri paikoista ja mitä rinnakkaisempi suoritin, niin sitä useammasta paikasta ja sitä enemmän.

pomk · 16.02.2024

Griffin sanoi:
Mallit vievät muistia reippaasti ja 4090:nkin muisti tahtoo loppua helposti kesken.

Mäkkiin saa sen 128 gigaa rammia NPU:n ja GPU:n käytettäväksi.

Griffin sanoi:
Jos sitä kaistaa ei tarvittaisi, niin GPU voisi vallanhyvin käyttää koneen keskusmuistia lisämuistina.

Joo pcie5 on liian hidas ja korkeat latenssit. Mäkin keskusmuisti on nopea tuohon verrattuna (63 vs. 400 gt/s)

Fakta on että merkittävästi lisää kaistaa tarvittais mäkkeihin vasta kun NPU:n teho lähestyy 1000 TOPS tasoa. Nykyään se on noin 17 TOPS. (Gpu jaksaa varmaan jokusen sata TOPS tuon NPU:n päälle)

finWeazel · 16.02.2024

NPU:t tarkoitettu loppukäyttäjäkuormille mitkä optimoitu pieneen tilaan. Tyyliin microsoftin copilotit mitkä tulevat windows päivityksen mukana. Ei npu:t ole mitään monstereita mitä ai devaajat käyttäisivät uusia neuroverkkoja luodessa tai millä ajettaisiin isoimmat ja raskaimmat mallit.

Copilot in Windows & Other AI-Powered Features | Microsoft

Revolutionize your Windows 11 experience with Copilot. Discover how this tool, along with other AI-powered functionalities, can enhance your creativity and productivity.

www.microsoft.com

16TOPS vs. vaikka h200 ala kuvassa. Halvempaa vuokrata h200 pilvestä kuin odotella npu:n laskevan jotain jos työkseen tekee asioita. Ei NPU:t ole samantasoisia kiihdyttimiä kuin mitä konesalipuolella/työkäytössä käytetään.

Ei NPU:t pärjää myöskään kuluttaja gpu:lle eikä edes igpu:lle. AMD 8040 tapauksessa 16tops npu, 23tops igpu. Kertoo kaiken tämä siitä mihin käyttöön npu:t suunnattu. Miksi NPU kun igpu on jo nopeampi? Todennäköisesti virrankulutus ja bonuksena latenssi. Mahdollisesti myös yhdistetty suorituskyky parempi kuin jos samat transistorit olisi vain käytetty isompaan igpu:hun.

hpc-datasheet-sc23-h200-datasheet-3002446.pdf

nvdam.widen.net

pomk · 16.02.2024

finWeazel sanoi:
NPU:t tarkoitettu loppukäyttäjäkuormille mitkä optimoitu pieneen tilaan. Tyyliin microsoftin copilotit mitkä tulevat windows päivityksen mukana. Ei npu:t ole mitään monstereita mitä ai devaajat käyttäisivät uusia neuroverkkoja luodessa tai millä ajettaisiin isoimmat ja raskaimmat mallit.

Copilot in Windows & Other AI-Powered Features | Microsoft

Revolutionize your Windows 11 experience with Copilot. Discover how this tool, along with other AI-powered functionalities, can enhance your creativity and productivity.

www.microsoft.com

16TOPS vs. vaikka h200 ala kuvassa. Halvempaa vuokrata h200 pilvestä kuin odotella npu:n laskevan jotain jos työkseen tekee asioita. Ei NPU:t ole samantasoisia kiihdyttimiä kuin mitä konesalipuolella/työkäytössä käytetään.

Ei NPU:t pärjää myöskään kuluttaja gpu:lle eikä edes igpu:lle. AMD 8040 tapauksessa 16tops npu, 23tops igpu. Kertoo kaiken tämä siitä mihin käyttöön npu:t suunnattu.

hpc-datasheet-sc23-h200-datasheet-3002446.pdf

nvdam.widen.net

Jep. Saa aika paljon kasvatella noita jotta vaikka HBM muistille tulisi tarvetta.

Griffin · 16.02.2024

finWeazel sanoi:
NPU:t tarkoitettu loppukäyttäjäkuormille mitkä optimoitu pieneen tilaan. Tyyliin microsoftin copilotit mitkä tulevat windows päivityksen mukana. Ei npu:t ole mitään monstereita mitä ai devaajat käyttäisivät uusia neuroverkkoja luodessa tai millä ajettaisiin isoimmat ja raskaimmat mallit.

Kylläpä niitä erilaisia asioita tekeviä malleja tulee isompia loppukäyttäjillekin, sitämukaa kun vain tulee rautaa, joilla niitä ajella. Noiden kehityshän on tällähetkellä lähinnä lähtökuopissa..

pomk sanoi:
Mäkkiin saa sen 128 gigaa rammia NPU:n ja GPU:n käytettäväksi.

Joo pcie5 on liian hidas ja korkeat latenssit. Mäkin keskusmuisti on nopea tuohon verrattuna (63 vs. 400 gt/s)

Fakta on että merkittävästi lisää kaistaa tarvittais mäkkeihin vasta kun NPU:n teho lähestyy 1000 TOPS tasoa. Nykyään se on noin 17 TOPS. (Gpu jaksaa varmaan jokusen sata TOPS tuon NPU:n päälle)

Mistä revit tuon 400 arvon?
Apple unveils M2 with breakthrough performance and capabilities - Apple (FI)
Apple M3 - Wikipedia
Noissa on sanottu, toisessa 200, toisessa 100 m1:lle ja M2:lle. M3:lle on sanottu nopeudeksi vain 150, koska siinä on kapeampi muistiväylä.
4090:ssa taas on 1008, mutta homma pysähtyy sillä, kuin seinään, kun kortin muisti loppuu ja esim jopa applen prossun umpimopo yksikkökin on sitten nopeampi siinä vaiheessa..

Alkaa vaikuttaa siltä, jotta hinnoittelun takia on selvä markkinarako jonkinlaisille ai korteille, joissa olisi kohtuullinen laskentateho ja muistia joku 64,128 tai 256 gigaa.

finWeazel · 16.02.2024

Griffin sanoi:
Kylläpä niitä erilaisia asioita tekeviä malleja tulee isompia loppukäyttäjillekin, sitämukaa kun vain tulee rautaa, joilla niitä ajella. Noiden kehityshän on tällähetkellä lähinnä lähtökuopissa..

Jos miettii massoja niin kuinka realistista on esim. ajatella ettei windowsin copilot(ai pc) jutut toimisi 8GB tai 16GB keskusmuistilla olevalla läppärillä? Pro käyttäjät ja asioita työkseen tekevät toki erikseen. 16GB keskusmuistista ei voi lohkaista kaikkea neuroverkon käyttöön kun siellä on käyttis, appsit, selaimet jne. kans päällä.

Esim 8040:en npu on hitaampi kuin saman läppärin igpu. Ei pelkkä muisti tee autuaaksi. Ne jotka tarvii niin joutuu satsaamaan sekä isompaan suorituskykyyn että isompaan muistiin tai sitten ajetaan konesalissa kuormia.

edit. Sama toisella tapaa sanoen. NPU:t on peruskäyttäjille/perustoimintoihin tarkoitettuja. PRO/ai-devaaja katsoo muualle.

pomk · 16.02.2024

Griffin sanoi:
Kylläpä niitä erilaisia asioita tekeviä malleja tulee isompia loppukäyttäjillekin, sitämukaa kun vain tulee rautaa, joilla niitä ajella. Noiden kehityshän on tällähetkellä lähinnä lähtökuopissa..

Ihan kohta juu tulee puhelimia ja kuluttajaläppäreitä sadan gigan hbm muisteilla…

Tai sit ei tule.

Griffin · 17.02.2024

pomk sanoi:
Ihan kohta juu tulee puhelimia ja kuluttajaläppäreitä sadan gigan hbm muisteilla…

Tai sit ei tule.

Puhelimet nyt ovat silkkaa paskaa, ei niillä ole mitään merkitystä.. Läppäreissä olisi taas syytä siirtyä HBM:ään, saataisiin GPU:hun potkua kivasti lisää.. Nykyisinhän noissa integraatioihmeissä on melko pieni määrä suoritusyksiköitä ja silti ne tahtovat olla muistikaistarajotteisia. HBM:ssä on parempi kaista ja pienemmät latenssit. Seuraavassa konsolisukupolvessahan on arveltu käytettävän HBM muisteja.

pomk · 17.02.2024

Griffin sanoi:
Nykyisinhän noissa integraatioihmeissä on melko pieni määrä suoritusyksiköitä ja silti ne tahtovat olla muistikaistarajotteisia.

Ovatko todella? Oon ollu siinä käsityksessä että applen läppäripiirit ei ole käytännössä koskaan muistikaistarajoitteisia.
Suoritusyksikköjäkin on aika paljon.

Griffin · 17.02.2024

pomk sanoi:
Ovatko todella? Oon ollu siinä käsityksessä että applen läppäripiirit ei ole käytännössä koskaan muistikaistarajoitteisia.
Suoritusyksikköjäkin on aika paljon.

Onkos noita saatu kelloteltua ja kokeitua, en ole nähnyt missään.. Ei noissa applen piireissäkään mikään ihmeellinen tuo muistikaista ole..

Janiautomation · 17.02.2024

Griffin sanoi:
Kylläpä niitä erilaisia asioita tekeviä malleja tulee isompia loppukäyttäjillekin, sitämukaa kun vain tulee rautaa, joilla niitä ajella. Noiden kehityshän on tällähetkellä lähinnä lähtökuopissa..

Mistä revit tuon 400 arvon?
Apple unveils M2 with breakthrough performance and capabilities - Apple (FI)
Apple M3 - Wikipedia
Noissa on sanottu, toisessa 200, toisessa 100 m1:lle ja M2:lle. M3:lle on sanottu nopeudeksi vain 150, koska siinä on kapeampi muistiväylä.
4090:ssa taas on 1008, mutta homma pysähtyy sillä, kuin seinään, kun kortin muisti loppuu ja esim jopa applen prossun umpimopo yksikkökin on sitten nopeampi siinä vaiheessa..

Alkaa vaikuttaa siltä, jotta hinnoittelun takia on selvä markkinarako jonkinlaisille ai korteille, joissa olisi kohtuullinen laskentateho ja muistia joku 64,128 tai 256 gigaa.

M1 ja M2 Ultra muistikaista 800G
M1 ja M2 MAX muistikaista 400G

Lähteet:

Apple unveils M1 Ultra, the world’s most powerful chip for a personal computer

Apple today announced M1 Ultra, the next giant leap for Apple silicon and the Mac.

www.apple.com

Apple unveils M2 Pro and M2 Max: next-generation chips for next-level workflows

Supercharging MacBook Pro and Mac mini, M2 Pro and M2 Max feature a more powerful CPU and GPU, up to 96GB of unified memory, and power efficiency.

www.apple.com

finWeazel · 17.02.2024

Janiautomation sanoi:
M1 ja M2 Ultra muistikaista 800G
M1 ja M2 MAX muistikaista 400G

Lähteet:

Apple unveils M1 Ultra, the world’s most powerful chip for a personal computer

Apple today announced M1 Ultra, the next giant leap for Apple silicon and the Mac.

www.apple.com

Apple unveils M2 Pro and M2 Max: next-generation chips for next-level workflows

Supercharging MacBook Pro and Mac mini, M2 Pro and M2 Max feature a more powerful CPU and GPU, up to 96GB of unified memory, and power efficiency.

www.apple.com

tuohon päälle vielä iso cache. Ultrassa 96MB

pomk · 17.02.2024

Griffin sanoi:
Onkos noita saatu kelloteltua ja kokeitua, en ole nähnyt missään.. Ei noissa applen piireissäkään mikään ihmeellinen tuo muistikaista ole..

Miten kellottelu liittyy muistikaistarajoitteen olemassaoloon?

Ja onhan noissa aika jyty muistikaista verrattuna mihinkään muihin läppäriprossuihin.
Oikeastaan vain toista tonnia maksavissa gpu korteissa ja konesalikorteissa on enemmän.

En edelleenkään ihan hoksaa miksi läppärissä pitäisi olla konesaliratkaisujen verran kaistaa, kun ei sitä laskentatehoakaan saa niissä määrissä tehobudjetin takia.

Griffin sanoi:
Alkaa vaikuttaa siltä, jotta hinnoittelun takia on selvä markkinarako jonkinlaisille ai korteille, joissa olisi kohtuullinen laskentateho ja muistia joku 64,128 tai 256 gigaa.

Aika kohtuullisen hintasia nää applen läppärit on. Kokeile semmosta?

Halpuuttaja · 17.02.2024

Griffin sanoi:
Läppäreissä olisi taas syytä siirtyä HBM:ään, saataisiin GPU:hun potkua kivasti lisää..

No jos ottaa huomioon, että RTX 4080:n muistikaista on 716 Gt/s niin kyllä noilla Applen tarjoamat kaistat aika riittoisan leveitä on. LPDDR5-6400:lla ovat saavuttaneet 800 Gt/s kaistan työpöytä pönttöihin ja LPDDR5T-9600 piireillä kaista olisi 1200 Gt/s. Onko paljonkin työkuormia joihin tuollaiset kaistat eivät riitä vaan se HBM aidosti tarpeen? Esimerkit tällaisista työkuormista kiinnostaa.

SK Hynix aloitti LPDDR5T-muistien toimitukset asiakkaille - io-tech.fi

Jopa 9600 Mbps:n nopeuteen yltävät uudet muistit toimitetaan 16 Gt:n paketeissa ja ensimmäisenä ne löytyvät vivon eilen julkaistuista X100-sarjan malleista.

www.io-tech.fi

edup · 17.02.2024

Griffin sanoi:
Heh ihan vain takaisin. Mallit vievät muistia reippaasti ja 4090:nkin muisti tahtoo loppua helposti kesken.
Jos ja kun meillä on malli, joka vaatii esim 32 tai 64 gigaa ja sitä hyödynnetään suorittimella, jossa on paljon rinnakkaisuutta, niin on selvää, että cachet auttaa kehnohkosti ja kaistaa tarvitaan.. Ja mitä isompi AI suoritin, niin sitä rinnakkaisempi se on, jollon se kaistankin tarve kasvaa siksi kokoajan.

Jos sitä kaistaa ei tarvittaisi, niin GPU voisi vallanhyvin käyttää koneen keskusmuistia lisämuistina. Nyt asia on kuitenkin AI leikeissä niin, että ei voida, kun on liian paska kaista, niin nopeus tippuu olemattomiin..

4090:sta kannattaa lisäksi muistaa, että se on etupäässä suunniteltu näyttikseksi, eikä varsinaisesti AI laskentaan. AIhin kykeneviä yksiköitä on vain lätkaisty sekaan, jotta voidaan tehdä niillä tiettyjä kuvanparannus ym kikkoja.

Ei se valtava datamäärä noissa malleissa loju siellä mustissa vain varastossa, vaan sitä tarvitaan sieltä eri paikoista ja mitä rinnakkaisempi suoritin, niin sitä useammasta paikasta ja sitä enemmän.

Ei peruskuluttaja kouluttele mitään malleja, vaan hyödyntää jo opetettuja malleja monenlaisiin käyttötarkoituksiin (usein edes ymmärtämättä että taustalla on joku neuroverkko). Ja kun puhutaan mallien inferenssistä sen opettamisen sijaan, on muistinkulutus ihan muuta luokkaa. Käytännössä se johtuu siitä, että opetusvaiheessa käytännössä koko verkko parametreineen pitää olla muistissa, koska painoja päivitetään backpropagationilla. Inferenssivaiheessa riittää pelkkä forward pass, jolloin tulosta voidaan laskea layer kerrallaan eteenpäin, ja sen jälkeen kun tulokset on saatu siirrettyä seuraavalle layerille, voidaan aiempi heivata ulos muistista. Käytännössä muistinkäyttöä rajoittaa siis kaksi perättäistä layeriä, jotka ovat muistinkäytöltään suurimmat, eikä koko verkon layerit, joita voi olla tuhansia ja tuhansia. Inferenssivaiheen muistinkulutus on siksi murto-osia siitä, mitä opetusvaiheessa tarvitaan. Noilla NPU:lla sitten taas vain saadaan nopeutettua sitä inferenssivaiheen laskentaa, jotta se mallilla generoitava asia, mitä ikinä onkaan, saadaan nopeammin lasketuksi ja käyttäjä ei joudu odottelemaan.

Huhu: M4 ja A18 tulevat sisältämään selvästi järeämmät tekoälyprosessorit

Banhammer

Banhammer

Chief Karpfen

Kapitalisti

Chief Karpfen

Kapitalisti

Chief Karpfen

Kapitalisti

Kapitalisti

Chief Karpfen

Chief Karpfen

Kapitalisti

Chief Karpfen

Kapitalisti

Chief Karpfen

Kapitalisti

Chief Karpfen

Chief Karpfen

Chief Karpfen

Chief Karpfen

Uutiset

Statistiikka

Hinta.fi