Paikallisen AI:n kokoonpanot

Liittynyt
23.01.2018
Viestejä
937
AMD Strix Halo eli AMD Ryzen AI Max+ 395 yhdessä 128GB muistin kanssa on oiva ajoalusta suurempienkin kielimallien ajamiseen. Strix Halosta saa laitteen, jossa voi osoittaa 96 GB muistia GPU:lle kielimallin käyttöön. Koska tässä on edelleen kyse PC:stä, voi laitetta käyttää niin Linuxin kuin Windowsin kanssa. Kielimallien ajoon paras yhdistelmä lienee tällä hetkellä Ubuntu Linux 24.04 + Rocm 7.0-ohjelmisto sekä vLLM itse kielimallien ajamiseen,

Strix Halo-laitteita saa pöytätyöasemana useammaltakin toimittajalta. Frame.Work on myynyt omaa laitettaan jo toista kuukautta, mutta Minisforumin uusi MS-S1 MAX on tullut myyntiin juuri uutena vaihtoehtona Frame.Workille. Frame.Work "barebone" ilman SSD-levyjä maksaa 2359 eur. Toisaalta Minisforumin saa muutaman päivän ajan 200 eur alennuksella kokonaishintaan 2199 eur ja tähän sisältyy myös 2 TB:n SSD. Jos siis tehokas kokoonpano kielimallien testailuun kiinnostaa, niin nyt kannattaa toimia.

200 eur alennuksen saa seuraavalla koodilla:

Copy Your Exclusive Discount Code:S1MAX

Coupon validity period:9.26-10.3 PST

Frame.Workin taas saa tilattua täältä:
Tästä artikkelista saa käsitystä mihin Strix Halo pystyy:
Edit:
Kotikäyttöön budjetiltaan sopivia ratkaisuja, joissa voi ajaa yhtä suuria kielimalleja ei ole markkinassa järin paljon saatavilla. Strix Halon lisäksi on ainakin Nvidian DGX Spark, jonka ilmoitettu hinta USA:ssa on luokkaa 4000$. Toimitukset eivät ole vielä alkaneet ja suorituskykytestejä ei ole saatavilla. DGX Halo on ARM-prosessoreihin perustuva alusta, joka käyttää omaa sille tehtyä Linux-jakelua.
 
Viimeksi muokattu:
Mikä tuossa on parempaa? DGX Spark maksaa melkein tuplat vs Strix Halo, tukee parhaimmillaankin FP4-liukulukuja ja ei ole läheskään niin yleiskäyttöinen kuin Strix Halo, josta voit tehdä vaikka peli-PC:n, kun kielimallien ajaminen ei enää innosta.

Se AI-suorituskyky - ainakin paperilla. Tämähän oli geneerinen ketju, eikä pelkkä Strix Halo?
 
Se AI-suorituskyky - ainakin paperilla. Tämähän oli geneerinen ketju, eikä pelkkä Strix Halo?
DGX Sparkin suorituskykytestejä ei edelleenkään löydy mistään, joten sen suorituskyvystä ei osaa kukaan sanoa mitään. Mutta speksien mukaan se ei tue FP8-quantisoidun kielimallin ajamista.

DGX Sparkia ei myöskään pysty vielä ostamaan. Nvidian forumilla ennakkovarauksen tehneet innokkaat odottavat tuskaisena tietoa toimitusten aloittamisesta.
 
DGX Sparkin suorituskykytestejä ei edelleenkään löydy mistään, joten sen suorituskyvystä ei osaa kukaan sanoa mitään. Mutta speksien mukaan se ei tue FP8-quantisoidun kielimallin ajamista.

DGX Sparkia ei myöskään pysty vielä ostamaan. Nvidian forumilla ennakkovarauksen tehneet innokkaat odottavat tuskaisena tietoa toimitusten aloittamisesta.

Saako sitä aloitusviestin Strix Halo -tuotetta tänään kaupoista?
 
Saako sitä aloitusviestin Strix Halo -tuotetta tänään kaupoista?
Strix Haloa on toimitettu eri muodoissaan jo kuukausia ja siitä löytyy runsaasti suorituskykytestejä. Minisforumin Strix Halo julkaistiin juuri ja toimitukset alkavat kuukauden päästä. Frame.Workia on toimitettu jo pari kuukautta, joskin kysyntä on niin suurta, että jos tilaat sellaisen nyt, niin saat omasi vuoden lopussa,

DGX Sparkia ei ole toimitettu asiakkaille ensimmäistäkään.

Frame.workin saa tilattua täältä: Configure Framework Desktop DIY Edition (AMD Ryzen™ AI Max 300 Series)
 
Ehkä kannattaa vaihtaa ketjun otsikko "Strix Halo -desktopit", tms. , kun vaihtoehtoja kohdataan tällaisella vihamielisyydellä.
 
Ehkä kannattaa vaihtaa ketjun otsikko "Strix Halo -desktopit", tms. , kun vaihtoehtoja kohdataan tällaisella vihamielisyydellä.
Puutuin väitteeseesi: "Tuossa olisi parempi". Perusteluksi ei riitä linkki Nvidian tuotesivulle ja perustelemattoman väitteen kyseenalaistaminen ei ole "vihamielisyyttä". On hienoa, jos lokaalien kielimallien ajamiseen on useita vaihtoehtoja, mutta en osta ajatusta, että 2x kalliimpi DGX Spark on automaattisesti "parempi" - etenkin, kun DGX Sparkista ei ole yhtään suorityskykytestiä saatavilla mistään. Julkisten tietojen perusteella se on nopeudeltaan suunnilleen RTX 5070-tasoa.
 
Viimeksi muokattu:
Testasin 5090:lla ja macbook pro m4 max:lla ollaman kautta gpt-oss:120b mallia promptilla "kirjoita pitkä tarina keravan kirvesmurhaajasta". 5090:en muistinvähyydestä johtuen macbook pro m4 max oli 4x nopeampi kuin 5090:en. Miten lie nuo amd:n härpättimet jaksaisivat, puolet m4 max:in nopeudesta?

Sivuhuomiona, että imho. tuo 120B malli on niin huono etten edelleenkään käyttäisi lokaaleja malleja versus maksulliset pilvihärpättimet. Varsinkin kun lokaalirauta ja siihen laitettu raha mätänee käsiin, pilvessä rauta päivittyy vuosittain.

5090:en
1759151002302.png


macbook pro m4 max 128GB
1759151066439.png


Sama prompti gpt-oss:20b mallilla 5090 215.2token/s ja m4 max 85.5 token/s. Tässä näkee miten raaka suorituskyky puhuu kun muistinmäärä ei tule esteeksi. Tosin m4 max ottean huomioon virrankulutuksen on melko upea vs. 5090. Voipi toki olla, että tuollainen prompti liian keveä ja ei rasita gpu:ta maksimaalisesti. Voi myös olla, että ollamaa ei ole yhtä hyvin optimoitu eri raudoille niin vertailut epäreiluja.
 
Viimeksi muokattu:
Sama prompti gpt-oss:20b mallilla 5090 215.2token/s ja m4 max 85.5 token/s. Tässä näkee miten raaka suorituskyky puhuu kun muistinmäärä ei tule esteeksi. Tosin m4 max ottean huomioon virrankulutuksen on melko upea vs. 5090. Voipi toki olla, että tuollainen prompti liian keveä ja ei rasita gpu:ta maksimaalisesti. Voi myös olla, että ollamaa ei ole yhtä hyvin optimoitu eri raudoille niin vertailut epäreiluja.
Phoronix on testannut jotain malleja Strix Halolla ja esim gpt-oss:20b:llä testit antoivat ulos 500 - 1200 tokenia per/s. Alempi luku perustuu ROCm 7:ään ja korkeampi Vulkaniin. Testaan itse kun saan tilaamani Minisforumin.
Joku Reddit-käyttäjä on testannut tuota gpt-oss:120b-mallia Strix Halolla ja saanut Ollamalla tulokseksi 3750 t/s promt eval.
 
Viimeksi muokattu:
Phoronix on testannut jotain malleja Strix Halolla ja esim gpt-oss:20b:llä testit antoivat ulos 500 - 1200 tokenia per/s. Alempi luku perustuu ROCm 7:ään ja korkeampi Vulkaniin. Testaan itse kun saan tilaamani Minisforumin.
Joku Reddit-käyttäjä on testannut tuota gpt-oss:120b-mallia Strix Halolla ja saanut Ollamalla tulokseksi 3750 t/s promt eval.
Perustin heiton nopeudesta muistikaistaan. Aika hyvin llm suorituskyky skaalaa muistikaistan suhteen. Halo strix about 256GB/s, m4 max 546GB/s ja 5090:en 1800GB/s (pyöreät ei tarkat numerot, kokoluokka oikea)

Menee omenia ja appelsiineja vertailuksi kun käytetään eri frameworkkeja ja eri prompteja. Mä käytän ollamaa sen helppouden vuoksi vaikka ei ole optimaalisimman nopea. Todellisuudessa en ole noilla lokaaleille löytänyt käyttötarkoitusta kun niiden tuottama laatu ei riitä versus pilvi. Pilvi muutenkin halpaa versus jos pitää ostaa käsiin mätänevää rautaa. Mulla toi m4 max ja 5090:en muista kuin llnm syistä, mutta bonus että voi llm:ia testailla lokaalisti.

Mulle relevantit lokaalit ai-kuormat löytyy davinci resolve, skylum luminar neo, topaz video/photo/gigapixel jne. appseista. mäkillä reissunvarrelta akunvarassa ja kotosalla 5090:lla.
 
Viimeksi muokattu:
Juu itsekin olen ajoittain kokeillut local malleja koodin tekemiseen mutta kyllä niiden tulos on ainakin yhdellä näyttiksellä niin surkeaa verrattuna GPT-5, claude ja vastaaviin malleihin että itse käytän näyttistä lähinnä kuvien ja VR-kokemusten generoimiseen missä suorituskyky onkin sitten todella hyvä.
 
Phoronix on testannut jotain malleja Strix Halolla ja esim gpt-oss:20b:llä testit antoivat ulos 500 - 1200 tokenia per/s.
Toi on prompt processing nopeus. Eli kun annat sille 12000 tokenin pituisen uutisartikkelin ja käskyn kirjoittaa tiivistelmän siitä niin se käsittelee tuon promptin 10 sekunnissa, jos pp = 1200t/s.

Text generation testissä näkyy tulos 73,15 t/s, eli se kirjoittaa ulostaa vastausta promptiisi tuota vauhtia. Tg nopeus tosin putoaa mitä pidempi konteksti kyseessä.
 

Statistiikka

Viestiketjuista
288 464
Viestejä
4 943 356
Jäsenet
79 487
Uusin jäsen
petterihakala

Hinta.fi

Back
Ylös Bottom