AMD julkaisi ohjeet DeepSeek R1 -kielimallin ajoon paikallisesti

Kaotik

Banhammer
Ylläpidon jäsen
Liittynyt
14.10.2016
Viestejä
22 862
DeepSeek R1 -kielimalli on ollut viime päivien puheenaihe, joka aiheutti muun muassa lähes biljoonan dollarin loven Yhdysvaltain teknologiayritysten arvoon osakemarkkinoilla.
AMD on julkaissut nyt ohjeet, miten kielimallia voi pyörittää paikallisesti omalla koneella Ryzen AI -prosessoreilla ja Radeon-näytönohjaimilla. Löydät ohjeen lähdelinkin takaa.
Paikallisesti pyöritettävät mallit perustuvat kevyempiin "distill-versioihin" Qwen- ja Llama-malleista ja niitä on saatavilla useina versioina.

Yhtiön David McAfee julkaisi lisäksi suorituskykyvertailun, jonka mukaan Radeon RX 7900 XTX peittoaa DeepSeek R1:n pyörityksessä paitsi NVIDIAn GeForce RTX 4080 Superin, myös GeForce RTX 4090:n yhtä poikkeusta lukuunottamatta.



Lähde: Experience the DeepSeek R1 Distilled 'Reasoning' Models on AMD Ryzen™ AI and Radeon™
 
Pikemminkin päinvastoin. Pelaajien kortit alkaa kelpaamaan tekoälyhommiin ja ne on kahta pahemmin kortilla.
Eikun Nvidia joutuu laskemaan hintaa ja AMD mahdollisesti mukana jos kilpa menee villiksi.
Vai eikö Nvidia ole ollut parempi siinä?
Edit: Tähän asti nvidian kortit ovat kelvanneet vaikka ovatkin kalliita koska oikeisiin verrattuna halpoja?
 
Eikun Nvidia joutuu laskemaan hintaa ja AMD mahdollisesti mukana jos kilpa menee villiksi.
Vai eikö Nvidia ole ollut parempi siinä?
Edit: Tähän asti nvidian kortit ovat kelvanneet vaikka ovatkin kalliita koska oikeisiin verrattuna halpoja?

Eiköhän pelikortit menneet enemmänkin louhijoille kun hinnat menivät aiemmin aivan hulluksi. AI-hommissa pelikortit lienevät harrastepuuhasteluissa toimivia. Eikä se DeepSeek millään armeijalla 4090 (Ti Super-dupereita) sitä tekoälyään kouluttanut.
 
Eiköhän pelikortit menneet enemmänkin louhijoille kun hinnat menivät aiemmin aivan hulluksi. AI-hommissa pelikortit lienevät harrastepuuhasteluissa toimivia. Eikä se DeepSeek millään armeijalla 4090 (Ti Super-dupereita) sitä tekoälyään kouluttanut.
Louhijoillehan ne menivät ennen AI vouhotusta.
Mutta eikös 4090 vientiä rajoitettu Kiinaan rampautettuilla piireihin juuri sen takia että niitä käytetään AI hommiin?
 
Se varsinainen Deepseek R1, josta kohkataan nyt kaikkialla on 685 miljardilla parametrillään reippaat 20x suurempi kuin tämä kuvaajassa esiintyvä 32B distill malli.

Eli kotikoneella ei nyt ihan vielä kuintekaan o1 tai Claude 3.5 kilpailijaa pyöritellä.
 
Sehän riippuu aika pitkälle siitä mitä mallilta haluaa. Ei sille.nyt Internetin kaikkea tietoa tartte syöttää, mutta paikallisesti esim. kaikki paikalliset tiedostot, dokumentit ja ohjeistukset niin pääsee spesifissä käyttötapauksessa jo aika paljon pidemmälle.

Noin yleisesti voisi sanoa (kuten Conputerfile videossaan toi esiin), että deepseek tuo ko. mallien ajon esim. Yliopistotason maksukyvyn ääreen joka aiemmin ei ollut mahdollista (ja malli on tietty avoin ja tutkimuspapereita julkaistu joka on kullanarvoista vs. nämä suljetut mallit).
 
Se varsinainen Deepseek R1, josta kohkataan nyt kaikkialla on 685 miljardilla parametrillään reippaat 20x suurempi kuin tämä kuvaajassa esiintyvä 32B distill malli.

Eli kotikoneella ei nyt ihan vielä kuintekaan o1 tai Claude 3.5 kilpailijaa pyöritellä.
Vähän asiaa tuntevana, miten käytännössä vaikuttaa toi kevennetty distill malli kuluttajan käytössä?
 
Vähän asiaa tuntevana, miten käytännössä vaikuttaa toi kevennetty distill malli kuluttajan käytössä?
Riippuu käytöstä ja siitä miten onnistunut tuo tislaus on ollut.

Joku ei varmaan edes huomaa eroa, toinen ei voisi sitä edes käyttää samaan käyttötarkoitukseen.
 
Vähän asiaa tuntevana, miten käytännössä vaikuttaa toi kevennetty distill malli kuluttajan käytössä?
Isompi malli älykkäämpi, esim. ratkoo todennäköisemmin jonkun matemaattisen ongelman tai koodaustehtävän oikein.

Tuo Alibaban Qwen 2.5 32B malli on kyllä tämän hetken huippu kokoluokassaan ja nämä reasoning finetunet lisäävät kyvykkyyttä.

R1 distill taitaa olla benchmarkeissa parempi kuin Alibaban oma QwQ-32B-Preview, jossa sama reasoning perusidea ja pohjautuu samaan Qwen 2.5 malliin.
 
Kiinassa tuplaavat 4090 korttien muistin. Siihen puuhaan on ihan valmistuslinjoja. 4090 tuplamuistilla olisi itsellekin sellainen jytky, ette oksat pois. Muistipiirit siis korvataan isomilla. Tuossa hommassa on se riskinä, että Nvidia hankaloittaa tuollaisen muistimodatun mallin toimintaan vähintään ajureiden osalta.
 
Jos huhut pitävät paikkansa ja Blackwell sarjan RTX6000 kortissa todella 96GB, on se pienille toimijoille todella mielenkiintoinen vaihtoehto. 96GB on jo kohtuu hyvä määrä muistia kortissa. Moni ostaa varmaan kotiinkin sellaisen. Deepseekin mallikirjoa en ole vielä katsellut, että miten suuren mallin siitä tuollaiseen 96GB korttiin voisi laittaa.
 
Mistään mitään tietämättä Nvidia L4/L40/L40s varmaan sopis AI hommiin paremmin kuin pelikortit?
 
Omissa testeissä R1 70B imaisee reilun 50GB muisti kun yrittää ratkoa leetcode/advent of code(AoC) tyylisiä koodaushaasteita. R1 70B ei osannut ratko AoC luukkuja. Ratkaisuyritys kesti m4 max macbook pro:lla kymmeniä minuutteja. Verrokkina samat luukut ratkesivat muutamissa kymmenissä sekunneissa käyttämällä pilviversiota openai o1 ja anthropic claude sonnet 3.5.

Mikään lokaali kielimalli mitä olen testannut ei ole ollut minulle järkevä korvike isoille konesalirautaa vaativalle raudalle. Olen testannut qwen coder 32B, llama3.3 70B(4bit, 8bit) ja r1 70B.

Ilmeisesti se r1 malli mikä toimii hyvin on 650B ja ei kyllä sitten enää mahdu mihinkään pelikorttipohjaiseen rautaan kun vaatinee muistia jotain 500GB+ jos extrapoloi lineaarisesti 70B mallin käyttämästä muistimäärästä.
 
Omissa testeissä R1 70B imaisee reilun 50GB muisti kun yrittää ratkoa leetcode/advent of code(AoC) tyylisiä koodaushaasteita. R1 70B ei osannut ratko AoC luukkuja. Ratkaisuyritys kesti m4 max macbook pro:lla kymmeniä minuutteja. Verrokkina samat luukut ratkesivat muutamissa kymmenissä sekunneissa käyttämällä pilviversiota openai o1 ja anthropic claude sonnet 3.5.

Mikään lokaali kielimalli mitä olen testannut ei ole ollut minulle järkevä korvike isoille konesalirautaa vaativalle raudalle. Olen testannut qwen coder 32B, llama3.3 70B(4bit, 8bit) ja r1 70B.

Ilmeisesti se r1 malli mikä toimii hyvin on 650B ja ei kyllä sitten enää mahdu mihinkään pelikorttipohjaiseen rautaan kun vaatinee muistia jotain 500GB+ jos extrapoloi lineaarisesti 70B mallin käyttämästä muistimäärästä.
Se R1 671B vaatii yli 400 GB RAMia. Ajan sitä onnistuneesti omalla koneella (jossa on 512 GB), mutta pelkällä CPU:lla se on hidas kuin mikä. 70B toimii osittain kiihdytettynä 32GB:n näytönohjaimella ihan asiallisesti.
 
Se R1 671B vaatii yli 400 GB RAMia. Ajan sitä onnistuneesti omalla koneella (jossa on 512 GB), mutta pelkällä CPU:lla se on hidas kuin mikä. 70B toimii osittain kiihdytettynä 32GB:n näytönohjaimella ihan asiallisesti.
Mulla macbook pro m4 max 128GB muistilla millä testannut. AoC luukun 1 kokonaisuudessaan heittää saatteilla "solve the following problem using python. Solve examples given in problem statement and input in file input.txt. Print out all solutions" + paste AoC päivän 1 ongelmien osista 1 ja 2 niin imaisee reilun 50GB ja jyrsii jotain 10min+ ennen kuin koodi putkahtaa ulos. Se koodi minkä tekee ei ole toimiva. o1 mini ja claude sonnet pilviversiot ratkoo saman muutamassa kymmenessä sekunnissa ja tuottaa toimivan koodin. R1 70B ei saanut muutaman iteroinninkaan jälkeen toimivaa koodia kasaan.

Väittävät että isoin r1 malli osaisi noita ratkoa. Mua kiinnosti enempi mihin tuo 70B malli pystyy kun sitä voi mun laitteistolla ajaa lokaalisti kohtuullisella suorituskyvyllä.

esim tätä voi kokeilla: Day 1 - Advent of Code 2024
 
Mistään mitään tietämättä Nvidia L4/L40/L40s varmaan sopis AI hommiin paremmin kuin pelikortit?
Muistin määrä on se olennainen tekijä - kun liikutaan budjeteissa, joissa kotikäyttäjä voi ylipäätään liikkua. Halvimmat Nvidia L40-kortit maksavat Ebay:ssä noin 5000 eur, joten aika kalliiksi menee.
 
Mistään mitään tietämättä Nvidia L4/L40/L40s varmaan sopis AI hommiin paremmin kuin pelikortit?
Jos tarvii lähinnä toimivuutta eikä maksiminopeutta/CUDA niin applen tai amd:n järein APU isoimmalla muistilla on hyvä lähtökohta. macbook pro m4 max 128GB muistilla + ollama on ihan kiva. AMD mainostaa 2.2x 4090:en kun 4090:en muisti ei riitä tuon testatun mallin ajamiseen
1738332213059.webp


Toinen vaihtoehto 1 tai kaksi nvidian digits laatikkoa. Noita saa kaksi niitattua ajamaan yhtä mallia. Hinta alkaen 3000e per boxi missä 128GB muistia. Kahdella boxilla 2xgpu ja 256GB muistia NVIDIA Project DIGITS: The World’s Smallest AI Supercomputer. Digits ei ole maksiminopea, pointti sillä olla enemmän devausalusta kuin tuotantokone.

5090 pelipiiristä on huhuttu 96GB muistilla tulevaa pro korttia. Tällainen on varmaan realistisin paras ratkaisu kotikoneeseen. Edellisen generaation 48GB muistilla pro(ada rtx 6000) kortti maksoi jotain 7ke +-. Liekö tuo uusi 96GB muistilla oleva kalliimpi: Nvidia's RTX Blackwell workstation GPU spotted with 96GB GDDR7 — ProViz GPU with a 512-bit bus
 
Viimeksi muokattu:

Statistiikka

Viestiketjuista
266 454
Viestejä
4 610 011
Jäsenet
75 854
Uusin jäsen
Shapez

Hinta.fi

Back
Ylös Bottom