AMD julkaisi ohjeet DeepSeek R1 -kielimallin ajoon paikallisesti

Kaotik · 30.01.2025

DeepSeek R1 -kielimalli on ollut viime päivien puheenaihe, joka aiheutti muun muassa lähes biljoonan dollarin loven Yhdysvaltain teknologiayritysten arvoon osakemarkkinoilla.
AMD on julkaissut nyt ohjeet, miten kielimallia voi pyörittää paikallisesti omalla koneella Ryzen AI -prosessoreilla ja Radeon-näytönohjaimilla. Löydät ohjeen lähdelinkin takaa.
Paikallisesti pyöritettävät mallit perustuvat kevyempiin "distill-versioihin" Qwen- ja Llama-malleista ja niitä on saatavilla useina versioina.

Yhtiön David McAfee julkaisi lisäksi suorituskykyvertailun, jonka mukaan Radeon RX 7900 XTX peittoaa DeepSeek R1:n pyörityksessä paitsi NVIDIAn GeForce RTX 4080 Superin, myös GeForce RTX 4090:n yhtä poikkeusta lukuunottamatta.

Lähde: Experience the DeepSeek R1 Distilled 'Reasoning' Models on AMD Ryzen™ AI and Radeon™

Kovaluu · 30.01.2025

Mielenkiintoista. Toivottavasti vähän laskee AI hintaa meidän pelaajien korteista kun saadaan mahdollista kilpailua.

Timo 2 · 30.01.2025

Kovaluu sanoi:
Mielenkiintoista. Toivottavasti vähän laskee AI hintaa meidän pelaajien korteista kun saadaan mahdollista kilpailua.

Pikemminkin päinvastoin. Pelaajien kortit alkaa kelpaamaan tekoälyhommiin ja ne on kahta pahemmin kortilla.

Kovaluu · 30.01.2025

Timo 2 sanoi:
Pikemminkin päinvastoin. Pelaajien kortit alkaa kelpaamaan tekoälyhommiin ja ne on kahta pahemmin kortilla.

Eikun Nvidia joutuu laskemaan hintaa ja AMD mahdollisesti mukana jos kilpa menee villiksi.
Vai eikö Nvidia ole ollut parempi siinä?
Edit: Tähän asti nvidian kortit ovat kelvanneet vaikka ovatkin kalliita koska oikeisiin verrattuna halpoja?

Geazrie · 30.01.2025

Kovaluu sanoi:
Eikun Nvidia joutuu laskemaan hintaa ja AMD mahdollisesti mukana jos kilpa menee villiksi.
Vai eikö Nvidia ole ollut parempi siinä?
Edit: Tähän asti nvidian kortit ovat kelvanneet vaikka ovatkin kalliita koska oikeisiin verrattuna halpoja?

Eiköhän pelikortit menneet enemmänkin louhijoille kun hinnat menivät aiemmin aivan hulluksi. AI-hommissa pelikortit lienevät harrastepuuhasteluissa toimivia. Eikä se DeepSeek millään armeijalla 4090 (Ti Super-dupereita) sitä tekoälyään kouluttanut.

Kovaluu · 30.01.2025

Geazrie sanoi:
Eiköhän pelikortit menneet enemmänkin louhijoille kun hinnat menivät aiemmin aivan hulluksi. AI-hommissa pelikortit lienevät harrastepuuhasteluissa toimivia. Eikä se DeepSeek millään armeijalla 4090 (Ti Super-dupereita) sitä tekoälyään kouluttanut.

Louhijoillehan ne menivät ennen AI vouhotusta.
Mutta eikös 4090 vientiä rajoitettu Kiinaan rampautettuilla piireihin juuri sen takia että niitä käytetään AI hommiin?

Halpuuttaja · 30.01.2025

Se varsinainen Deepseek R1, josta kohkataan nyt kaikkialla on 685 miljardilla parametrillään reippaat 20x suurempi kuin tämä kuvaajassa esiintyvä 32B distill malli.

Eli kotikoneella ei nyt ihan vielä kuintekaan o1 tai Claude 3.5 kilpailijaa pyöritellä.

weetabix · 30.01.2025

Sehän riippuu aika pitkälle siitä mitä mallilta haluaa. Ei sille.nyt Internetin kaikkea tietoa tartte syöttää, mutta paikallisesti esim. kaikki paikalliset tiedostot, dokumentit ja ohjeistukset niin pääsee spesifissä käyttötapauksessa jo aika paljon pidemmälle.

Noin yleisesti voisi sanoa (kuten Conputerfile videossaan toi esiin), että deepseek tuo ko. mallien ajon esim. Yliopistotason maksukyvyn ääreen joka aiemmin ei ollut mahdollista (ja malli on tietty avoin ja tutkimuspapereita julkaistu joka on kullanarvoista vs. nämä suljetut mallit).

gratnak · 30.01.2025

Halpuuttaja sanoi:
Se varsinainen Deepseek R1, josta kohkataan nyt kaikkialla on 685 miljardilla parametrillään reippaat 20x suurempi kuin tämä kuvaajassa esiintyvä 32B distill malli.

Eli kotikoneella ei nyt ihan vielä kuintekaan o1 tai Claude 3.5 kilpailijaa pyöritellä.

Vähän asiaa tuntevana, miten käytännössä vaikuttaa toi kevennetty distill malli kuluttajan käytössä?

pomk · 30.01.2025

gratnak sanoi:
Vähän asiaa tuntevana, miten käytännössä vaikuttaa toi kevennetty distill malli kuluttajan käytössä?

Riippuu käytöstä ja siitä miten onnistunut tuo tislaus on ollut.

Joku ei varmaan edes huomaa eroa, toinen ei voisi sitä edes käyttää samaan käyttötarkoitukseen.

Halpuuttaja · 30.01.2025

gratnak sanoi:
Vähän asiaa tuntevana, miten käytännössä vaikuttaa toi kevennetty distill malli kuluttajan käytössä?

Isompi malli älykkäämpi, esim. ratkoo todennäköisemmin jonkun matemaattisen ongelman tai koodaustehtävän oikein.

Tuo Alibaban Qwen 2.5 32B malli on kyllä tämän hetken huippu kokoluokassaan ja nämä reasoning finetunet lisäävät kyvykkyyttä.

R1 distill taitaa olla benchmarkeissa parempi kuin Alibaban oma QwQ-32B-Preview, jossa sama reasoning perusidea ja pohjautuu samaan Qwen 2.5 malliin.

PRORAUTA · 31.01.2025

Kiinassa tuplaavat 4090 korttien muistin. Siihen puuhaan on ihan valmistuslinjoja. 4090 tuplamuistilla olisi itsellekin sellainen jytky, ette oksat pois. Muistipiirit siis korvataan isomilla. Tuossa hommassa on se riskinä, että Nvidia hankaloittaa tuollaisen muistimodatun mallin toimintaan vähintään ajureiden osalta.

PRORAUTA · 31.01.2025

Jos huhut pitävät paikkansa ja Blackwell sarjan RTX6000 kortissa todella 96GB, on se pienille toimijoille todella mielenkiintoinen vaihtoehto. 96GB on jo kohtuu hyvä määrä muistia kortissa. Moni ostaa varmaan kotiinkin sellaisen. Deepseekin mallikirjoa en ole vielä katsellut, että miten suuren mallin siitä tuollaiseen 96GB korttiin voisi laittaa.

Obi-Lan · 31.01.2025

Mistään mitään tietämättä Nvidia L4/L40/L40s varmaan sopis AI hommiin paremmin kuin pelikortit?

finWeazel · 31.01.2025

Omissa testeissä R1 70B imaisee reilun 50GB muisti kun yrittää ratkoa leetcode/advent of code(AoC) tyylisiä koodaushaasteita. R1 70B ei osannut ratko AoC luukkuja. Ratkaisuyritys kesti m4 max macbook pro:lla kymmeniä minuutteja. Verrokkina samat luukut ratkesivat muutamissa kymmenissä sekunneissa käyttämällä pilviversiota openai o1 ja anthropic claude sonnet 3.5.

Mikään lokaali kielimalli mitä olen testannut ei ole ollut minulle järkevä korvike isoille konesalirautaa vaativalle raudalle. Olen testannut qwen coder 32B, llama3.3 70B(4bit, 8bit) ja r1 70B.

Ilmeisesti se r1 malli mikä toimii hyvin on 650B ja ei kyllä sitten enää mahdu mihinkään pelikorttipohjaiseen rautaan kun vaatinee muistia jotain 500GB+ jos extrapoloi lineaarisesti 70B mallin käyttämästä muistimäärästä.

MOS6510 · 31.01.2025

finWeazel sanoi:
Omissa testeissä R1 70B imaisee reilun 50GB muisti kun yrittää ratkoa leetcode/advent of code(AoC) tyylisiä koodaushaasteita. R1 70B ei osannut ratko AoC luukkuja. Ratkaisuyritys kesti m4 max macbook pro:lla kymmeniä minuutteja. Verrokkina samat luukut ratkesivat muutamissa kymmenissä sekunneissa käyttämällä pilviversiota openai o1 ja anthropic claude sonnet 3.5.

Mikään lokaali kielimalli mitä olen testannut ei ole ollut minulle järkevä korvike isoille konesalirautaa vaativalle raudalle. Olen testannut qwen coder 32B, llama3.3 70B(4bit, 8bit) ja r1 70B.

Ilmeisesti se r1 malli mikä toimii hyvin on 650B ja ei kyllä sitten enää mahdu mihinkään pelikorttipohjaiseen rautaan kun vaatinee muistia jotain 500GB+ jos extrapoloi lineaarisesti 70B mallin käyttämästä muistimäärästä.

Se R1 671B vaatii yli 400 GB RAMia. Ajan sitä onnistuneesti omalla koneella (jossa on 512 GB), mutta pelkällä CPU:lla se on hidas kuin mikä. 70B toimii osittain kiihdytettynä 32GB:n näytönohjaimella ihan asiallisesti.

finWeazel · 31.01.2025

MOS6510 sanoi:
Se R1 671B vaatii yli 400 GB RAMia. Ajan sitä onnistuneesti omalla koneella (jossa on 512 GB), mutta pelkällä CPU:lla se on hidas kuin mikä. 70B toimii osittain kiihdytettynä 32GB:n näytönohjaimella ihan asiallisesti.

Mulla macbook pro m4 max 128GB muistilla millä testannut. AoC luukun 1 kokonaisuudessaan heittää saatteilla "solve the following problem using python. Solve examples given in problem statement and input in file input.txt. Print out all solutions" + paste AoC päivän 1 ongelmien osista 1 ja 2 niin imaisee reilun 50GB ja jyrsii jotain 10min+ ennen kuin koodi putkahtaa ulos. Se koodi minkä tekee ei ole toimiva. o1 mini ja claude sonnet pilviversiot ratkoo saman muutamassa kymmenessä sekunnissa ja tuottaa toimivan koodin. R1 70B ei saanut muutaman iteroinninkaan jälkeen toimivaa koodia kasaan.

Väittävät että isoin r1 malli osaisi noita ratkoa. Mua kiinnosti enempi mihin tuo 70B malli pystyy kun sitä voi mun laitteistolla ajaa lokaalisti kohtuullisella suorituskyvyllä.

esim tätä voi kokeilla: Day 1 - Advent of Code 2024

MOS6510 · 31.01.2025

Obi-Lan sanoi:
Mistään mitään tietämättä Nvidia L4/L40/L40s varmaan sopis AI hommiin paremmin kuin pelikortit?

Muistin määrä on se olennainen tekijä - kun liikutaan budjeteissa, joissa kotikäyttäjä voi ylipäätään liikkua. Halvimmat Nvidia L40-kortit maksavat Ebay:ssä noin 5000 eur, joten aika kalliiksi menee.

finWeazel · 31.01.2025

Obi-Lan sanoi:
Mistään mitään tietämättä Nvidia L4/L40/L40s varmaan sopis AI hommiin paremmin kuin pelikortit?

Jos tarvii lähinnä toimivuutta eikä maksiminopeutta/CUDA niin applen tai amd:n järein APU isoimmalla muistilla on hyvä lähtökohta. macbook pro m4 max 128GB muistilla + ollama on ihan kiva. AMD mainostaa 2.2x 4090:en kun 4090:en muisti ei riitä tuon testatun mallin ajamiseen

Toinen vaihtoehto 1 tai kaksi nvidian digits laatikkoa. Noita saa kaksi niitattua ajamaan yhtä mallia. Hinta alkaen 3000e per boxi missä 128GB muistia. Kahdella boxilla 2xgpu ja 256GB muistia NVIDIA Project DIGITS: The World’s Smallest AI Supercomputer. Digits ei ole maksiminopea, pointti sillä olla enemmän devausalusta kuin tuotantokone.

5090 pelipiiristä on huhuttu 96GB muistilla tulevaa pro korttia. Tällainen on varmaan realistisin paras ratkaisu kotikoneeseen. Edellisen generaation 48GB muistilla pro(ada rtx 6000) kortti maksoi jotain 7ke +-. Liekö tuo uusi 96GB muistilla oleva kalliimpi: Nvidia's RTX Blackwell workstation GPU spotted with 96GB GDDR7 — ProViz GPU with a 512-bit bus

Halpuuttaja · 31.01.2025

Ota näistä nyt sitten selvää, kun Nvidian artikkelissa 4090 selvästi 7900 XTX:ää edellä:

Accelerate DeepSeek Reasoning Models With NVIDIA GeForce RTX 50 Series AI PCs

With up to 3,352 TOPS of AI horsepower, NVIDIA GeForce RTX 50 Series GPUs can run the DeepSeek family of distilled models faster than anything on the PC market.

blogs.nvidia.com

MOS6510 · 03.02.2025

Halpuuttaja sanoi:
Ota näistä nyt sitten selvää, kun Nvidian artikkelissa 4090 selvästi 7900 XTX:ää edellä:

Accelerate DeepSeek Reasoning Models With NVIDIA GeForce RTX 50 Series AI PCs

With up to 3,352 TOPS of AI horsepower, NVIDIA GeForce RTX 50 Series GPUs can run the DeepSeek family of distilled models faster than anything on the PC market.

blogs.nvidia.com

Vasta Deepseek-r1:70b alkaa antaa laadultaan riittävän hyvää tulosta itselleni. Ja noihin peliohjaimiin se ei mahdu.

Halpuuttaja · 03.02.2025

MOS6510 sanoi:
Vasta Deepseek-r1:70b alkaa antaa laadultaan riittävän hyvää tulosta itselleni. Ja noihin peliohjaimiin se ei mahdu.

Mahtuu, mutta vain raskaammin kvantisoituna. IQ2_S 24 gigaiseen ja IQ3_XS menisi 5090:n 32 gigaan. Laatu toki heikkenee, tosin ei se alkuperäisen 16-bittisen tasolla ole tuossa AMD:n ja Nvidian testeissä käytetyllä Q4_K_M kvantillakaan.

Tämä jo ehkä vanhentunutta dataa kun testattu alkuperäisellä Llama 3 mallilla ja Llama 3.3 on varmastikin jo jonkin verran tiiviimpi jolloin laatu kärsii raskaammin kvantisoinnista, mutta tuo IQ3_XS ei välttämättä ole vielä kuilun reunalta pudonnut:

Graavi tuolta, uudempia ja parempiakin testejä saattaa olla internetin syövereissä:

Reddit - Dive into anything

www.reddit.com

MOS6510 · 03.02.2025

Halpuuttaja sanoi:
Mahtuu, mutta vain raskaammin kvantisoituna. IQ2_S 24 gigaiseen ja IQ3_XS menisi 5090:n 32 gigaan. Laatu toki heikkenee, tosin ei se alkuperäisen 16-bittisen tasolla ole tuossa AMD:n ja Nvidian testeissä käytetyllä Q4_K_M kvantillakaan.

Tämä jo ehkä vanhentunutta dataa kun testattu alkuperäisellä Llama 3 mallilla ja Llama 3.3 on varmastikin jo jonkin verran tiiviimpi jolloin laatu kärsii raskaammin kvantisoinnista, mutta tuo IQ3_XS ei välttämättä ole vielä kuilun reunalta pudonnut:

Ajan itse Deepseek-r1:70b:tä (Q4_K_M) Radeon Pro W7800-ohjaimella (32 GB) Ollamalla. Ei mahdu kokonaan näytönohjaimen muistiin (vaatisi 43 GB), mutta suorituskyky on silti ihan kohtuullinen. Toki CPU:na on 64-core EPYC Milan.

Sommite · 03.02.2025

Timo 2 sanoi:
Pikemminkin päinvastoin. Pelaajien kortit alkaa kelpaamaan tekoälyhommiin ja ne on kahta pahemmin kortilla.

Voisi kuvitella, että AI-piirimarkkinoille on helpompi uusien toimijoiden tulla kuin pelikorttimarkkinoille. Pelikorttien pitää varmistaa yhteensopivuus kaiken maailman pelien kanssa, kun taas AI-piiri laskee geneerisiä operaatioita.

MOS6510 · 03.02.2025

Sommite sanoi:
Voisi kuvitella, että AI-piirimarkkinoille on helpompi uusien toimijoiden tulla kuin pelikorttimarkkinoille. Pelikorttien pitää varmistaa yhteensopivuus kaiken maailman pelien kanssa, kun taas AI-piiri laskee geneerisiä operaatioita.

Mutta AI-kortin tulee tukea suurta joukkoa erilaisia rajapintoja.

finWeazel · 03.02.2025

Sommite sanoi:
Voisi kuvitella, että AI-piirimarkkinoille on helpompi uusien toimijoiden tulla kuin pelikorttimarkkinoille. Pelikorttien pitää varmistaa yhteensopivuus kaiken maailman pelien kanssa, kun taas AI-piiri laskee geneerisiä operaatioita.

Softa ai-konesalissa on kompleksista. Linkin lukee niin saa käsityksen missä haasteet softapuolella tulevat niin low level toteutuksista kuin skaalaamisesta konesalitasolle

However, the reality is that the on paper specs as given below are not representative of performance that can be expected in a real-world environment. If AMD could deliver the below marketed performance with this memory, it would be a very strong competitor in the market.

The only reason we have been able to get AMD performance within 75% of H100/H200 performance is because we have been supported by multiple teams at AMD in fixing numerous AMD software bugs. To get AMD to a usable state with somewhat reasonable performance, a giant ~60 command Dockerfile that builds dependencies from source, hand crafted by an AMD principal engineer, was specifically provided for us, since the Pytorch Nightly and public PyTorch AMD images functioned poorly and had version differences. This docker image requires ~5 hours to build from source and installs dependencies and sub-dependencies (hipBLASLt, Triton, PyTorch, TransformerEngine),.

a huge difference compared to Nvidia, which offers a pre-built, out of the box experience and takes but a single line of code. Most users do not build Pytorch, hipBLASLt from source code but instead use the stable release

MI300X vs H100 vs H200 Benchmark Part 1: Training - CUDA Moat Still Alive

Training Performance, User Experience, Usability, Nvidia, AMD, GEMM, Attention, Networking, InfiniBand, Spectrum-X Ethernet, RoCEv2 Ethernet, SHARP, Total Cost of Ownership

semianalysis.com

PRORAUTA · 04.02.2025

Nyt pitäisi saada kortti, jossa 1500GB ramia :psmoke:

Veikkaan kovasti, että nyt kun AMD vissiin yrittää kehittää jonkin sortin vastinetta Nvidialle, tulee seuraavassa sukupolvessa myös lippulaivatuote. Olettaisin, että 32GB kortti julkaistaan vihdoin AMD:n toimesta. Aina voi toki pettyä. Pettymyksien aikaa eletään ja odottaa saa ikuisesti mm 3nm tekkiä ja isomuistisia kortteja ylipäätään. Käyttökohteet laajenee koko ajan ja 32GB alkaa olla jo melko tuhnu.

Joku 48GB titan RTX 4000 euroon ois aika hyvä tuote tähän hetkeen.

MOS6510 · 04.02.2025

PRORAUTA sanoi:
Nyt pitäisi saada kortti, jossa 1500GB ramia

Veikkaan kovasti, että nyt kun AMD vissiin yrittää kehittää jonkin sortin vastinetta Nvidialle, tulee seuraavassa sukupolvessa myös lippulaivatuote. Olettaisin, että 32GB kortti julkaistaan vihdoin AMD:n toimesta. Aina voi toki pettyä. Pettymyksien aikaa eletään ja odottaa saa ikuisesti mm 3nm tekkiä ja isomuistisia kortteja ylipäätään. Käyttökohteet laajenee koko ajan ja 32GB alkaa olla jo melko tuhnu.

Joku 48GB titan RTX 4000 euroon ois aika hyvä tuote tähän hetkeen.

AMD:llä on jo Radeon Pro W7800 (32 GB) ja Radeon Pro W7900 (48 GB).

PRORAUTA · 05.02.2025

MOS6510 sanoi:
AMD:llä on jo Radeon Pro W7800 (32 GB) ja Radeon Pro W7900 (48 GB).

Muistelen hinnan olleen 3000 euron pintaan tuolle 32GB kortille. Sitten 5090 kortissa 2-5 x ai vääntöä .. niin ei hyvä. Tuo 32GB kortti on keskiluokan korttiin pohjaava. Nvidian 5090 on merkittävästi 7900XTX:ää nopeampi. Tuollainen W7900 on käytännössä isolla muistilla varustettu 7900XT / XTX luokan kortti. En usko, että siinä olisi arkkitehtuuri jostain maagisesta syystä parempi mitä kuluttaja XTX:ssä. "Ai-laskentaan".

MOS6510 · 05.02.2025

PRORAUTA sanoi:
Muistelen hinnan olleen 3000 euron pintaan tuolle 32GB kortille. Sitten 5090 kortissa 2-5 x ai vääntöä .. niin ei hyvä. Tuo 32GB kortti on keskiluokan korttiin pohjaava. Nvidian 5090 on merkittävästi 7900XTX:ää nopeampi. Tuollainen W7900 on käytännössä isolla muistilla varustettu 7900XT / XTX luokan kortti. En usko, että siinä olisi arkkitehtuuri jostain maagisesta syystä parempi mitä kuluttaja XTX:ssä. "Ai-laskentaan".

Ebay:stä löytyi käytettynä noin 2000 euroon. Ja kotikäyttäjän kielimallien ajamiselle suorituskyky on erittäin riittävä. Ei sen "arkkitehtuurin" tarvitse poiketa mitenkään; 32 GB tarjoaa hyvän tuen kohtuullisen kokoisille kielimalleille ja AMD:n Rocm-rajapinta toimii hyvin mm. Ollaman kanssa.

Radeon Pro W7800:sta on julkaistu myös 48 GB versio, jota saa alle kolmeen tonniin.

Linux support matrices by ROCm version — Use ROCm on Radeon GPUs

rocm.docs.amd.com

AMD julkaisi ohjeet DeepSeek R1 -kielimallin ajoon paikallisesti

Banhammer

¯\_(ツ)_/¯

Uutiset

Statistiikka

Hinta.fi

Arvostamme yksityisyyttäsi