Järeä tehotyöasema muistikaistarajoitteiseen työhön

  • Keskustelun aloittaja Keskustelun aloittaja edup
  • Aloitettu Aloitettu
Liittynyt
17.10.2016
Viestejä
5 930
Olisi tarve päivittää työasemaa sellaiseksi, että isompien LLM:ien lokaali inferenssi onnistuu siedettävällä nopeudella. Kun aloin selvitellä vaihtoehtoja, kävi ilmi että valinnanvaraa on yllättävänkin paljon. Siksi kyselisinkin mille pohjalle porukka täällä lähtisi rakentamaan moista? Alla listattuna joitain rajoitteita ja ajatuksia eri osa-alueista.

GPU:
Pinkkaa ei ole 2x80GB tai 4x48GB kortteihin, joten realismia on ajaa CPU+GPU inferenssiä, silloin kun isommista (kvantisoimattomista) malleista kyse. GPU-päivitys on tarkoitus tehdä vasta Nvidian seuraavien työasemakorttien julkaisun jälkeen (oletetuksena sen tapahtuminen vuodenvaihteen 24/25 tienoilla), ja nitkutella siihen asti nykyisellä V100:lla. Todennäköisesti tuossa päivityksessä sitten tullaan tavoittelemaan nopeus/hinta-suhteeltaan järkevää komboa 80-96 GB VRAM:illa. Jos korttien nykyhinnoittelua katsoo, niin todennäköinen skenaario on 2 kappaletta jotakin työasemakorttia.

RAM:
Määrällisesti muistia tarvitaan nykyaikaisten 70B mallien kanssa 70B * 2 tavua = 140 GB, ja siihen sitten OS:lle ja muulle "ylimääräiselle" tauhkalle omansa, eli käytännössä 192GB on järkevä minimi. Ajettaessa CPU+GPU inferenssiä, käytännön pullonkaula on muistikaista, eli tämän optimointi niin muistikanavien kuin muistien nopeudenkin osalta on yksi avaintekijä tässä kokoonpanossa.

CPU:
Kun nyt järeämpää konetta muutoinkin kootaan, niin ehkä järkevää on lähteä liikenteeseen 16-ytimisistä prossuista. Kokoonpanon ikääntyessä voi sitten tarpeen vaatiessa vaihtaa järeämpää tilalle, kunhan käytettynä niiden hinnat on tulleet vähän alas.

SSD/HDD:
Datat istuu verkkolevyllä 10 Gbe verkon päässä, eli koneelle itsessään ei tarvita kovin kummoista tallennustilaa. Joku perus PCIe 5.0 NVMe 1-2 TB tilalla riittää mainiosti.

Emolevy/kotelo/PSU:
Tarkoitus on koota työpöytäkone, eli räkkiasenteiset laitteet jätetään tällä kertaa hyllyyn. Koska koneella on myös muuta käyttöä, niin yleisesti ottaen modernit liitännät (USB ym.) on plussaa, eli kaikista karsituimmat serverilankut ei houkuttele. Virtalähde ylimitoitetaan niin että kokoonpanoon voi myöhemmin sen puolesta lisätä surutta nuo aiemmin mainitut 2 näytönohjainta.

Jos uutena hankkisi, niin hintaa esim. Threadripper Pro-pohjaiselle kokoonpanolle tulisi helposti 5600e (ALV0), ilman että kauheasti säästelee mistään. Mutta mitä mieltä muut, löytyykö esim. Xeonista tai Epycistä haastajaa?
 
Kyllähän se Threadripperi (tai Epyc) on ainut vaihtoehto, jos tarvitaan paljon PCI-e linjoja niille myöhemmille näytönohjaimille, ja muistikaistaa. Xeonit eivät ole itselle oikein tuttuja, mutta ymmärtääkseni yleinen konseus on se, että AMD dominoi joka alalla, niin työpöytä-, workstation-, kuin palvelinhommissakin.

(Budjettivaihtoehto voisi olla perus X670 ProArt emo (x8/x8 Gen5 CPU + integroitu 10GbE), ja lyödä täyteen muistia eli 192GB, mutta se on vain dual channel eikä quad channel (TRX50) tai jopa octa channel (WRX90) kuten tuossa buildissasi on. Mutta se ei taida olla vaihtoehto ollenkaan, kun kyseessä oli juurikin se muistinopeus avaintekijänä.)

Epyc on enemmänkin palvelintavaraa ja niissä on pienemmät kellot, Threadripperillä voit jopa lyödä PBO:n päälle ja ottaa kaiken ylimääräisen irti. Silloin kannattaa harkita vesijäähdytystä, ainakin jos mennään tuosta 24-ytimisestä eteenpäin (7965WX ei ole siis 16c) - edellisen generaation 64c threadripper taisi imaista 800W PBO:lla :) Tuo PBO:n löytyminen BIOSista on kylläkin merkkikohtaista. Se myös varoittelee että takuu menisi, mutta AMD:n mukaan näin ei ole - ylikellotus ei evää takuuta. Jos prosessorin ylikellottaa rikki, takuu evätään - pelkkä PBO:n enablointi ei pitäisi mitään hajottaa.

Epyc-emolevyissä myös on aika karsitut liitännät, eli työkonekriteerisi mukaan tuo Threadripper soveltuu siihen parhaiten.

Redditissä on keskustelua, Asuksessa saattaa olla ongelmia: Should I be avoiding ASUS for new Threadripper Pro builds?

Video joka kannattaa katsoa:


Tämän jäähyn pitäisi olla parempi kuin NH-U14S, Noctualla kuulemma throttlaa:

Nuo emot syövät myös rdimmejä, jos virheenkorjaus (ECC) on tärkeää, niistä on julkaistu jopa "kellotettuja" versioita (normaalisti 4800MT/s), mutta hintakin nousee..:
(g.skillejä tarvii 2kpl)

Tuossa Define 7 XL:ssä on vain 9 PCI-e paikkaa, en kyllä tiedä minkä kokoisia nuo työasemanäyttikset ovat (1-slot?), mahtuuko tuohon yhdeksään kaikki tarvittava, myös mahdolliset lisäkortit tulevaisuudessa?

Tässä on 11kpl, ja tilaa alimman slotin kohdalla niin paljon, että ei haittaa vaikka laittaa 3-slottisen monsterin alimpaan pci-e slottiin:

Sitä ei löytynyt Datatronicilta, mutta varmaan pyynnöstä lisäävät sivuille. Löytyy kyllä eräältä kilpailijalta.. (Kaksi eri versiota, kiinteällä tai lasisella sivupaneelilla.)

1719876542854.png
 
Viimeksi muokattu:
Jos työkäyttöön tulossa niin suosittelen kyllä isojen valmistajien onsite-takuullisia koneita, että mahdollisen vian iskiessä systeemit ovat pois käytöstä mahdollisimman vähän aikaa eikä tarvitse itse lähteä mihinkään sitä koteloa kanniskelemaan. Esim. Lenovon P620 -masiinan 16-ytimisellä threadripperillä ja 8x 32 gigalla muistia (rdimm, ecc) saa noin viiteen ja puoleen tonniin. Toki siellä konfiguraattorissa on sitten kaikenlaista mitä voi ruksia mukaan, ja hinta pikkuhiljaa kipuaa.
 
Jos työkäyttöön tulossa niin suosittelen kyllä isojen valmistajien onsite-takuullisia koneita, että mahdollisen vian iskiessä systeemit ovat pois käytöstä mahdollisimman vähän aikaa eikä tarvitse itse lähteä mihinkään sitä koteloa kanniskelemaan. Esim. Lenovon P620 -masiinan 16-ytimisellä threadripperillä ja 8x 32 gigalla muistia (rdimm, ecc) saa noin viiteen ja puoleen tonniin. Toki siellä konfiguraattorissa on sitten kaikenlaista mitä voi ruksia mukaan, ja hinta pikkuhiljaa kipuaa.

Periaatteessa esim. Lenovon P8 on ihan vaihtoehto, ja onsite-takuu on toki plussaa. Päivä/viikko ei kuitenkaan ole pilalla, eikä laskutus katkea vaikka tämä kyseinen kone olisikin välillä huollossa. Kyse onkin ehkä enemmänkin siitä, mikä on sen valinnan kokonaishinta mukaanlukien kompromissit laitteistossa. P620 on edellisen sukupolven malli DDR4-muisteilla, joten siksi P8 ennemmin. ECC-muisteille ei ole suoraa tarvetta, ja niiden ongelmana on tuo hitaampi nopeus (jos siis on rajattu esim. Lenovon konfiguraattorin valintoihin), mikä on oma kustannuksensa sekin.

Täytynee kuitenkin selvitää, miten Lenovon takuu suhtautuu siihen että koneeseen myöhemmin lisää ylimääräiset GPU:t. Jos taas hankkii nekin suoraan Lenovolta, maksaa korteista helposti preemiota 500-1000e per kappale.
 
1719906310620.png

Tuo P620 on edellistä generaatiota, P8 on 7000-sarjalaista. Tuossa on 16-ytiminen myöskin (aloituksen prossu 24-ytiminen), muisti hitaampaa.. ja nämä kyllä mainittiinkin jo yläpuolella näköjään :)
 
Kingston Technology FURY Renegade Pro, halvin hinta 1438€ nämä mainitsemani (ECC) muistit tuossa wall of text postauskessa eivät kyllä ole hirveästi kalliimat kuin aloituksen muistit, ja ovat myös Asrock WRX90:n QVL listalla.

E: tosin hitaammat kuin aloituksen 6800-cl32. Valintojen maailma, ECC vai nopeus. Pitäisi löytää benchmarkkia paljonko tulee eroa 6000-cl32 vs 6800-cl32.
 
Viimeksi muokattu:
Kingston Technology FURY Renegade Pro, halvin hinta 1438€ nämä mainitsemani (ECC) muistit tuossa wall of text postauskessa eivät kyllä ole hirveästi kalliimat kuin aloituksen muistit, ja ovat myös Asrock WRX90:n QVL listalla.

E: tosin hitaammat kuin aloituksen 6800-cl32. Valintojen maailma, ECC vai nopeus. Pitäisi löytää benchmarkkia paljonko tulee eroa 6000-cl32 vs 6800-cl32.

Joo, tuo ECC:n nopeuskritiikki kohdistui ensisijaisesti tuohon vaihtoehtoon, jossa esim. Lenovolta otettaisiin tuo paketti. Siinä ne oli 4800 maksimissaankin, je se ero alkaa olla jo aika julma. Tuo 6000 vs 6800 lienee ihan ok, kun sillä nyt kuitenkin saa sen ECC:n vaikkei sille ihan suoraa tarvetta olekaan.
 
Mites Mac Studio? Vahvuus noissa maceissa on erittäin nopea muistikaista ja bonuksena eivät vie paljoa virtaa
  • 24‑ytiminen prosessori, 60‑ytiminen näytönohjain ja 32‑ytiminen Neural Engine
  • 192 Gt yhteismuistia
  • Muistikaista 800 Gt/s
    Hinta 6739e
 
Mites Mac Studio? Vahvuus noissa maceissa on erittäin nopea muistikaista ja bonuksena eivät vie paljoa virtaa
  • 24‑ytiminen prosessori, 60‑ytiminen näytönohjain ja 32‑ytiminen Neural Engine
  • 192 Gt yhteismuistia
  • Muistikaista 800 Gt/s
    Hinta 6739e

Mietin itseasiassa aloitusta kirjoittaessani että pitäisikö Mac Studiosta mainita. Se teoriassa spekseiltään täyttäisi kriteerit inferenssin osalta (liittyen mm. muistikaistaan), mutta oma käsitykseni on että mm. Torchin ja bitsandbytesin tuki Applen raudalle on edelleen aika heikoissa kantimissa jos malleja on myös tarkoitus opettaa (tai useimmissa tapauksissa vain fine-tuning riittää).

Mäkkiin siirtyminen muutoinkaan ei ole kovin houkutteleva vaihtoehto itselleni vaikka sen kanssa varmasti oppisikin elämään.

Ja olennaisimpana vielä se, että vähän myöhemmäksi ajateltu GPU-ostostelu hieman nyt aikaistui, kun onnistuin nappaamaan asiakaspalautukseen päätyneen RTX 6000 Adan pilkkahintaan. Eli tuonkaan osalta mäkki ei enää ole vaihtoehto.
 
Koska kyseessä on inferenssi niin useimpien LLMin suhteen oleellisinta on saada maksimoitua muistikaista, CPU tehoa on omien kokemuksien perusteella helposti enemmän kuin inferenssissä saa hyödynnettyä.

Eli jos ei ole riittävästi VRAM niin sitten tarvitaan avuksi CPU (tai useampi) ja emo mitkä tukee mahdollisimman montaa muistikaistaa. Eli niitä 12 jos mahdollista. Epyc yhdistelmät on aika hyvä suunta aloittaa pohdinta kokoonpanosta, jos ei mennä ihan minimi budjetilla. Sikälikin että niistä voi valita sellaisen, johon voi lisäillä sittemmin useamman GPU:n tai laskentakortin kun tulee tarpeelliseksi. Neljästä kuuteen kpl sellaisia on hyvä pidemmän tähtäimen tavoite, jos ei (sähkö)lasku pelota.

Mac Studiolla pääsisi myös helposti liikkeelle.

Sellainen huomio myös että Q8 malleilla saa yleensä niin kelvollisia tuloksia, ettei ole tarpeen käyttää mallista FP16 /BF16 versiota, jolloin muistia säästyy kun sitä ei tarvita 2x vaan 1x.
 

Uusimmat viestit

Statistiikka

Viestiketjuista
261 304
Viestejä
4 534 403
Jäsenet
74 784
Uusin jäsen
vanahabanjo

Hinta.fi

Back
Ylös Bottom