AI-koodausavustimet, keskustelua AI-avustetusta koodaamisesta/skriptaamisesta/dokumentoinnista/...

Vaikka en oikein haluaisi Kiinaa tukea, niin toivon että nuo laittaisi API hinta painetta hyvlile länsimalleille, että sais niiden hintaa alaspäin.
Tässä tainnut olla suunta vimeisen vuoden aikana vain ylöspäin?

Edit: nuo kiinamalit halpoja tuollaiseen höpöilyyn, mutta kaikki totisemmat koodaukset menee 5.3-codex.
Kiinalla on oma lehmä ojassa, mutta ne on toisten ketjujen aiheita. En kiinaservereitä käyttäisi,... Länkkäriservereillä taas sitten on ihan sama hintadynamiikka kun ei ole valtion subventointia syystä x,y,z takana.

Länkkäreistä nvidia voi tulla pelastajaksi avoimissa malleissa. Avoimien mallien määrällä laskettuna nvidia taitaa olla isoin avoimien mallien tekijä. Nvidiassa sekin hyvä puoli, että tukevat omien rautojensa uusimpia ominaisuuksia kuten nvfp4:sta

Ei tokenien hinnoista kannata alkaa säikähtämään. Per token hinta kun pidetään laatu samana tulee niin kovaa alaspäin että jos ei tarvi kuin gpt5.4 tasoisen palvelun niin se säilyy halpana. Eri asia sitten jos haluaa käyttää uusinta, isointa ja kalleinta mallia. Näiden käyttö menee kategoriaan, firmat maksaa JOS saavat mallista enemmän hyötyä kuin mikä mallin kustannus on. Ihan sama argumentti että tarviiko kooderille ostaa nopein cpu vai riittääkö läppäri ja 4 corea(mennävuosina). Joillekin aika on rahaa, jotku yrittävät säästää itseänsä menestykseen.
 
Vaikka en oikein haluaisi Kinaa tukea, niin toivon että nuo laittaisi API hinta painetta hyvlile länsimalleille, että sais niiden hintaa alaspäin.
Tässä tainnut olla suunta vimeisen vuoden aikana vain ylöspäin?

Edit: nuo kiinamalit halpoja tuollaiseen höpöilyyn, mutta kaikki totisemmat koodaukset menee 5.3-codex.

Nämä tulevat rajatuksi alueittain aika pian ja sitä myötä kilpailu jonkinlaisen sääntelyn piiriin. Kallistuu siis.
 
Jos kuitenkin pidetään tän ketjun puitteissa ajatus niissä palveluissa mitä on tarjolla ja oletetaan asiakkaaksi yritys jonka työntekijöillä ei ennestään ole pelikonetta työpaikalla :) Semmonen ajatus, että pienempää deep seek flash mallia nopeasti ajava rauta maksaa noin 100ke, nvidian gb300 dgx station missä on 288GB hbm muistia ja syö 2kW, tällä saanee sen vajaa 300miljardia parametria mallin ajoon hyvällä suorituskyvyllä. 8ke pintaan saa 96GB muistilla olevaa gpu:ta. Tällä hetkellä ei kannata kuvitella kooderin työkäytössä korvaavansa pilveä 5090:lla ja 30miljardia parametria mallilla. Alkaa avokonttori lämpeneen ja sähkölaskut kattoon kun gb300 dgx stationeita nurkissa ns. riittävä määrä. Per token hinnalla gb300 dgx stationit tulee kalliimmaksi kuin nvl72 gb300:en, toisaalta nvl72:en olis 120-140kW, hintaa useampi miljoona ja vaatii paljon infralta asennuksen suhteen.

Pilvissä tulee 10x tokenihinta alaspäin per vuosi kun pidetään laatu vakiona. Palvelunhinta ja laatu voi hyvinkin olla saman vuoden päästä kuin tänään. Nykyisen päälle tulee kalliimpaa parempaa mallia. Subventoinnin voi siis ajankanssa poistaa pitämällä laadun&hinnan ennallaan kun tokenikustannus tulee alaspäin. Esim. nvidian vera-rubin loppuvuodesta pudottaa merkittävästi per token hintaa.

Voi toki ajatella raudan ilmaiseksi, samalla ajatusleikillä myös pilvitokenit ovat ilmaisia. Siinä on firman CFO ihmeissään kun "me tarvittas huomiseksi 100 kappaletta 5ke pc:ta että saadaan joka kooderille oma 5090 pönttö", versus käyt sanoon, että tarvittas 200e/kk pilvitilaus*100 huomenna. Ja se pilvi vielä tekee oleellisesti paremmin kuin 5090:en. Jo oikein CFO-maisesti ajattelee niin pilvipalvelun avulla lyhyentähtäimen säästetyt rahat voi sijoittaa jolloin saa korkoa korolle tai yrityksen bisneksiin versus iso pääoma vanhentuvassa raudassa.
No nyt meni vähän maalitolppien siirtelyksi, mutta skenaarioita on monia. Oma laskelma oli tehty nimenomaan vertailemaan pientä lokaalimallia vs premium pilvimalli, ja sovelluksena oli 100t/s utilisaatiolla agenttisovellus (autonomiset jatkuvasti puuhaavat). Tämä ei ota ollenkaan huomioon mallien laatua, jossa on epäilematta hurja ero. Ainoastaan piirtää kuvaa claw-tyyppisten sovellusten hinnasta extreme utilisaatiolla. Koodaus-chatit on asia erikseen. Ehkä suurin yllätys oli, kuinka isoksi hinta voisi mennä, jos premium apilla pistetään autominen agentti all-in :)

Toivottavasti oletus API-hintojen laskusta toteutuu. Aika paljon on myös vastakkaista näkemystä perustuen kysynnän kasvuun ja resurssien rajallisuuteen.
 
No nyt meni vähän maalitolppien siirtelyksi, mutta skenaarioita on monia. Oma laskelma oli tehty nimenomaan vertailemaan pientä lokaalimallia vs premium pilvimalli, ja sovelluksena oli 100t/s utilisaatiolla agenttisovellus (autonomiset jatkuvasti puuhaavat). Tämä ei ota ollenkaan huomioon mallien laatua, jossa on epäilematta hurja ero. Ainoastaan piirtää kuvaa claw-tyyppisten sovellusten hinnasta extreme utilisaatiolla. Koodaus-chatit on asia erikseen. Ehkä suurin yllätys oli, kuinka isoksi hinta voisi mennä, jos premium apilla pistetään autominen agentti all-in :)

Toivottavasti oletus API-hintojen laskusta toteutuu. Aika paljon on myös vastakkaista näkemystä perustuen kysynnän kasvuun ja resurssien rajallisuuteen.
Mä nyt mietin tän ketjun puitteissa niitä yrityksiä enkä pumpum koneiden omistajia. Ei primaarinen asiakas openai/anthropic/google/xai/google/meta AI-avustimille ole jaakko peräkammarissa vaan yritykset. Näillä yrityksillä juoksee palkkakustannukset mitkä esim. piilaaksossa on jo ihan perustason tekijöillä 200ke/vuosi+. Kun sulla on noin kallis ihminen töissä niin olisi tyhmää säästää työvälineessä jonka hinta on ihan murto-osa firman kokonaiskustannuksesta. Paremmat tekijät menee 500ke++ hintaan, mun liksa viimeiseksi jääneenä työvuotena olis mennyt miljoonan yli jos olisin tehnyt koko vuoden enkä 9kk.
 
Tuota Chatgpt tarjousta kun on vielä toukokuun lopppuun saakka niin ajattelimpa säästää API rahoja ja otin tuon max x5 tilauksen 100€.
Tuolla teetin parit isot hommat 5.5 max tilassa ja 5h usage on 85% jäljellä. Taisi olla nyt toukokuun nuo rajat tuplana, eli olisi käyttänyt nyt tavallisesti rajaa siten, että 70% 5h rajaa jäljellä. Ei huono, jos siis tätä ei aleta tyhmentämään.
Viikkorajaa on jäljellä 98%.
 
Tuota Chatgpt tarjousta kun on vielä toukokuun lopppuun saakka niin ajattelimpa säästää API rahoja ja otin tuon max x5 tilauksen 100€.
Tuolla teetin parit isot hommat 5.5 max tilassa ja 5h usage on 85% jäljellä. Taisi olla nyt toukokuun nuo rajat tuplana, eli olisi käyttänyt nyt tavallisesti rajaa siten, että 70% 5h rajaa jäljellä. Ei huono, jos siis tätä ei aleta tyhmentämään.
Viikkorajaa on jäljellä 98%.
OpenAI tuntuu hidastavan malleja jos on puutetta konesalikapasiteetista. Tämä imho. ihan ok. kun aina voi napsauttaa fast moden päälle ja tokenit palaa nopeammin. Ehkä noita tulee myöhemmin joku normal, fast, ultra-fast. OpenAI:n iso etu kyllä että he ovat olleet all in konesalikapasiteetin suhteen toisin kuin anthropic. Puol vuotta sitten vielä lööpeissä, että openai menee konkkaan kun tuhlaavat liikaa konesaleihin, nyt tilanne näyttää toisenlaiselta.
 
Tuo konesaleihin sijoittaminen tosiaan taitaa nyt OpenAi:lla maksaa takaisin ja Anthropic samaanaikaan tiukentaa vaan token kulutuksia.
 
Rajoittimeen iski 100$/kk openai tilaus. Tän pohjalta vois olla aika toivotonta mulle yrittää käyttää satasen tilausta sen jälkeen kun tuplatokenit kampanja loppuu.
You've hit your usage limit. Visit https://chatgpt.com/codex/settings/usage to purchase more credits or try again at Apr 28th, 2026 11:36 AM.
gpt5.5 osasi tehdä chunky-ruudun horisontaalisen keskityksen a500:lle mikä ei onnistunut claude code:lta. Ei osannut päätellä suoraan miten tuo tehdään vaan pyöritti iteraatiolooppia kunnes sai onnistumaan. Hyvin kuitenkin listasi lähestymistavat ja yksi kerrallaan etiäpäin + dokumentoi mikä ei toiminut. Erittäin järjestelmällinen lähestymistapa.

Samalla selvisi, että minunkannalta paras tapa integroida ruudunkaappaus ai:lle on OBS:in läpi. OBS:ia agentti komentelee websocketin läpi. AI osaa helposti kytkeä eri lähteet(ikkuna, kuvankaappauskortti jne) sceneen ja valita mitä kaapataan. Etäkoneiden kanssa toimii nätisti kun OBS voi olla minimoituna ja silti kaappauskortin kuvan saa otettua talteen. Samaisen OBS lähestymistavan avulla laitoin agentin optimoimaan rasteroijan kuvanlaatu/suorituskykyä. Saattoi olla että paloi tokeneita kuvientarkasteluun aika huolella tänään :)

1777240094597.png
 
Viimeksi muokattu:
Yritin saada Anthropicin Pro-vuositilausta hyvitykseen reilu kuukauden jälkeen, koska limitit ja suorituskyky.

Ei ainakaan suorilta onnistunut. Tarttee koittaa saada joku ihminen linjoille ja yrittää uudelleen.

Annan OpenAI:lle uuden mahdollisuuden, koska tää Clauden Pro on periaatteessa hyödytön. Vaikea kuvitella mikä taho hyötyisi tästä siten että ilmaistilauksella ei pärjäisi.

Toki Claude codeen pääsyn, mut eipä sielläkään oikein mitään voi esim Opuksella tehdä kun 5 h jäähy tulee minuuteissa vastaan.

Hauskaa kun ennen työpäivää aamuistunnolla kotona pitää lähettää yksi "hello" viesti claudelle että saa 5 h laskurin käynnistymään, jotta se resetoituis mahdollisimman nopeaan sitten ku pääsee röi :tdown:
 
Itse näkisin tämän niin, että nykyiset LLM on geneerisiä know-it-all malleja, joiden ajo koodauksessa toki toimii, mutta on tehotonta. Kun saadaan pelkästään koodaukseen, tai jopa tiettyyn koodi-kieleen koulutetut mallit riittävällä ymmärryksellä yhdistettynä AI-rautaan (tässä on tapahtumassa valtavia harppauksia pelkässä AI ajossa), jossa vielä viilataan throughputtia niin lokaalit mallit on täysin varteenotettavia ja kustannustehokkaita malleja, ilman, että sitä rautaa tarvisi joka vuosi uusia, korkeintaan se ajettava LLM malli vaihdetaan aina uudempaan ja paremmin optimoituun.

Itse huomannut, että spesifiset, juuri tiettyyn käyttötarkoitukseen optimoidut mallit on pelkässä throughputissa ihan ylivertaisia. Esim omassa projektissa käännetään tekstitykset halutusta kielestä toiseen.
40min videon tekstitykset Ryzen 5 3600 (AMD GPU joten ajetaan pelkällä CPU:lla) menee NLLB-200 (600M) 20 minuuttiin. Mistral-7B-v0.1 kautta ajettuna vähän yli 3 tuntia. Toki mallit ei ole edes koon puolesta vertailukelpoisia. Pointti lähinnä se, että tulevaisuudessa omat erikoistuneet mallit moneen käyttöön parempia kuin yleismallit.
 
Nyt on niin älytön laskelma että älä pliis jatka tekoälyavusteisesti. Täysin järjetöntä jättää lokaalista ajosta laitteiden hankintakustannus pois. Sähköä et tuohon hintaan siirtoineen ja veroineen saa. 24/7 käyttö tuolla tokenikulutuksella ei ole myöskään realismia.
Miten niin et saa? Meillä maksaa 11c/kWh siirtoineen ja veroineen.

Millä muuten ajat niitä pilvipalveluita? Eikö sekin kulu sitten pitäisi ottaa huomioon? Mitä laitteiden vanhenemiseen tulee, niin firmat tyypillisesti lisaavat koneet, eli kone kyllä vaihtuu säännöllisen epäsäännöllisesti.
 
Pointti lähinnä se, että tulevaisuudessa omat erikoistuneet mallit moneen käyttöön parempia kuin yleismallit.
Koodauksessa on sellainen vaikeus, että domaineja on kovin monenlaisia ja moni asia vaatii loogista ja matemaattista ajattelua. Toki jos mennään todella pieniin alueisiin kuten "webbisivujen generointi frameworkilla X " tai "rautaläheiset ajurit" niin sun väite pätee ja on mahdollista optimoida pienellä mallilla. Tän näkee jo tänään lokaaleilla pienillä malleilla kun ne voivat tykittää todella hyvännäköisen webbisivun/skriptin/algoritmin ulos mutta epäonnistuminen alkaa kun pitäisi soveltaa, ymmärtää tai tehdä kokonaan uutta. Hyvä esimerkki tästä tuo amiga500 chunky-ruutu keskitettynä joka on todella kompleksinen härpätin jota ei voi vain heittää lonkalta/opetusdatasta.

Toinen puoli sitä, että eihän tässä olla oikeasti hakemassa koodausavustinta vaan ratkaisua joka tekee yhä isompia ja isompia palasia itsenäisesti ja vähäisemmällä ohjeistuksella. Frontier pajat yrittävät saada pyörää käyntiin joka alkaisi tekemäänm AI tutkimusta ja liittyvät taskit kuten koodauksen itsenäisesti joka sitten nopeuttaisi AI kehitystä, seuraava parempi AI nopeuttaa edelleen kehitystä jne,... Homma on sitten valmis kun ihminen on tekevän puolen loopissa vain luovana voimana ja ehkä toisella puolella asiakkaana.

Koodauksen loogisen ja matemaattisen ja monien täysin erilaisten kontekstien vuoksi uskotaan, että mallien koodauskykyä parantamalla päästään lähemmäs yleistä keinoälyä. Kuulee sanottavan, että se joka voittaa koodausavustimet voittaa koko AI:n.
 
Viimeksi muokattu:
Itse näkisin tämän niin, että nykyiset LLM on geneerisiä know-it-all malleja, joiden ajo koodauksessa toki toimii, mutta on tehotonta. Kun saadaan pelkästään koodaukseen, tai jopa tiettyyn koodi-kieleen koulutetut mallit riittävällä ymmärryksellä yhdistettynä AI-rautaan (tässä on tapahtumassa valtavia harppauksia pelkässä AI ajossa), jossa vielä viilataan throughputtia niin lokaalit mallit on täysin varteenotettavia ja kustannustehokkaita malleja, ilman, että sitä rautaa tarvisi joka vuosi uusia, korkeintaan se ajettava LLM malli vaihdetaan aina uudempaan ja paremmin optimoituun.
Oma visio on, että homma siirtyy yhä pidemmälle hienomman granulariteetin dynaamisiin mixture of experts malleihin. Malli toimisi enemmän samaan tyyliin kuin ihmisen aivot, joissa aktiivisena on pieni osa kokonaiskapasiteetista kerrallaan. Jos aihepiiri siirtyy, voidaan lennosta vaihtaa myös neuroverkon osia GPU, CPU tai massamuistin välillä. Vielä pidemmälle vietynä voisi myös mallin tilausvaiheessa kasata itse haluamistaan aihepiireistä. Eihän sitä tosiaan koodari-mallin tarvitse osata puutarhanhoitoa tai kvanttifysiikkaa.
 
Eihän sitä tosiaan koodari-mallin tarvitse osata puutarhanhoitoa tai kvanttifysiikkaa.
Äkkiseltään vois ajatella näin, mutta kun menee syvemmälle niin miten koodausmalli esim. debuggaa/järkeilee kvanttifysiikkasimulaation toimivuutta jos malli ei ymmärrä mitä ollaan tekemässä. Sama ongelma kuin ihmiselläkin jos saa vain speksin ja pitäisi tehdä toimiva,... ei monestikaan onnistu speksin pohjalta kun speksi ei ole tarpeeksi tarkka, löytyy rakoja ja kun ei ole ymmärrystä niin rakojen täyttäminen epäonnistuu, pahimmillaan tulee lähes toimiva jossa erittäin vaikeasti havaittavia ja ymmärrettäviä virheitä.

MoE on kova juttu, mutta välissä tarvii jutella eri experttien kanssa niin paljon että tulee paljon aktivointeja eri MoE palasille sen sijaan että vietettäisiin erittäin pitkiä aikoja "vain" koodaus MoE:ssa. Tän huomaa hyvin 5090;lla kun on malleja joiden MoE:t teoriassa mahtuu hyvin 5090:en muistiin mutta todellisuudessa suorituskyky ankea kun mennään pcie:n yli keskusmuistiin. 1/4:en 5090:en raa-asta suorituskyvystä omaava m4 max pro 128GB mikä mulla on 2x+ nopeempi kuin 5090:en näissä skenaarioissa(itse testattua mutua se pohjalta mita lokaaleita testannut)

En ylläty jos tulee jotain pieniä koodausmalleja missä on skooppina tyyliin full web stack X ja se pieni malli on sairaan hyvä tekemään juuri sillä yhdellä pinolla.
 
Viimeksi muokattu:
Eikös nämä nykyiset MoE inferensserit kuitenkin lataa niin suuren osan MoE mallistakin GPUn muistiin kuin vaan mahtuu ja loput jää sitten CPUn hoideltavaksi. Itse ajon aikana, ei sitten enää neuronit liiku, vaan GPU ja CPU hoitaa omat alussa jaetut neuronit. Tässä olisi paljon optimoinnin varaa, jos voitaisiin oikeasti tarpeen mukaan pitää ne tarvittavat neuronit siellä nopeammassa GPU muistissa ja dynaamisesti siirtää niitä eri muistien välillä. Ei varmaan triviaali muutos, mutta toimiessaan mullistaisi lokaalien mallien ajamisen.
 
Eikös nämä nykyiset MoE inferensserit kuitenkin lataa niin suuren osan MoE mallistakin GPUn muistiin kuin vaan mahtuu ja loput jää sitten CPUn hoideltavaksi. Itse ajon aikana, ei sitten enää neuronit liiku, vaan GPU ja CPU hoitaa omat alussa jaetut neuronit. Tässä olisi paljon optimoinnin varaa, jos voitaisiin oikeasti tarpeen mukaan pitää ne tarvittavat neuronit siellä nopeammassa GPU muistissa ja dynaamisesti siirtää niitä eri muistien välillä. Ei varmaan triviaali muutos, mutta toimiessaan mullistaisi lokaalien mallien ajamisen.
Ongelma on se, että moni asia ei ole niin yksiselitteinen että voisi vain yksi MoE työskennellä. GPU on niin nopea, että kun puhutaan sekuntien, minuuttien,... taskeista liikennettä tulee eri MoE:n välille ja joudutaan swappaamaan pcie:n yli.

Käytännössä MoE asia ainakin minulle näyttäytynyt 5090:en kanssa niin, että mallin saa helposti päälle kun iso osa päämuistissa, todellinen suorituskyky heikko kun koko ajan vaihdellaan mikä MoE on gpu muistissa. pcie kaistannopeus alkaa dominoimaan. Oleellisesti hitaampi m4 max pro vetää 5090:en kölinali. Suorituskyky aneeminen.

Konesaleissa MoE on ratkaistu niin, että MoET on jaettu usealle eri gpu:lle, yhden gpu:n muistissa MoEt a,b,c, seuraavassa gpu:ssa d,e,f jne. Vältetään swappaaminen, liikenne reititetään oikealle gpu:lle. Reitittäminen vaatii sen että pysytään yhden räkin sisällä ja käytetään erittäin nopeaa väylää esim. nvidian tapauksessa nvlink. AMD:lta tulee helios tän vuoden loppupuolella joka ratkaisee amd:n osalta räkkitason skaalauksen. Konesalissa myös tehdään yhdellä gpu:lle kontekstin luonti ja toisella gpu:lla tokenien luonti, tämäkin nopeuttaa paljon kun saadaan rinnakkaistettua ja vähennettyä painetta muisti ja laskentakapasiteetin suhteen. Ehkä tämmöisen MoE:n jakamisen voisi tehdä jollain 4x5090 koneella, jos joku jaksaisi vääntää,... Tosin ne hinnat paketilla alkaa pompsahtaan niin että pilvi tuntuu kohta ilmaiselta.

Tässä kohtaa esim. se 100ke maksava gb300:en vois olla kova kun siellä on about 400GB/s cpu:n muistin nopeus ja cpu-gpu välillä nvlink c2c:n kautta kaistaa 900GB/s. Jos sopivasti menee voipi käytellä cpu:n cachea hyväksi eikä mennä pelkän päämuistin nopeuden varassa.
 
Viimeksi muokattu:
todellinen suorituskyky heikko kun koko ajan vaihdellaan mikä MoE on gpu muistissa
Itse asiassa niitä malleja ei vaihdella ajon aikana (tämä on oma käsitys, saa mielellään korjata). Suorituskyky on heikko siksi, että CPU joutuu hoitamaan koko mallin laskennan niiltä osin kuin se ei alussa mahdu GPU muistiin.
 
Itse asiassa niitä malleja ei vaihdella ajon aikana (tämä on oma käsitys, saa mielellään korjata). Suorituskyky on heikko siksi, että CPU joutuu hoitamaan koko mallin laskennan niiltä osin kuin se ei alussa mahdu GPU muistiin.
Ehkä kirjoitin epäselvästi. Tarkoitin että sulla on esim. 128biljoonaa parametria malli missä on X eri MoE:ta. Kun yrität ajaa tuollaista niin 5090:en kyykkii pcie:n nopeudelle kun kuorma vaatii useamman eri MoE:n käyttöä. Joudutaan swappaamaan pcie:n yli MoE:ta sisään mitä käytetään. m4 max missä tuo koko malli mahtuu muistiin vetää 5090:en kölinali. Mun käytännön kokemus on, että tuollainen 100biljoonaa x MoE:ta malli kyllä toimii 5090:lla mutta suorituskyky todella aneeminen.

--

Päivittelin edelliseen postaukseen miten tämä MoE on ratkaistu konesalissa yms. Kannattaa vilkaista uusiksi.
 
Itse asiassa niitä malleja ei vaihdella ajon aikana (tämä on oma käsitys, saa mielellään korjata). Suorituskyky on heikko siksi, että CPU joutuu hoitamaan koko mallin laskennan niiltä osin kuin se ei alussa mahdu GPU muistiin.
Te puhutte nyt kai eri asioista. Sinä puhut expertin vaihtamisesta ja @finWeazel kai koko MoE-mallin vaihtamisesta. Yksittäisiä experttejä ei tosiaan vaihdella lennosta yhdenkään MoE:n ajossa. Ja syy on se sama, PCIe-väylän kaista ja/tai muistikaista rajoittaa sitä niin paljon, että se ei ole kannattavaa.
 
Te puhutte nyt kai eri asioista. Sinä puhut expertin vaihtamisesta ja @finWeazel kai koko MoE-mallin vaihtamisesta. Yksittäisiä experttejä ei tosiaan vaihdella lennosta yhdenkään MoE:n ajossa. Ja syy on se sama, PCIe-väylän kaista ja/tai muistikaista rajoittaa sitä niin paljon, että se ei ole kannattavaa.
Se mun pointti kiteytettynä, että nuo "mulla on iso malli missä paljon pieniä MoE-experttejä" ei ainakaan mun käytössä ole ratkaissut suorituskykyongelmaa. Hitaasti menee kun realistiset oikeat kuormat mitä yrittänyt johtanut erittäin huonoon suorituskykyyn kun koko ajan swapataan pcie:n yli. m4 max missä enempi muistia vetää 5090:en kölinali.

Jos oikeasti on kuorma mitä voi ajaa pienellä mallilla parempi ajaa sitä pientä mallia kuin kuvitella että iso malli missä paljon pieniä MoE ratkaisuja olisi hyvä.

Nuo MoE:t alkaa oleen kovia siinä kohtaa kun ne esim. konesalissa jaetaan samassa räkissä ajoon niin että MoE:t on eri gpu:iden muistissa ja liikennettä reititetään erittäin nopean räkin sisäisen verkon läpi. Tän saman voisi tehdä 128biljoonaa parametria mallille jollain 4x5090 laatikolla jos viitseliäisyys riittäisi. Ehkä pcie kaista riittää tuossa, ehkä ei, mutta ainakin MoEt olisivat aina gpu:n muistissa.
 
Se mun pointti kiteytettynä, että nuo "mulla on iso malli missä paljon pieniä MoE-experttejä" ei ainakaan mun käytössä ole ratkaissut suorituskykyongelmaa. Hitaasti menee kun realistiset oikeat kuormat mitä yrittänyt johtanut erittäin huonoon suorituskykyyn kun koko ajan swapataan pcie:n yli.
Llama.cpp:llä kun experttejä offloadataan prossulle niin se niiden experttien inferenssi myös ajetaan prossulla eikä PCIe mun ymmärtääkseni tossa ruuhkaudu tai ole pullonkaulana vaan pikemminkin prossun suorituskyky/keskusmuistin muistikaista. PCIe:n yli toki kommunikoidaan jotain, mutta ei swapata mallin osia.
 
Se mun pointti kiteytettynä, että nuo "mulla on iso malli missä paljon pieniä MoE-experttejä" ei ainakaan mun käytössä ole ratkaissut suorituskykyongelmaa. Hitaasti menee kun realistiset oikeat kuormat mitä yrittänyt johtanut erittäin huonoon suorituskykyyn kun koko ajan swapataan pcie:n yli. m4 max missä enempi muistia vetää 5090:en kölinali.

Jos oikeasti on kuorma mitä voi ajaa pienellä mallilla parempi ajaa sitä pientä mallia kuin kuvitella että iso malli missä paljon pieniä MoE ratkaisuja olisi hyvä.

Nuo MoE:t alkaa oleen kovia siinä kohtaa kun ne esim. konesalissa jaetaan samassa räkissä ajoon niin että MoE:t on eri gpu:iden muistissa ja liikennettä reititetään erittäin nopean räkin sisäisen verkon läpi. Tän saman voisi tehdä 128biljoonaa parametria mallille jollain 4x5090 laatikolla jos viitseliäisyys riittäisi. Ehkä pcie kaista riittää tuossa, ehkä ei, mutta ainakin MoEt olisivat aina gpu:n muistissa.
Itselläkin vähän kaksijakoinen suhtautuminen MoE-malleihin. Nopeitahan ne on, mutta koodaushommissa on kyllä iso ero ~30B tiheän mallin ja jonkun vähän isomman A3B-MoE:n välillä sen tiheän mallin eduksi. Pitäisi jaksaa säätää ja testata joskus että olisiko joku Qwen3.6-35B-A3B riittävän nopea CPU:n päällä yksinkertaisiin tehtäviin, niin että pääagenttina toimiva isompi malli voisi delegoida sille kaikki helpot hommat.
 
Tässä nykyisessä MoE toteutuksessa on vielä paljon parannettavaa. Tulevaisuudessa expertit voisivat olla hyvin pieniä ja semanttisella organisoinnilla voitaisiin swapata muutamia lennosta tarpeen mukaan semanttisen kontekstin muuttuessa chatin aikana (kuten ihmisen aivojen aktivointi muuttuu "liukumalla"). Näin saataisiin käyttöön monitasoinen muistiorganisaatio ja peritaattessa vaikka teratavun malli kotikoneella ajoon.
 
Llama.cpp:llä kun experttejä offloadataan prossulle niin se niiden experttien inferenssi myös ajetaan prossulla eikä PCIe mun ymmärtääkseni tossa ruuhkaudu tai ole pullonkaulana vaan pikemminkin prossun suorituskyky/keskusmuistin muistikaista. PCIe:n yli toki kommunikoidaan jotain, mutta ei swapata mallin osia.
Sä puhut yhä eri asiasta. Monta MoE-mallia, vs yksi MoE-malli jossa useita experttejä. Moni framework osaa vaihtaa mallia lennosta, oli ne MoE-malleja tai ei. Tällöin se aiemmin GPU:lla muistissa ollut malli heitetään mäkeen ja uusi malli (tai sen osa) ladataan tilalle. Yksittäisiä experttejä taas ei tosiaan vaihdella, koska siinä ei olisi järkeä.
 
Llama.cpp:llä kun experttejä offloadataan prossulle niin se niiden experttien inferenssi myös ajetaan prossulla eikä PCIe mun ymmärtääkseni tossa ruuhkaudu tai ole pullonkaulana vaan pikemminkin prossun suorituskyky/keskusmuistin muistikaista. PCIe:n yli toki kommunikoidaan jotain, mutta ei swapata mallin osia.
Peli on menetetty jos koodaukseen kelpoisaa neuroverkkoa joudutaan ajamaan cpu:lla. Sama siinä kohtaa avata lompakkoa ja ostaa pilveä. Toki tässä voi tulla samantason psykoosit vastaan kuin jos opensource tyypille kertoisi, että pitäisi peli X pelata windowsilla.

--

Olen kyllä ihan kärjessä hypettämässä sinä päivänä kun kaverit piilaaksosta kertovat, että alkavat siirtymään lokaalipelirautaa käyttäviin ratkaisuihin koodauksessa pilven sijaan. Ostan itselle myös samat raudat jos ei ole jo :) Samana päivänä myös myyn loput nvidian osakkeet ja kevennän qqq:ta kun konesalibisnekset ja ai-palvelut pilvessä menee viemäristä alas. En pidättele hengitystä, mutta yritän kyllä pysyä ihan ajanhermolla tän asian kanssa.
 
Viimeksi muokattu:
Sä puhut yhä eri asiasta. Monta MoE-mallia, vs yksi MoE-malli jossa useita experttejä. Moni framework osaa vaihtaa mallia lennosta, oli ne MoE-malleja tai ei. Tällöin se aiemmin GPU:lla muistissa ollut malli heitetään mäkeen ja uusi malli (tai sen osa) ladataan tilalle. Yksittäisiä experttejä taas ei tosiaan vaihdella, koska siinä ei olisi järkeä.
Hmm... ehkä mä ymmärsin jotain väärin, mutta tuossa lainaamassani viestissä puhuttiin kylläkin yhdestä mallista jossa on useita MoE-experttejä. Luin noita ylempiä myös mutta mulle ei ihan aukea puhutaanko niissä tuollaisesta kuvailemastasi skenaariosta vai ihan vain yhden ison MoE mallin ajamisesta.
 
Hmm... ehkä mä ymmärsin jotain väärin, mutta tuossa lainaamassani viestissä puhuttiin kylläkin yhdestä mallista jossa on useita MoE-experttejä. Luin noita ylempiä myös mutta mulle ei ihan aukea puhutaanko niissä tuollaisesta kuvailemastasi skenaariosta vai ihan vain yhden ison MoE mallin ajamisesta.
Mä ainakin käsitin tästä että nimenomaan kyse useasta eri MoE:sta, joilla kullakin omat useat experttinsä:
Kun yrität ajaa tuollaista niin 5090:en kyykkii pcie:n nopeudelle kun kuorma vaatii useamman eri MoE:n käyttöä.

Koska muuten koko väitteessä ei olisi yhtään mitään järkeä, sillä yksittäisen MoE-mallin ajossa ei tosiaan lennossa vaihdella experttejä CPU:lta GPU:lle. Mutta jos siis @finWeazel tarkoittikin että yksittäisen MoE-mallin ajossa experttejä vaihdeltaisiin, niin kerro toki millä sä malleja ajat?
 
Jos vaikka rakennetaan jonkunlaista toiminnanohjausjärjestelmää asiakkaalle, niin on paljon tärkeämpää opettaa asiakkaan liiketoimintamallit sille avustimelle kuin se että se osaa jotain papualaista kieltä solkata. Noin ylipäätään veikkaisin itse, että tulevaisuudessa on paljon kustannustehokkaampaa ajaa spesialisoituja malleja kun kehitetään jotain ratkaisua kuin jotain trilijoonan parametrin yleismallia.
 
Se päivä kun mallit on riittävän hyviä niin laitetaan kooderia kortistoon. Ollaan kyllä hyvinkin siinä pisteessä, että pikkujuttuja voi kuka vaan tehdä pelkillä prompteilla. Vielä ostettiin kelalle sadoilla miljoonilla softaa piilaaksosta, ei ole näkynyt softareiden massairtisanomisia, eikä konesalikapasiteetti riitä(porukka ei ole siirtynyt lokaalikoneisiin) että ei ehkä AI avustimet ole oikeasti maalissa.

Jos pystyisi myymään vaikka 5ke/pömpeliä firmoihin joka korvaa pilvet(ja ison osan koodereista) niin sellaiselle olisi rajaton markkina ja hetkessä rikas.
Pitää oikeastaan vähän ihmetellä miten porukka ei osaa käyttää näitä malleja, tässä kun itse ei ole koodaillut kuukausiin käsin tuntuu absurdilta lukea vaikkapa Redditistä kuinka nämä ei osaa muka mitään, kauheaa copea. Kaipa nuo firmatkin kohta herää ja sitten pitää osata käyttää tai ei heru töitä.
 
Pitää oikeastaan vähän ihmetellä miten porukka ei osaa käyttää näitä malleja, tässä kun itse ei ole koodaillut kuukausiin käsin tuntuu absurdilta lukea vaikkapa Redditistä kuinka nämä ei osaa muka mitään, kauheaa copea. Kaipa nuo firmatkin kohta herää ja sitten pitää osata käyttää tai ei heru töitä.

Sama. Käytän nyt jo töissä päivittäin ja erittäin harvoin tulee koodattua yhtään mitään käsin enää. Kaikkine rajoituksineenkin nämä nykymallit ovat jo hämmästyttävän hyviä. Toki erittäin suositeltavaa on edelleen katsoa perään ja vielä toistaiseksi hommaan sisältyy kaikenlaista kikkailua, jotta malleista saa parhaat tehot irti, mutta kyllä tässä on sellainen murros käynnissä, että kun täyteen vauhtiin päästään, vertaukset teolliseen vallankumoukseen eivät tule olemaan yhtään liioiteltuja.

Itseasiassa todella paljon tulee käytettyä myös muuhunkin kuin koodaukseen näitä. Kaikenmaailman raportit, esitelmät ja selvittelyt menee nykyään jo melkein defaulttina AI:lle. Vähän saattaa joutua hiomaan (tai laittaa AI:n hiomaan), mutta pääosin tulee kerrasta käyttökelpoista. Esim. tuossa just viime viikolla piti yhteen tilaisuuteen saada muutama powerpoint-kalvo aikaiseksi, eikä oikeastaan vähempää olisi voinut kiinnostaa niiden väkertäminen käsin. Onneksi riitti kun heitti Claudelle meidän powerpoint-templaten, muutaman relevantin sähköpostiviestin ja pääsyn esiteltävän projektin kansioon, sitten speksasi vaan et n. 10 slaidia ja vähän ohjeistusta tyyliin "painota a, b, c, välttele aiheita x, y, z". Muutaman minuutin ruksuttelun jälkeen tuli kerrasta käyttistä ja myöhemmin kehut hyvästä esityksestä.
 
Viimeksi muokattu:
Pitää oikeastaan vähän ihmetellä miten porukka ei osaa käyttää näitä malleja, tässä kun itse ei ole koodaillut kuukausiin käsin tuntuu absurdilta lukea vaikkapa Redditistä kuinka nämä ei osaa muka mitään, kauheaa copea. Kaipa nuo firmatkin kohta herää ja sitten pitää osata käyttää tai ei heru töitä.

Täytyy muistaa että on olemassa erilaisia ongelmia ja myös erilaisia vaatimuksia. Kun katsoo mitä tuubaa ihmiset lähettelevät sloppina erilaiseen projekteihin, en yhtään ihmettele miksi kokemuksia on erilaisia. Toiselle se on ollut aivan täydellistä eikä tarvitse koskaan koodata, vastapuolelle se on vain aikaa vievää tauhkaa jonka tarkistamiseen ja korjaamiseen menee todella paljon aikaa.

Jos kaikki käy, mitään ei ymmärrä, niin hyvähän siitä tulee joka kerta. Tieto lisää tuskaa. "Ignorance is bliss".
 
Määkin raapasin codexin nyt omaan peli projektiin ja ompas tää nyt helppoa devailla juttuja siihen. Siivoili vielä hakemisto rakenteenkin ekana. Äkkiseltään voittaa copy pasteilun.
 

Statistiikka

Viestiketjuista
306 037
Viestejä
5 180 645
Jäsenet
82 816
Uusin jäsen
Myasth

Hinta.fi

Back
Ylös Bottom