AI-koodausavustimet, keskustelua AI-avustetusta koodaamisesta/skriptaamisesta/dokumentoinnista/...

RTX 5090 tulee joko 32GB tai 48GB muistilla, näkee sitten. Mutta joo näillä ei ihan Sonnettin tai O1 laatuisia työkaluja voi pyöritellä, mutta voi jotain muuta pienempää. Macci jää pelkän RAM'in kanssa aina hidaaksi juu, en ees lähe kokeilee :)
Kai se on 32GB kun vahvat huhut ettei 3GB gddr7 piirejä ole isona määrinä tarjolla. Ei mikään huhupajakaan ole puhunut 48GB mallista vaan kaikki viittaa 32GB.

Ei tuo m4 max:in hitaus nyt niin haitannut kun sen pohjalta näki jo mihin tän hetkiset lokaalit kielimallit pystyvät tai siis eivät oikeasti pysty versus o1/sonnet. ts. ihan sama mikä rauta olis alla niin ei tuo nykyisten lokaalimallien laatu riitä. Ei hyödytä nopeampi rauta kun ratkaisut eivät ole riittävän laadukkaita.
 
Viimeksi muokattu:
RTX 5090 tulee joko 32GB tai 48GB muistilla, näkee sitten. Mutta joo näillä ei ihan Sonnettin tai O1 laatuisia työkaluja voi pyöritellä, mutta voi jotain muuta pienempää. Macci jää pelkän RAM'in kanssa aina hidaaksi juu, en ees lähe kokeilee :)
Macissa tuo "RAM" on jaettu GPU:n kanssa. Mac on itse asiassa paljon nopeampi kuin RTX 4090, jossa vain 24 GB VRAM, jos malli mahtuu vain tuonne Macin muistiin.

Joku uusi Mac Studio M4 Ultra saattaisi olla mielenkiintoinen, jos vaikka 256 GB tuota jaettua muistia vähän nopeampana ja hintaa reilu 5 000 euroa. M4 Ultran pitäisi olla ainakin RTX 4090 tehoinen. Isojen mallien kanssa paljon nopeampi kuin joku RTX, jonka VRAMiin malli ei mahdu tai jos mahtuu niin hintaa on kymmeniä tuhansia euroja. Siis jos lokaalisti täytyy ajaa malleja. Korjatkaa jos olen väärässä.
 
Macissa tuo "RAM" on jaettu GPU:n kanssa. Mac on itse asiassa paljon nopeampi kuin RTX 4090, jossa vain 24 GB VRAM, jos malli mahtuu vain tuonne Macin muistiin.

Joku uusi Mac Studio M4 Ultra saattaisi olla mielenkiintoinen, jos vaikka 256 GB tuota jaettua muistia vähän nopeampana ja hintaa reilu 5 000 euroa. M4 Ultran pitäisi olla ainakin RTX 4090 tehoinen. Isojen mallien kanssa paljon nopeampi kuin joku RTX, jonka VRAMiin malli ei mahdu tai jos mahtuu niin hintaa on kymmeniä tuhansia euroja. Siis jos lokaalisti täytyy ajaa malleja. Korjatkaa jos olen väärässä.

En ole vielä kuullut, että joku sanoisi, että Mac on nopeampi kuin 4090 näissä, tosin en ole itse lokaalisti malleja testannut. Paras "koti" setuppi on väitetysti/benchmarkattu vieläkin 2x 3090, ja jopa sillä ei saa vielä sellaisia tuloksia kuin haluaisi.

M3 Max -nopeus on jotain 400 GB/s? Ja 4090 jotain 1000 GB/s?
Miten Macci voi olla nopeampi?

Vaikka Macilla on enemmän muistia, ei se korvaa muistiväylän nopeutta (rinnakkaislaskentaa)?
Sekä 4090:llä voi ajaa kvantisoituja malleja. Macilla voi ajaa isompia malleja, mutta hyvin hitaasti, että kuullemma ei ole sen arvoista. Mielestäni koti-setupit eivät vielä ole siinä tilassa, että käyttäisin henk.koht. itse, ainakaan LLM:n kohdalla. 2x 3090 setuppi ehkä jopa ok tietyissä malleissa.

EDIT: Ja niin macin rahalla saa aikan monta 700e 3090 korttia :D Ettei ihan sen arvoista, jos ei ole edes yhtä nopea. Ja ei NVIDIA'n ekosysteemia (CUDA, cuBLAS ja TensorRT)
 
Viimeksi muokattu:
En ole vielä kuullut, että joku sanoisi, että Mac on nopeampi kuin 4090 näissä, tosin en ole itse lokaalisti malleja testannut. Paras "koti" setuppi on väitetysti/benchmarkattu vieläkin 2x 3090, ja jopa sillä ei saa vielä sellaisia tuloksia kuin haluaisi.

M3 Max -nopeus on jotain 400 GB/s? Ja 4090 jotain 1000 GB/s?
Miten Macci voi olla nopeampi?

Vaikka Macilla on enemmän muistia, ei se korvaa muistiväylän nopeutta (rinnakkaislaskentaa)?
Sekä 4090:llä voi ajaa kvantisoituja malleja. Macilla voi ajaa isompia malleja, mutta hyvin hitaasti, että kuullemma ei ole sen arvoista. Mielestäni koti-setupit eivät vielä ole siinä tilassa, että käyttäisin henk.koht. itse, ainakaan LLM:n kohdalla. 2x 3090 setuppi ehkä jopa ok tietyissä malleissa.

EDIT: Ja niin macin rahalla saa aikan monta 700e 3090 korttia :D Ettei ihan sen arvoista, jos ei ole edes yhtä nopea. Ja ei NVIDIA'n ekosysteemia (CUDA, cuBLAS ja TensorRT)
Toivottavaa kuitenkin olisi, että Apple haastaisi NVIDIAn näissä tekoälyhommissa, mutta taitaa vielä olla matkaa. Todella vähävirtaisiahan nuo Applen koneet ovat, niin se pitää kaiketi myös huomioida.
 
En ole vielä kuullut, että joku sanoisi, että Mac on nopeampi kuin 4090 näissä, tosin en ole itse lokaalisti malleja testannut. Paras "koti" setuppi on väitetysti/benchmarkattu vieläkin 2x 3090, ja jopa sillä ei saa vielä sellaisia tuloksia kuin haluaisi.

M3 Max -nopeus on jotain 400 GB/s? Ja 4090 jotain 1000 GB/s?
Miten Macci voi olla nopeampi?
m4 max suurinpiirtein sama kuin desktop 4070 tai parempi verrokki ehkä aavistuksen hitaampi kuin mobiili 4080. Tosin jos rajoitetaan mobiili4080 watit samaan kuin m4 max niin 4080 ei pärjää. Kai huhuttu m4 ultra voi päästä laskentahommissa 4090 tasolle. ultra on huhujen mukaan 2 m4 max piiriä yhteen liimattuna, nopea väylä välissä ja desktop form factor versus virtapihi läppäri.

m4 max:ssa 546GB/s muistikaistaa ja se on kyllä wattien puolesta läppäripiiri. Ei vedä satoja watteja vaan jotain 50W-60W väliin.

En tajua miksi tässä ketjussa pitää vängätä kenen isin gpu on nopein. Ainakin mun pointti oli testata lokaalit kielimallit kera lokaalin aiderin. Testin lopputulos oli, että lokaalit antavat niin paljon huonompia vastauksia verrattuna o1 että en näe itselleni mitään syytä käyttää lokaaleja tässä kohtaa. Toki ihan minä päivänä vain voi tulla lokaalimalli mikä on niin hyvä, että muutan mielipidettä. Llama3.3:70b ja qwen2.5-coder:32B eivät ole riittävän hyviä versus o1.

edit. Jos tekee chatbottia tms. niin lokaali llama3.3:70b on todella hyvä. Tämän ketjun aihe kuitenkin koodiavustimissa, ei geneerisissa chatboteissa.
 
Viimeksi muokattu:
Allaolevasta näkee millä vauhdilla llama3.3:70b jaksaa macbook pro m4 max:lla generoida koodia. Yritti ratkaista päivän advent of code luukkua. Lokaali lama ja pilven claude sonnet 3.5 feilas tuon kanssa. O1 onnistui toisella yrityksellä generoimaan pulmat ratkaisevan koodin. LLama imaisi 44GB muistia. Ei tuosta tällä hetkellä ole iloa vaikka tekisi saman toimimattoman lopputuloksen pikosekunnissa.



advent of coden 13. ja 14. päivän luukkujen kakkososat sellaiset ettei o1,o1 pro eikä cs3.5 osanneet ratkaista.
 
Viimeksi muokattu:
Mitä olen seuraillut ihmisten kokeiluja niin 3090/4090 on yleensä vähintään noin 3x nopeampi kuin M4 LLM pyörityksessä ja tietysti diffusion mallit on nvidialla vielä nopeampia.
 
Mitä olen seuraillut ihmisten kokeiluja niin 3090/4090 on yleensä vähintään noin 3x nopeampi kuin M4 LLM pyörityksessä ja tietysti diffusion mallit on nvidialla vielä nopeampia.
TDP M4 noin 20 W vs RTX 4090 noin 350 W. Suorituskyky wattia kohden (perf/W) on varmasti paljon parempi M4:ssä, joten kaikki vaan ostamaan noita macceja, niin säästetään sähköä.

Onko vertailussa edes paljoa järkeä paitsi, jos lokaali malli vaatii hurjasti muistia (GPU:n käytössä Macilla n. 100 GB vs RTX 4090 24 GB), jolloin Mac loistaa?

Toisaalta hyvät lokaalisti ajetut kielimallit ainakin koodauksessa, joka on ketjun aihe, ovat tulossa vasta tulevaisuudessa ja vaatinevat paljon muistia. Parhaimmat mallit käsittääkseni niin isoja tällä hetkellä, että vaativat satoja GB muistia GPU:lta, eikä niitä edes saa ajettua lokaalisti.
 

O1 koodauksessa aika tasan sonnetin kanssa, paitsi olen aika varma, että jos tuloksia 'iteröidään' / kysytään samaa asiaa uudelleen, on O1 noin 20–30 % parempi. Ja O1 PRO vielä parempi (koska ajattelee pidempään / reasoning more).

EDIT: Ja tästä vielä kun katsoo "Reasoningia", eli kuvittelee nyt jos sulla on O1 PRO Arkkitehtinä (joka ei editoi koodia) ja toinen malli mikä toimii ehkä paremmin editorina :)

Itsellääni nyt parhaat editorit ovat
- 1. gemini-exp-1206 (aider WHOLE mode)
- 2. gemini-2.0-flash-ex (aider DIFF mode)
- 3. deepseek-chat (diff, uusi R1 lite kuullemma hyvää täytyy testaa)
- 4. sonnet-3-5 (diff)

4. on ehkä paras, mutta vika koska liian kallis editoriksi.
1-3 usein saattaa failaa {} (js) kielien kanssa, niin 4. yleenäs sillos pelastaa.. oma projekti suurrimmalta osaalta nyt pythoni niin 1-3 toimii hyvin.


1734609431696.png



Sekä editori testejä: Aider LLM Leaderboards
 
Viimeksi muokattu:
Taitaa openai:n o3:en tammikuun loppupuolella nytkäyttää koodiavustimia melko ison pykälän eteenpäin. Todella lupaavia numeroita openai:lta. SWE bench mittari missä katsotaan miten hyvin malli osaa ratkaista open source projektien githubissa olevia tickettejä ongelman ymmärtämisestä sisään saatuun koodiin. Hyppy 50% pinnasta 70% kova juttu. 3/4:sta tiketistä ratkeaa. Parhaat tän hetken tulokset alle 50% SWE-bench

Ratkoo myös arc challengea hyvin: OpenAI o3 Breakthrough High Score on ARC-AGI-Pub
1734739759993.png


Matematiikka/fysiikkapuolella aletaan lähestyä rajaa missä on vaikea keksiä riittävän vaikeita ongelmia mallien osaamisen mittaamiseen.

1734739773337.png

Parhaat mallit aikaisemmin tässä matemaattisten ongelmien ratkaisussa 2%, o3 10x parempi.

1734739786472.png

lähde:
 
Ilmeisesti tuo o3 on todella kallis järjestelmä ajaa joten tässä vaiheessa ainakaan normaali käyttäjä ei varmaan pääse sitä käyttämään mutta tärkeämpää on että se näyttää että laitteiston skaalaus toimii taas erittäin hyvin uusilla tekniikoilla.
 
Ilmeisesti tuo o3 on todella kallis järjestelmä ajaa joten tässä vaiheessa ainakaan normaali käyttäjä ei varmaan pääse sitä käyttämään mutta tärkeämpää on että se näyttää että laitteiston skaalaus toimii taas erittäin hyvin uusilla tekniikoilla.

Ei tuu ehkä ihan kuluttaja käyttöön näillä hinnoillaa juu :)

1734766182024.png



O1 Pro edelleen paras kuluttajakäytössä (ehkä naamioittu O3 mini)

1734766283471.webp


1734766353895.png
 
Ilmeisesti tuo o3 on todella kallis järjestelmä ajaa joten tässä vaiheessa ainakaan normaali käyttäjä ei varmaan pääse sitä käyttämään mutta tärkeämpää on että se näyttää että laitteiston skaalaus toimii taas erittäin hyvin uusilla tekniikoilla.
Tulee varmaankin osaksi nykyistä 200$/kk tilausta millä saa o1 pro ja rajattomat queryt. Jos on superkallis ajaa voi olla joku rajoite montako o3 querya saa viikossa/päivässä ja rajattomasti o3 mini. Mä maksan tuon 200$/kk tällä hetkellä. Tärkeää sekin, että o3 mini on erittäin nopea ja halpa ajaa. Silti suurinpiirtein saman tasoinen kuin tän hetkinen o1. o3 mini varmaan se mitä eniten käytetään ja ratkoo ison määrän erilaisia ongelmia.

Ei tuo 200$/kk tosin yrityksille pitäisi mikään este olla. Jo nykyinen o1 pro lisää ainakin mun tehojaenemmän kuin mitä maksaa. Mutta tietty se että mä FIREn viettäjänä puuhailen vain kotiprojekteja enkä välitä kaupallisista/yritysten intresseistä. Motivaatio puuhata aika erilainen kun tunnissa saa aikaan sen minkä ilman työkalua "päivässä". Iso nopeusloikka sen takia, että tulee tehtyä random prototyyppejä ilman että on tarkoitus tuotteistaa.
 
Viimeksi muokattu:
Tulee varmaankin osaksi nykyistä 200$/kk tilausta millä saa o1 pro ja rajattomat queryt. Jos on superkallis ajaa voi olla joku rajoite montako o3 querya saa viikossa/päivässä ja rajattomasti o3 mini. Mä maksan tuon 200$/kk tällä hetkellä. Tärkeää sekin, että o3 mini on erittäin nopea ja halpa ajaa. Silti suurinpiirtein saman tasoinen kuin tän hetkinen o1. o3 mini varmaan se mitä eniten käytetään ja ratkoo ison määrän erilaisia ongelmia.

Ei tuo 200$/kk tosin yrityksille pitäisi mikään este olla. Jo nykyinen o1 pro lisää ainakin mun tehojaenemmän kuin mitä maksaa. Mutta tietty se että mä FIREn viettäjänä puuhailen vain kotiprojekteja enkä välitä kaupallisista/yritysten intresseistä. Motivaatio puuhata aika erilainen kun tunnissa saa aikaan sen minkä ilman työkalua "päivässä". Iso nopeusloikka sen takia, että tulee tehtyä random prototyyppejä ilman että on tarkoitus tuotteistaa.

Jos O3 korvaisi devaajan, niin näkisin, että 2000e/kk olisi ok myös startupille, kuullemma siihen suuntaan tämän hintaa tulee olemaan
 
Jos O3 korvaisi devaajan, niin näkisin, että 2000e/kk olisi ok myös startupille, kuullemma siihen suuntaan tämän hintaa tulee olemaan
Aika lujasti luit mun postista ohi jos löysit sieltä ytimenä "korvata devaajan". Mun pointti oli, että jos hyvä devaaja kaikkinensa maksaa yritykselle vaikka 8000e/kk(palkka, sivukulut, pakolliset työkalut jne) niin ei paljon devaajan tehokkuuden tarvi parantua että devaajalle kannattaisi ostaa 200e/kk o3(tai o3-mini jos täysi o3 on kalliimpi) tilaus ts. kustannus yritykselle olisi 8200e/kk eikä 8000e/kk. Varmaankin 2025 on se vuosi kun koodiavustin alkaa olemaan no brainer hankinta devaajalle.

Eiköhän ainakin o3-mini variantit saa nykyisen o1 pro tilauksen hinnalla(200$/kk). Kylkeen ehkä joku rajattu määrä per viikko/päivä o3 kyselyitä. Rajattomat o3(ei mini) kyselyt palvelu voi olla tonneja/kk.
1734958913699.png
 
Viimeksi muokattu:
Aika lujasti luit mun postista ohi jos löysit sieltä ytimenä "korvata devaajan". Mun pointti oli, että jos hyvä devaaja kaikkinensa maksaa yritykselle vaikka 8000e/kk(palkka, sivukulut, pakolliset työkalut jne) niin ei paljon devaajan tehokkuuden tarvi parantua että devaajalle kannattaisi ostaa 200e/kk o3(tai o3-mini jos täysi o3 on kalliimpi) tilaus ts. kustannus yritykselle olisi 8200e/kk eikä 8000e/kk. Varmaankin 2025 on se vuosi kun koodiavustin alkaa olemaan no brainer hankinta devaajalle.

Eiköhän ainakin o3-mini variantit saa nykyisen o1 pro tilauksen hinnalla(200$/kk). Kylkeen ehkä joku rajattu määrä per viikko/päivä o3 kyselyitä. Rajattomat o3(ei mini) kyselyt palvelu voi olla tonneja/kk.
1734958913699.png
Aika lujaa luit mun postin ohitsee, en kertakaan väittänyt, että olisit niin väittänyt lol.

Minun pointtini oli, että 2000e/kk voisi olla OK yritykselle, jos olisi yksi O3 talossa.. ja jotkut huhut on tässä väittänyt ,että saattaa olla sellainen subi tulossa, näkee sitten.
 
On nämä kyllä huikeita työkaluja.

Minulla on vanha koulutuspohja, joka tukee fronttipuolen verkkokehitystä, mutta taidot ovat päässeet ruostumaan. Ymmärrän toki syntaksia ja periaatteessa "kuinka kaikki toimii", mutta en jaksa muistaa puoliakaan mahdollisuuksista ulkoa, ja täten niiden soveltaminenkin on välillä haastavaa. Modernit best practices käytännöt ovat monelta osin hukassa.

Sain hiljattain työpöydälleni erittäin tarkasti speksatun verkkosivutoteutuksen, jossa kaiken piti olla pikselilleen kuten dokumentissa on määritelty. Projektissa oli kustomoituja kuvaslidereitä, responsiivisia menurakenteita, jotka muuttuivat hampurilaisvalikoiksi ja avautuivat tietyllä tavalla animaatioineen. Esimerkkitoteutuksesta piti rakentaa paikallinen Shopify / Liquid versio, ja kaikki osiot oli suunniteltava siten, että ne olisivat loppukäyttäjän muokattavissa ja laajennettavissa teemaeditorin kautta. Ja näihin vielä sivukohtaiset trackaystoiminnot päälle.

Ajattelin eka, ettei ole ihan suoraan mun juttu. Kyselin alustavasti projektin hintalappua muutamalta tutulta toimijalta, ja meinasin lentää perseelleni. Sekä ajalliset että rahalliset arviot järkyttivät. Ei voi olla näin vaikeaa -mietin.

Halusin koittaa itse ja aloitin projektin työstämisen ChatGPT:n kanssa. Aluksi käytin versiota 4o, mutta se oli hieman raskasta, ja vuorovaikutus vaati paljon edes-takaisin vääntöä. Lisäksi siltä unohtui usein jokin tärkeä asia matkan varrella. Tein myös varmasti itse virheen pyytäessäni varmaan liian isoja kokonaisuuksia kerralla. Yhteistyö oli melko turhauttavaa ja olin lyömässä hanskat tiskiin. Päätin kumminkin antaa mahdollisuuden vielä o1:lle ja rupesin pyytämään siltä huomattavasti pienempiä osioita koodiin kerralla, tässä vaiheessa alkoi lyyti kirjoittamaan.

Opin myös itse tällä muutaman viikon matkalla taas ihan tuntuvan paljon uutta ja virkistin muistia jo olemassa olevasta. Minkä lisäksi saimme kuin saimmekin tehtyä yhdessä kaiken tarpeellisen toimivaksi ja siistiksi kokonaisuudeksi.

Pikkurahaa lopulta jopa tuollainen rajoittamattoman o1 tilauksen kuukausikustannus kun miettii, että mahdollisti kirjaimellisesti "kymppien" projektin tekemisen, minkä lisäksi tietysti opetti ja laajensi omaa osaamista tuntuvasti. Helposti voi ottaa tilauksen silloin tällöin kun tarvii jonkun projektin tueksi lisänäkemystä ja apua. Tavallaan lisää tuntuvasti myös itsevarmuutta ottaa vastaan erilaisia projekteja, kun niiden työstöön löytyy täsmä-apuri tuosta. Asiaa melko syvällisesti ymmärtävän henkilön nämäkin toki vaativat toiselle puolelle funtsimaan, testaamaan ja säätämään, mutta työn luonne tavallaan helpottuu / muuttuu tuntuvasti.
 
Viimeksi muokattu:
Advent of Code 2024 luukuista keinoäly ratkaisi 43/50. Suurin osa ratkaisemattomista oli, että ongelmassa oli kikka millä saa laskettua tuloksen nopeasti. AI ei huomannut kikkaa ja teki yritys toisensa perään brute force ratkaisun jonka suorittaminen kestää liian kauan. Suurin osa ongelmista ratkesi suoraan copy/pastesta nopeammin kuin mitä ihminen lukee ongelmakuvauksen läpi.

Claude sonnet 3.5 epäonnistui useassa luukussa minkä o1 tai o1-mini ratkaisi ilman hikoilua. Näillä näppäimillä joudun toteamaan, että adventofcode/leetcode/... algoritmisäädössä openai:n keinoäly on jo o1-sarjassa parempi tai ainakin nopeampi kuin minä. Toki minä en ole eliittitasoa noissa mutta silti,..

Keinoälyn lopputulos. Ehkä paremmin promptailemalla olisi saanut ratkottua loputkin, mutta idea oli kokeilla mihin keinoäly taipuu minimivaivalla ts. copy/paste ja "hei teit väärin, yritä uudestaan", "liian hidas, optimoi nopeammaksi, rinnakkaista ja tee c++ versio pythonin sijaan"
1735220153409.png
 
Viimeksi muokattu:

Uusimmat viestit

Statistiikka

Viestiketjuista
262 830
Viestejä
4 567 300
Jäsenet
75 029
Uusin jäsen
Wisbargo

Hinta.fi

Back
Ylös Bottom