AI-koodausavustimet, keskustelua AI-avustetusta koodaamisesta/skriptaamisesta/dokumentoinnista/...

Jotain tuollaista Claude osaa ilmesesti tehdä jo nytkin, mutta itselleni on hieman epäselvää, että toimiiko tuo tällä hetkellä vain API-käytössä, vai onko se automaattisesti mukana CLI-käytössä myös.

Mutta aika selväähän tämä on, että tässä koko agenttijutussa eletään vielä ihan alkuaikoja ja jatkossa tuollaiset käsinysväykset ei varmastikaan ole pakollisia.
En ole huomannut että olisi automaattisesti mallia vaihtanut ainakaan mun cli käytössä. Ihan sama kysyykö yksinkertaisen vai vaikean asian niin sama malli hyrskyttää. Yksi isoimpia asioita mistä internet purnaa, että palaa tokenit kun työkalu ei tajua käyttää helppoihin juttuihin halvempaa mallia ilman käyttäjän apua.

Opus4.6 Low effortilla huomasi, että alkaa tulemaan reikiä agentin suunnitelmiin/tekemisiin paljon enemmän kuin isoimmilla tasoilla. Silti tokenin säästäjälle pikkumuutoksiin hyvä käyttää low:ta.

Skill:it säästää kyllä tokeneita jossain määrin kun malli voi ajella komentoja miettimisen sijaan.
 
Olen nyt ~viikon ajan puuhastellut Gemini Pro tilauksella ja GSD:llä erästä harrasteprojektia jonka aloittaminen on venynyt ja venynyt, ja pakko todeta että tällä lähestymistavalla olen saanut huomattavasti enemmän aikaan kuin mitä olisin saanut parissa kuukaudessa käsin. Toisaalta huomaa että työkalujen kehitys on vielä kohtalaisen alkuvaiheessa ja muutamia ärsyttäviä bugeja on tullut vastaan.

Melkein tekisi mieli ostaa Claude kylkeen ja kokeilla sillä, mutta ilmeisesti sen 20€ tilauksen tokenit loppuu heti kun yrittää tehdä mitään isompaa. Geminin (tai siis Google One AI Pro) sai kuitenkin opiskelijana ilmaiseksi vuodeksi, niin ei ole vielä tullut laitettua omaa rahaa yhtään. 100€/200€ olisi kuitenkin melko kova sijoitus harrasteprojekteihin.

Geministä sen verran, että Gemini 3 Flash Preview tuottaa nopeammin koodia, mutta hallusinoi käskyjä herkemmin. "Parempi" Gemini 3 Pro Preview malli tuottaa hitaammin koodia, mutta pysyy paremmin aiheessa. GSD:n uusin versio näytti korjanneen agenttien käytön Geminillä, joten toivottavasti tämä auttaisi. Myöskään /clear ei oikeasti tyhjennä kontekstia, vaan Geminillä on raivostuttava taipumus kaivaa vanhoista sessioista tietoa. Kontekstin saa oikeasti tyhjäksi kun käyttää /resume ja sieltä poistaa vanhat sessiot.

Google on myös alkanut throttlaamaan Gemini 3 mallien käyttöä aika rajusti. Tähän tuskin tulee muutosta ennen kuin tulee kevyempiä malleja tai lisää laskentakapasiteettia.
 
Melkein tekisi mieli ostaa Claude kylkeen ja kokeilla sillä, mutta ilmeisesti sen 20€ tilauksen tokenit loppuu heti kun yrittää tehdä mitään isompaa. Geminin (tai siis Google One AI Pro) sai kuitenkin opiskelijana ilmaiseksi vuodeksi, niin ei ole vielä tullut laitettua omaa rahaa yhtään. 100€/200€ olisi kuitenkin melko kova sijoitus harrasteprojekteihin.
Ota Codex, saa käyttää aika paljon ja hyvällä tuurilla tyrkyttää vielä ilmaisen tilauksen.
 
Melkein tekisi mieli ostaa Claude kylkeen ja kokeilla sillä, mutta ilmeisesti sen 20€ tilauksen tokenit loppuu heti kun yrittää tehdä mitään isompaa.
Joo, suht helposti voi loppua, mutta resetoituu 5 tunnin välein. Omaan webbikikkareiden opetteluun ollut ihan riittävä jopa, mutta ei mitään kokemusta miten oikeassa ohjelmoinnissa kävisi.
 
5.2 ja nyt 5.3 codexia sai rankaista sillä 20€ tilauksella ja vs code plugarilla niin paljon kuin sielu sietää, kuukauden tein joka päivä hommia eikä ikinä tullut mitään rajaa itselle vastaan. Tosin en kyllä usko että tämä loputtomiin näin tulee jatkumaan mutta ihan älytön hinta/laatu.
 
5.2 ja nyt 5.3 codexia sai rankaista sillä 20€ tilauksella ja vs code plugarilla niin paljon kuin sielu sietää, kuukauden tein joka päivä hommia eikä ikinä tullut mitään rajaa itselle vastaan. Tosin en kyllä usko että tämä loputtomiin näin tulee jatkumaan mutta ihan älytön hinta/laatu.

Codexissa taitaa tällä hetkellä olla se 2x tämän kuun loppuun. Mutta kyllähän se silti Clauden vastaavan hintaiseen verrattuna on hyvin tarjonnut käyttöä. Ehkä suurempi ongelma on tuossa Codexissa se hyppäys, siellä ei ole ollenkaan 100€/kk vaihtoehtoa, vaan 20€ on sitten seuraavaksi 200€. Toivottavasti kummatkin saisivat nuo kevyemmät modelit tosin jossain vaiheessa myös käyttöön, sekä Haiku 4.6 että 5.3-Codex-Mini olisivat varmasti käyttökelpoisia usempaan pienempään hommaan, uuden projektin parsimiseen tai esim. embeddingsien rakentamiseen RAGiin. Tai muuhun joka ei vaadi loputtomiin pohtimista tai isompaan kontekstia.
 
Itellä vastaavia kokemuksia kun halusin siirtyä Cursorista eteenpäin. Ajatuksena oli Claude code mutta 20€ tilauksella ei juuri tehnyt mitään, muutaman kymmenen minuutin käytön jälkeen tulee jo raja vastaan.

Mahtava oli huomata miten opencode ja Kimi k2.5 toimi omassa käytössä todella hyvin ja on kohtuu edullinen käyttää. Codex 20€ tilaus on kuitenkin hinta-laatusuhteiltaan ihan lyömätön tällä hetkellä ja siihen tuli nyt siirryttyä. Jos tuon hinta nousee niin äkkiä palaan kyllä opencoden käyttäjäksi.
 
Itellä vastaavia kokemuksia kun halusin siirtyä Cursorista eteenpäin. Ajatuksena oli Claude code mutta 20€ tilauksella ei juuri tehnyt mitään, muutaman kymmenen minuutin käytön jälkeen tulee jo raja vastaan.

Mahtava oli huomata miten opencode ja Kimi k2.5 toimi omassa käytössä todella hyvin ja on kohtuu edullinen käyttää. Codex 20€ tilaus on kuitenkin hinta-laatusuhteiltaan ihan lyömätön tällä hetkellä ja siihen tuli nyt siirryttyä. Jos tuon hinta nousee niin äkkiä palaan kyllä opencoden käyttäjäksi.
En usko, että hinnat nousevat kun pidetään lopputuloksen laatu samana. varmaan 10x parannus tulee per token hintaan vuoden sisällä(parempi rauta konesaleissa, paremmat mallit). Jotain halpaa mallia saa ajettua 20e/kk tilauksella vuoden päästä mikä pystyy about samaan kuin nykyiset mahdollisesti jopa reilusti alle omakustannushinnalla myydyt tilaukset. Toki hinta pompsahtaa jos haluaa parempaa mallia, mutta ei liene pakko jos nykyisen laatu riittää.

GB300 tuo upean nopeuslisän ja pian konesaleissa isona massana, loppuvuodesta amd:lta uusi ja nvidialta vera-rubin. Tähän päälle softapuolen parannukset. Per token hinta jatkaa laskua. Ainoa juttu mikä voi heittää jakoavaimen on jos konesaleista loppuu kapasiteetti ja hinta nousee kysynnän tasolle. Selkeästi openai ostaa tällä hetkellä asiakkaita tarjoamalla alehinnalla tokeneita. Tosi niin tekee anthropic:kin, 200e/kk tilauksella saa parin tonnin edestä tokeneita jos vertaa API-laskutukseen. Vaikea uskoa etteikö koodausavustimien käyttö raketoi tänä vuonna, toimivat upeasti ja loppuvuodesta vielä paremmin.
At GTC 2024, Jensen claimed that Blackwell will deliver up to 30x perf on inference compared to H100, Jensen under promised & overdelivered on Blackwell inference performance. This should curtail the instances of analysts cracking “Jensen Math” jokes for some time.
https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2F2ed3fe4a-93e9-4c47-8fb2-91f17da1b7c5_2392x1418.png

 
Viimeksi muokattu:
Kauankohan menee, että swe bench pro:kin "liian helppo"? arc-agi-2 tulos upea geminiltä.
 
Onko noilla benchmarkeilla merkitystä kun eikös se uusin Claudekin ollut parempi noissa, mutta sitten käytännössä tuli aika paljon mutinaa? Mikä noista benchmarkeista osoittei sen mallin heikkoudet?
 
Onko noilla benchmarkeilla merkitystä kun eikös se uusin Claudekin ollut parempi noissa, mutta sitten käytännössä tuli aika paljon mutinaa? Mikä noista benchmarkeista osoittei sen mallin heikkoudet?
Mun mutinat claude codesta ei liity millään tapaa mallien kyvykkyyteen. Uusi opus 4.6 oli julkaisussa hidas, nyt nopeampi(konesalikapasiteetti?). Toinen itku, että 100e/kk tilauksen viikkoraja paukkuu minulla 5pv aikana niin jää kaks päivää missä avustinta ei voi käyttää ilman että tuplaa tilauksen hinnan. Olishan se kiva, jos malli olisi vaikka 5x nopeampi, toisaalta sitten loppuisi tokenit eka päivänä olettaen että käyttää nopeutta hyödyksi. Claude code:ssa 5h ja viikko käyttörajat jotka resetoituvat 5h ja viikon välein.

Nyt kun testannut tokeneiden säästömielessä niin opus 4.6:en low moodi on superidiootti versus medium ja high effort.

Benchmarkit ovat vain benchmarkkeja. Totuus paljastuu kun käyttelee itse malleja. Jos jotain benchmarkkia haluaa tuijotella niin swe bench pro ja arc-agi-2 ja pian arc-agi-3 ovat kiinnostavia.
 
Onko noilla benchmarkeilla merkitystä kun eikös se uusin Claudekin ollut parempi noissa, mutta sitten käytännössä tuli aika paljon mutinaa? Mikä noista benchmarkeista osoittei sen mallin heikkoudet?
On näissä aina vähän sitä että malleja tuunataan benchmarkeja varten.
 
On näissä aina vähän sitä että malleja tuunataan benchmarkeja varten.
Näinhän se menee. Tän takia en suurimmalle osasta benchmarkeista anna reaalimaailman kannalta isoa arvoa. swe bench pro ja arc agi 2 ja pian 3 jonkinlainen poikkeus ainakin vielä. Näitä on vaikea optimoida/"huijata". Totuus löytyy sitten kun yrittää käyttää malleja että onko minkä verran uusi kyvykkäämpi kuin vanha.
 
Benchmarkit ovat vain benchmarkkeja. Totuus paljastuu kun käyttelee itse malleja.
Jep, tätä minä vähän hainkin. Noissa benchmarkeissa on jotain kiinnostavaa vasta sitten kun uusi malli pärjää huonommin kuin vanha. Tuskin nuo firmat sellaista mallia kuitenkaan edes julkaisisivat ellei siinä ole jotain "5 pinnaa huonommat tulokset 90% pienemmällä tokenmäärällä!"-kuviota.
 
Jep, tätä minä vähän hainkin. Noissa benchmarkeissa on jotain kiinnostavaa vasta sitten kun uusi malli pärjää huonommin kuin vanha. Tuskin nuo firmat sellaista mallia kuitenkaan edes julkaisisivat ellei siinä ole jotain "5 pinnaa huonommat tulokset 90% pienemmällä tokenmäärällä!"-kuviota.
arc-agi-2 ja pian 3 on hyvä benchmarkki kun siinä on sellaisia ajattelutehtäviä joita mallintekijät eivät tiedä ja tunnetut tehtävät eivät ole samoja kuin benchmarkissa olevat. Mallin pitäisi oikeasti pystyä tekemään päättelyä tehtävien ratkaisemiseksi. Toki joka kerta kun ajetaan viralliset arc-agi-2:et läpi niin mallintekijät saavat jotain tietoa käsiinsä ja siten benchmark murenee... tän takia se arc-agi-3:en pian ja siinä viel pykälää haastavampia asioita: ARC-AGI-3 Ihmiselle arg-agi-3:en melko helppo, koneille todella vaikea.

swe-bench pro on myös ihan hyvä kun sen tehtävät ovat niin haastavia, että siihen benchmarkkiin optimoiminen tuo jotain reaalimaailman kyvykkyyttä myös lisää. Perus swe bench on nykyään imho. arvoton kun se on "ratkaistu" ja aika yksipuolinen ja myös helppo. Tän näkee siitäkin, että swe bench pro:ssa vasta ihan hiljattain päästy 50% tasolle ja tovin ottaa että ollaan jossain 80-90% välissä missä kohtaa voi sanoa benchmarkin olevan ns. ratkaistu.

Kyvykkyyksien puolesta ei anthropic/openai frontier parhaissa koodausmalleissa koskaan ole tainnut olla kyvykkyyden puolesta regressiota kun tulee uusi malli. Hinta/nopeus sitten toinen asia, uusi isompi frontier malli on raskaampi ja kalliimpi ellei hintaa subventoida syystä x,y,z.
 
Viimeksi muokattu:

Statistiikka

Viestiketjuista
301 034
Viestejä
5 142 440
Jäsenet
81 894
Uusin jäsen
snorkkeli

Hinta.fi

Back
Ylös Bottom