AI-koodausavustimet, keskustelua AI-avustetusta koodaamisesta/skriptaamisesta/dokumentoinnista/...

(vain yksi ihana osa näistä quoteista). Nämä "koska maksan, niin tämä on paras" keskustelut voisi jättää edes jonkinlaisen perustelun mielipiteilleen. Opus 4.5 ei varsinaisesti johda yhdessäkään koodaukseen liittyvässä benchmarkissa enää, sillä kun kyseisillä benchmarkeilla ikinä on ollut hirveästi väliäkään. Mutta ovat ne ainakin kaikkien markkinointimateriaalissa.

Cursorin vertailustakin GPT-5.2-Codex vs Opus 4.5 saa tällaisia:

SWE-bench Pro56.450
Terminal-bench 2.064.059.3
ARC-AGI-254.239.3

Luvut ovat siis Antropicin tai OpenAI:n itse julkaisimia (ja ennen kuin sanot jotain SWE-Benchistä, niin tämä ei ole sama asia kuin se kevyempi versio jossa jokainen malli alkaa saamaan sen ~80%) joten jokainen tietysti voi uskoa mitä lukuja ainoastaan haluaa. Mutta näiden valossa Opus 4.5:n kutsuminen kingiksi on jo aika kyseenalaista, näissä benchmarkeissa se ei ainakaan enää pärjää. Mikäli se tuottaa jonkun mielestä maailman parhaan pelikaanin pyöräilemässä SVG:nä, niin ehkä se on siinä asiassa sitten parempi (mutta en muista Simonin vertailua näistä). Mutta missään valossa sen kutsuminen erityisesti edelläkävijäksi verrattuna muihin ei oikein mene läpi nykypäivänä.

Opuksen 200k context window on sinällään yksi vitsi tosin, sen puolustaminen on jo aika hankalaa. Se on todella pieni luku missään monimutkaisessa tilanteessa ja aiheuttaa aivan surkuhupaisia tilanteita valitettavasti, mikään kunnollinen malli ei saisi rajoittaa noin pieneen lukemaan. Se rajoittaa käyttökelpoisuutta missä tahansa tilanteessa jossa oikeasti tutkimista tarvitsisi.
Kannattaa huomioida että benchmarkit eivät todellakaan kerro koko totuutta. Malleja voi optimoida bencharkkeihin, se mitä näkee benchmarkissa ei välttämättä yleisty benchmarkin ulkopuolelle. Tokeneiden hinta ja mallin nopeus myös merkityksellisiä.

Toinen puoli, että samakin malli voi toimia eri tavalla eri työkaluista käsin kun on eroja system promp:tssa, miten työkalu kasaa kontekstin, mitä mcp-servereitä käytössä jne. Jos käyttää jotain yleistä työkalua kuten cursor ai on triviaalia vaihdella eri malleja, toisaalta jos on päättänyt elää claude code tai openai codex:in agenttisysteemin kanssa niin kitkaa on enemmän jos haluaa vaihdella työkalusta toiseen.

--

Mun mielipide noihin X on paras niin ihan turhaa miettiä tuollaisia kun mallit päivittyvät koko ajan. En minä ainakaan alkaisi vaihtamaan työkalua 4-6vk välein kun aina tulee uusi parempi malli oli se sitten gemini, opus tai gpt. Pääasia imho. että ymmärtää suorituskykyä olevan saatavilla jos aukaisee lompakkoa oli sitten käytössä A, B tai C.
 
Jos on oikeasti tarkoitus saada asioita aikaan, palaa tokeneita. Ja tokenit polttavat rahaa. Ei tässä ole ilmaista lounasta. En tiedä kuinka pieni juttu pitäisi olla, että ilmaiseksi saisi jotain tehtyä, en ole kokeillut, kun on tarkoitus tehdä töitä. Ehkä katsomuskantani on vähän erilainen kuin kotiharrastajalla, mene ja tiedä. Mutta näissä kolmessa suuressa (Claude/Gemini/ChatGPT) on jokaisessa omat hyvät ja huonot puolensa. Oma kokemus (ja monen YouTuben asiantuntijan) kertoo, että yleisellä tasolla Clauden Opus 4.5 on tällä hetkellä vahvin, Gemini 3 Pro hakkaa muut Frontend-kehityksessä ja ChatGPT/Codex on taas vahva esimerkiksi arkkitehtuurissa ja sparraajana (joskin aika verkkainen). Itse pidän Codexista juuri siinä, että se on aika tyly vs. Clauden miellyttävyyshalukkuus. Monesti paras lopputulos tulee jos noista pelaa jokaisen vahvuudella. Esimerkiksi Geminillä frontit, Claudella muut ja Codex katselmoi. Kokeilin tätä jossain projektissa nopeasti ja vaikutti hyvältä, mutta vaatisi vähän vielä hiomista. Ilmaiskäyttäjille tuossa olisi se hyvä puoli, että ei kuormita yhtä mallia liikaa.
 
Jos olet perehtynyt asiaan, tiedät että benchmarkit ovat lähinnä viitteellisiä. Ja missä mallissa >200k konteksti-ikkuna oikeasti toimii? Ei ainakaan Geminissä...

Ei missään toimi isompi konteksti, sehän se ongelma onkin. Mutta ei se myöskään Opuksessa toimi ja sen pienuus rajoittaa siinä vielä enemmän. Kyseessä on kuitenkin vertailuluku, joka varjossa niiden vertailu kohtuu hyvin toimii.
 
Jos on oikeasti tarkoitus saada asioita aikaan, palaa tokeneita. Ja tokenit polttavat rahaa. Ei tässä ole ilmaista lounasta.

Riippuu aivan siitä mitä tekee. Mikäli on näitä frontend-ihmisiä, niin kyllä - tokeneita palaa kun ihmiset käyttävät LLM:ää samoihin hommiin kuin entisiä templateja. Sen sijaan output-tokeneita harvemmin palaa kun kyseessä on työt, joissa käsitellään isompia olemassa olevia projekteja. Paitsi tietysti jos malli ei kykene käsittämään tilannetta (esim. juuri kontekstin loppuessa kesken) ja alkaa suoltamaan thinking-ajatteluaan aivan järjettömiä määriä. Tämä ihan siitäkin syystä, että loppujen lopuksi ajattelu ja lopullinen ratkaisu on kuitenkin ihmisen tekemään työtä, sille LLM:lle jää pohdittavaksi korkeintaan miten kirjoitan koodinpätkän lopulta.

Tässä mennään nyt jo liikaa siihen harrastaako töissään jotain mitä joku on jo tehnyt aikaisemmin (missä nämä ovat erittäin tehokkaita ja tuottavat nopeasti paljon koodia), vai hommia joissa mennään sille puolelle joka ei ole julkista tai ratkottua. Jälkimmäisissä tokeneita ei suinkaan pala ylettömän paljon, koska aikaa vaativat muutoksetkaan eivät välttämättä ole kovinkaan isoja. Ne vaativat paljon ajattelutyötä ja tarpeen siirtämistä mallille sopivaan muotoon, jota ei voi ulkoistaa yhdellekään mallille vielä.

Vai katsonko asiaa liikaa ei-harrastajan näkökulmasta? En jaksa mitään Youtube videoita katsella, kyllähän noita voi itsekin työnantajan piikkiin voinut käyttää jos tahtoo vain omia anekdoottejaan ja silloin mennään niin pienellä otannalla ettei sillä ole väliä. Benchmarkit ovat tietysti turhia monessa mielessä, mutta kummasti niihin halutaan viitata kun oma suosikki on se joka pärjää ja unohtaa heti kun joku toinen pärjää paremmin.
 
En nyt oikein pääse kärryille, mitä edes mietit? Luuletko jotenkin, että jos teet jotain omaa "salaista" hommaa niin LLM ei käytä tokeneita niin paljoa? Jos teet jotain, mitä kukaan ei ole koskaan tehnyt aikaisemmin (mikä olisi aika uskomatonta) niin mitä ihmettä edes tekisit vääntämässä jossain foorumilla asiasta? Vai mikä tässä oli oikein pointtina?
 
En nyt oikein pääse kärryille, mitä edes mietit? Luuletko jotenkin, että jos teet jotain omaa "salaista" hommaa niin LLM ei käytä tokeneita niin paljoa? Jos teet jotain, mitä kukaan ei ole koskaan tehnyt aikaisemmin (mikä olisi aika uskomatonta) niin mitä ihmettä edes tekisit vääntämässä jossain foorumilla asiasta? Vai mikä tässä oli oikein pointtina?

Kun et edelleenkään käsittänyt, kommentoin väitettäsi Opuksen ylivoimaisuudesta verrattuna muihin malleihin, johon et kyennyt esittämään mitään objektiivista argumenttia lopulta. Voidaan siis asia jättää sikseen, en usko että sellaisia löytyykään ja voit hyvin mielin nauttia mutu-jutuista.
 
Kun et edelleenkään käsittänyt, kommentoin väitettäsi Opuksen ylivoimaisuudesta verrattuna muihin malleihin, johon et kyennyt esittämään mitään objektiivista argumenttia lopulta. Voidaan siis asia jättää sikseen, en usko että sellaisia löytyykään ja voit hyvin mielin nauttia mutu-jutuista.
Oliko jotain mistä halusit keskustella vai pelkkä väittely mielessä? Sinulla käytössä tämä paras malli ja olet sillä saanut hyviä tuloksia, millaisia? Kokemusten jakaminen mikä toimii ja ei toimi ketjun kontekstissa olisi ihan suoravaa kun mennään äärirajoilla uuden kanssa missä työkalut muuttuvat ja paranevat jos ei päivittäin niin kuukausittain. Opitaan muiden onnistumisista ja epäonnistumisista ilman, että tarvii itse joka puuhun kiivetä kokeilemaan.
 
Viimeksi muokattu:
Oliko jotain mistä halusit keskustella vai pelkkä väittely mielessä? Sinulla käytössä tämä paras malli ja olet sillä saanut hyviä tuloksia, millaisia? Kokemusten jakaminen mikä toimii ja ei toimi ketjun kontekstissa olisi ihan suoravaa kun mennään äärirajoilla uuden kanssa missä työkalut muuttuvat ja paranevat jos ei päivittäin niin kuukausittain. Opitaan muiden onnistumisista ja epäonnistumisista ilman, että tarvii itse joka puuhun kiivetä kokeilemaan.

En ole väittänyt että jokin malli on paras vaan nimenomaan ainoastaan ettei inttäminen tässä ketjussa Opuksen ylivoimaisuudesta perustu mihinkään näyttöön vaan pelkkään ulisemiseen koska on maksanut itsensä kipeäksi. Jos parasta mallia pitää etsiä, niin sehän riippuu täysin mitä tietoa sillä käsitellään, koska yksittäisillä malleilla on eri asioita mihin ne rakennettu. Eihän kukaan vision-mallia käytä koodaukseen tehokkaasti, eikä "koodaus-mallia" (kaipa tiettyjä malleja voisi kutsua tähän fine-tuunatuksi kuten Sonnet/GPT-Codex/Devstral) vision hommiin. Tai OCR-hommiin. Se, onko Opus missään hommassa enää paras lienee aika kyseenalainen jos siitä ei ole mitään näyttöä. Itse mallithan kehittyvät jatkuvasti (tosin aika isolla DR:llä tällä hetkellä), joten aina löytyy seuraavalle kuukaudelle uusi suosikki. Eikä nopeuttakaan pidä väheksyä vaikka se ei ratkaisisi kaikkein vaikeimpia asioita täydellisesti - tässä mennään sitten johonkin mitä Groq/Celebrakset ja vastaavat sitten hostaavat. Gemini 3 Flashin nopeutta en ole kokeillut, mutta oma hyötynsä niistäkin.

Kaikilla malleilla olen saanut kuraa aikaan, eri CLI softat on sitten toinen asia mikä vaikuttaa paljon lopputulokseen (esim. Gemini CLI on perinteisesti ollut aika surkea, Codex oli alkuun myös, mutta on parantunut huimasti). Clauden malleja välttelen jonkin verran nykyisin, koska en tykkää niiden ideologiasta miellyttää jos pyydän jotain. En varsinaisesti kaipaa luodessani testejä että se tuottaa varmuudella testejä jotka varmasti läpäistään aina vaikka itse implementaatio ei toimisi alkuunkaan - sillä varsinkin Sonnet tuottaa yleensä testit käyttämällä paljon mockkeja jotka eivät sitten toimikaan ihan oikein ja tekee tätä valitettavasti jopa integraatiotesteissä. Kaipa se joillekin kelpaa koska saa hyvän kattavuuden testeihin, mutta mikä arvo tälläkään on.

Vai kaipaisitko enemmän keskustelua "höpö höpö" kommentein kuten alkuperäinen kirjoittaja teki?
 
Vai kaipaisitko enemmän keskustelua "höpö höpö" kommentein kuten alkuperäinen kirjoittaja teki?
Omakohtaiset kokemukset kiinnostavat. Joskus parempi hyväksyä, että nettiin mahtuu monenlaista mielipidettä niin kohina vähenee ja signaali tulee esiin.

Jos kuitenkin haluaa väitellä mikä on paras niin perustaa sille oman ketjun samassa hengessä kuin amd vs. Intel cpu tai amd vs. Nvidia gpu ketjut ovat.
 

Uusimmat viestit

Statistiikka

Viestiketjuista
295 667
Viestejä
5 047 740
Jäsenet
80 970
Uusin jäsen
Hippo_Plazamus

Hinta.fi

Back
Ylös Bottom