AI-koodausavustimet, keskustelua AI-avustetusta koodaamisesta/skriptaamisesta/dokumentoinnista/...

1000043806.jpg

Taitaa GPT 5.5 olla sopiva paikka iskeä tälläisen julkaisun jälkeen.
 
Vaikuttaa siltä että Anthropic on ajanut itsensä kuseen ja siellä on hommat pahasti sekaisin. Tulee taas mieleen että siellä kun jos tekoäly koodaa tekoälyä, niin se on alkanut degeneroitumaan. Ensin hitaasti ja hyvin vähän, mutta nyt ollaan jo lumivyöryvaiheessa.

Tuo malware ongelma olisi paljastunut ihan pienellä testauksella.
 
Otin Claude Coden (Pro) uudestaan testiin, kun viimeiset 3-4kk käyttänyt käytännössä pelkkää Codexia.

Samassa projektissa Codexilla (GPT5.4, Medium) saa työskenneltyä n. 2h ennen kuin 5h limit tulee täyteen, Claudella (4.6 Sonnet, Medium) max 20min, parhaimmillaan yhdessä promptissa mennyt koko 5h usage. Samat skillit ja AGENTS.md/CLAUDE.md käytössä. Prompteja saa Codexiin 50+ ja Claudeen max 10. :confused: Puhumattakaan jostain Opuksesta, se on pari minuuttia ja usage on täynnä.

Teenkö(hän) jotain väärin? Molempien laatu aika samaa, eli hyvää kunhan promptaa kunnolla. Sen kyllä huomasin, että Claude työskentelee pidempään kun taas Codex pysähtyy kyselemään enemmän. Tällä hetkellä kaksi ChatGPT Plus-tilausta vaikuttaa paremmalta diililtä kun nämä kaksi erikseen.
 
Samassa projektissa Codexilla (GPT5.4, Medium) saa työskenneltyä n. 2h ennen kuin 5h limit tulee täyteen, Claudella (4.6 Sonnet, Medium) max 20min, parhaimmillaan yhdessä promptissa mennyt koko 5h usage.
Tässäpä se juuri on että "älykkäin malli" ei ole enää paras vaihtoehto, jos ns 5% "tyhmemmän" mallin saa useita kertoja halvemalla (ns token hinta)

Kun katsotaan mallin hinta/nopeus/älykkyys/hallusinaatio raja..jne niin tämän päivän lisäoptioilla (mcp:t, subagentit..jne) minusta opuksen hinnoittelu on todella surkea vrt muihin.
 
Mistä saa jo GPT-5.4-codexin käyttöön vai käytätkö siis tavallista GPT-5.4?
Tavallinen GPT-5.4 siis. Codexin sovelluksen kautta käytän, siksi mainitsin tuon.

Jaahas, Codexistakin tuli päivitys.
Näyttää aika isolta päivitykseltä. Windows-versiota odotellessa.

Tässäpä se juuri on että "älykkäin malli" ei ole enää paras vaihtoehto, jos ns 5% "tyhmemmän" mallin saa useita kertoja halvemalla (ns token hinta)
Tuntuu kyllä siltä, että mallin tuotosten laadussa ei hirveästi ole edes eroa. Enemmän tuntuu vaikuttavan promptaus, konteksti ja skillit. Voisi vaikka huvikseen seuraavan resetin jälkeen testailla miten Haiku 4.5 toimii, paljonko saa käyttää ja miten tulokset eroaa vaikka Sonnetista.
 
gpt 5.4 codexissa

qwen 3.6 35b paikallisesti clinessä

Ihan mielenkiinnosta hostasin paikallisesti ton uuden 3.6 qwenin ja tein ton redditistä bongatun SVG testin gpt:llä ja paikallisella qwenillä, yllättävää kyl mihin toi pikkumalli pystyy, täytyykin alkaa kokeilemaan mitä se onnistuu tekemään omissa codebaseissani on meinaan ihan sika nopea 200 tok/sec ja osaa clinessä automaattisesti hakea inffoa netistä.
 
Kyllähän tuon kehityksen kuvittelisi niin menevän, että kun mallien kyvykkyys kasvaa niin pikkujutuissa/pienissä projekteissa ei enää tarvi parasta mallia. Jossain kohtaa lokaalikin alkaa olemaan riittävän kyvykäs moneen asiaan. Toisella puolella isot ja kompleksiset projektit joissa AI ei välttämättä ole edes riittävän hyvä ja parempaa kaipaisi.

Sitä päivää odottaessa kun voi promptata vaikka "ota Android Open Source project sisään ja muuta kaikki C-koodi mukaanlukien linux kerneli RUST:lle. Tee kattavat testit sekä rust että C. Varmista toteutusten identtisyys". Saa vettä vielä virrata joessa tovin,...

Näissä mun kotiprojekteissa voi todeta, että openai ja anthropic molemmat toimivat niin hyvin, että aika vähän löytyy reunatapauksia missä tarvii itse enää koodata. Mutta pieniähän nämä projektit ovat ja monella tavalla täysin triviaaleja.
 
gpt 5.4 codexissa

qwen 3.6 35b paikallisesti clinessä

Ihan mielenkiinnosta hostasin paikallisesti ton uuden 3.6 qwenin ja tein ton redditistä bongatun SVG testin gpt:llä ja paikallisella qwenillä, yllättävää kyl mihin toi pikkumalli pystyy, täytyykin alkaa kokeilemaan mitä se onnistuu tekemään omissa codebaseissani on meinaan ihan sika nopea 200 tok/sec ja osaa clinessä automaattisesti hakea inffoa netistä.
Kannattaa myös Gemma 4:lle antaa mahdollisuus. Se on itsellä ollut viime aikoina käytössä ja tuottanut hyvin vakuuttavaa jälkeä. Sekä 31B että 26B A4B.

Itse en vielä ole ehtinyt Qwen 3.6 testaamaan, mutta pitää ottaa kokeiluun lähipäivinä. Benchmarkit näyttää vähän liian hyvälle ollakseen totta A3B-mallille, kun esim. vasta julkaistu "iso" 31B Gemma 4 jää muka lähes kaikessa jalkoihin.
 
Redditissä kyllä revitään huumoria anthropicin kustannuksella... Ei valittamista openai:sta. Koodasi uart-härpättimen pc-amiga väliin mitä claude code ei saanut aikaiseksi.
Ollut mielenkiintoista seurata miten sössivät asiansa, firman fanitus oli aikaisemmin ihan överiä ja nyt näkee jatkuvasti enemmän Codexiin vaihtaneita ja juuri tuommoisia kokemuksia, että tämähän on ihan hyvä, ellei jopa parempi ja saa käyttääkin paljon enemmän. Jos kilpailijat ei sössi vastaavasti niin moniko vaihtaneista on enää palaamassa?
 
Ollut mielenkiintoista seurata miten sössivät asiansa, firman fanitus oli aikaisemmin ihan överiä ja nyt näkee jatkuvasti enemmän Codexiin vaihtaneita ja juuri tuommoisia kokemuksia, että tämähän on ihan hyvä, ellei jopa parempi ja saa käyttääkin paljon enemmän. Jos kilpailijat ei sössi vastaavasti niin moniko vaihtaneista on enää palaamassa?
imho. claude oli ennen tyhmennystä parempi ainakin minun käyttöön kuin tämä nykyinen openai 5.4xhigh moodissa. Minä en ole palaamassa anthropic:iin kun openai:nkin palvelu toimii riittävän hyvin. Jos openai alkaa sössimään niin sitten tulee google testiin seuraavaksi.

Upeasti kyllä anthropic kussut omiin muroihinsa. Harvoin näkee ja pääsee kokemaan tällaista hajoamista(onneksi).
 

Statistiikka

Viestiketjuista
305 324
Viestejä
5 170 675
Jäsenet
82 666
Uusin jäsen
anpaaaa

Hinta.fi

Back
Ylös Bottom