AI-koodausavustimet, keskustelua AI-avustetusta koodaamisesta/skriptaamisesta/dokumentoinnista/...

Mietin kapasiteettiasiaa niin ehkä parhaat toivot olisivat, että saavat tehtyä kevyemmän hyvän mallin mikä laskisi kuormaa konesalissa. Toinen mikä tulee mieleen niin ehkä mistral, meta, xai yms. jos saisivat hyvät palvelut kehiin niin tuo voisi vapauttaa openai/anthropic/googlelta kapasiteettia "Koodereille". METAn frontier mallihan floppas täysin viime vuonna. Uusittu tiimi metalla nyt, huhuissa että meta ja xai molemmat julkaisisivat uudet frontier mallinsa alkuvuodesta. xai:n mallin kooksi varmistettu 6 biljoonaa parametria, järjettömän kokoinen.

Eka viikko tulee missä tokenit loppuu kesken, pääsee polttamaan anthropicin 50$ lahjatokenit pois. Ne palaa ihan hetkessä.
1770892004741.png
 
Mietin kapasiteettiasiaa niin ehkä parhaat toivot olisivat, että saavat tehtyä kevyemmän hyvän mallin mikä laskisi kuormaa konesalissa.

Eikös tuo nyt ole GPT 5.3:n tapaus aikalailla, samalla kapasiteetilla saadaan enemmän käyttäjiä? 5.2-codex oli todella hidas, mutta itse en ole huomannut nyt 5.3:lla kapasiteettiongelmia. Sen lisäksi ainakin nämä väliaikaiset tuplatokenit ovat näppäriä, ei ole loppunut itselläni tuo $20 plan kesken (Claudella tarvitsisi samaan jo tuota $100/kk jos tokenit olisivat 1:1). Mutta en siis käytä tuota GPT subscriptionia kuin omiin harrastusprojekteihin iltaisin/viikonloppuisin, töissä on sitten omat ratkaisunsa (jotka ovat tosin umpisurkeita nykyisin, mutta varmaan jonkun ego on iskenyt väliin joka näistä päättää).
 
Eikös tuo nyt ole GPT 5.3:n tapaus aikalailla, samalla kapasiteetilla saadaan enemmän käyttäjiä? 5.2-codex oli todella hidas, mutta itse en ole huomannut nyt 5.3:lla kapasiteettiongelmia. Sen lisäksi ainakin nämä väliaikaiset tuplatokenit ovat näppäriä, ei ole loppunut itselläni tuo $20 plan kesken (Claudella tarvitsisi samaan jo tuota $100/kk jos tokenit olisivat 1:1). Mutta en siis käytä tuota GPT subscriptionia kuin omiin harrastusprojekteihin iltaisin/viikonloppuisin, töissä on sitten omat ratkaisunsa (jotka ovat tosin umpisurkeita nykyisin, mutta varmaan jonkun ego on iskenyt väliin joka näistä päättää).
Koko kapasiteettiasia on spekulointia. Luet taaksepäin niin löytyy viestiä missä google temppuilee mallien kanssa. Anthropicilla taas sitten fast moodi mistä pitää maksaa reilusti extraa ja opus4.6 perusrahalla ostettuna hidas. Tähän päälle spekulaatiot siitä miten kapasiteetti riittää, jos palvelut kehittyvät suuntaan missä käyttömäärä lisääntyy nopeammin kuin kapasiteetti.

OpenAI:n edustajat sanoneet että heillä(kin) kapasiteettiasia rajoittaa mitä voivat tarjota. Rakentavat maksimit uutta kapasiteettia niin nopeasti kuin vain voivat.
 
Viimeksi muokattu:
Koko kapasiteettiasia on spekulointia. Luet taaksepäin niin löytyy viestiä missä google temppuilee mallien kanssa. Anthropicilla taas sitten fast moodi mistä pitää maksaa reilusti extraa ja opus4.6 perusrahalla ostettuna hidas. Tähän päälle spekulaatiot siitä miten kapasiteetti riittää, jos palvelut kehittyvät suuntaan missä käyttömäärä lisääntyy nopeammin kuin kapasiteetti.

Toki on spekulointia, ainahan mahdollisuus Opuksenkin kohdalla on että 4.6:ssa jokin meni pieleen jonka takia jokin ei toimi (vaikka ihan välimuisti). Voipi myös olla syynä miksemme ole nähneet Sonnet/Haiku 4.6:sta (tai sitten niistä ei tullut kilpailukykyisiä edes ilmaisiin malleihin nähden niin päättivät jättää julkaisematat). Mutta näissä täytyy myös muistaa että OpenAI/Anthropic ovat pitkään ajatelleet että lisätään vain rautaa, kyllä se siitä mitä tulee skaalautumiseen, samalla tavalla kuin monet edellisetkin tekniikan kierrot ovat tehneet. Verrataan näitä taas kiinalaisiin malleihin, heillä kun on vähemmän rautaa, niin ovat joutuneet keksimään järkevämpiä algoritmeja millä saadaan vaikkapa muistinkäyttöä laskettua. Suurin osahan näistä keksinnöistä ja papereista on kuitenkin kiinalaisilta viime aikoina. Mahdollisesti OpenAI/Anthropic joutuvat oikeasti pohtimaan kyseisten tekniikoiden käyttämistä jos eivät pysty enää kilpailemaan vain raudan lisäämisellä.

Hinnathan ovat myös kivunneet aikalailla (jossa on toki myös "SOTA" lisäystä ja brandausta), mutta jossain vaiheessa tulee sekin kohta ettei moni LLM:ää käyttävä keksintö ole enää järkevä, jos hinta on liian korkea suhteessa hyötyyn. Eli markkinat eivät välttämättä enää tule loputtomiin hyväksymään pelkästään "rautaa rajalle ja hintoja ylös" menetelmiä. Näinhän käy jokaisessa tällaisessa hype-cyclessa tällä alalla kuitenkin. Puhumattakaan tilanteesta jossa kilpailijoita alkaa tippumaan kun eivät voi subventoida ikuisuuksiin ja rahaakin pitäisi saada tehtyä. Ilmainen raha loppuu lopulta aina.
 
Toki on spekulointia, ainahan mahdollisuus Opuksenkin kohdalla on että 4.6:ssa jokin meni pieleen
Opus 4.6:en saa nopeampana rahaa vastaan. Spekulaatiot miksi näin ketjussa aikaisemmin kuten myös linkki anthropicin sivuille missä fast selitetään. Täysin sama malli kuin hitaampi. Ainoa ero hinnassa.
 
Opus 4.6:en saa nopeampana rahaa vastaan. Spekulaatiot miksi näin ketjussa aikaisemmin kuten myös linkki anthropicin sivuille missä fast selitetään. Täysin sama malli kuin hitaampi. Ainoa ero hinnassa.

Mikä ei tarkoita yhtään mitään siihen epäonnistuiko Opus vai ei. Rahalla saa vaikka omat GPU:t ilman että kukaan muu voi niitä käyttää, mutta se ei tarkoita etteikö mallissa olisi valtavia ongelmia mitä tulee yleiseen käyttöön jossa cachet ja pipelinet ja batchaus ovat tärkeitä jotta saadaan kuormaa alaspäin. Tai sitten tämä on vain piilotettu heikennys millä saadaan vähennettyä niitä $200 käyttäjien tuhlaamia resursseja. Hinta ei noussut, mutta vähemmän saa vain kulutettua resursseja.

Spekulointia, mutta mikään vaihtoehto ei varsinaisesti ole pois suljettu.
 
En tiedä kuvittelenko vain, mutta claude code + opus 4.6 tuntuisi hieman nopeammalta tänään ja syö tokeneita urakalla. Silloin kun valittelin, että on erityisen hidas niin ei saanut millään 5h aikaikkunassa kaikkia tokeneita käytettyä, nyt alkaa hakkaamaan rajoittimeen ja ei voi käyttää mielin määrin. Liekö sitten tuunanneet normi ja fast moodin välistä eroa pienemmäksi tai ehkä normimoodin nopeus vaihtelee konesalikapasiteetin puitteissa.
 
Uusittu tiimi metalla nyt, huhuissa että meta ja xai molemmat julkaisisivat uudet frontier mallinsa alkuvuodesta. xai:n mallin kooksi varmistettu 6 biljoonaa parametria, järjettömän kokoinen.
Rukoilen, että nuo mallit onnistuu ja panostavat agentteihin, tämä on aika ikävä tilanne, kun vain kaksi firmaa tarjoaa hyviä. Grokille on todella kovat odotukset, nykyistä mallia tulee jo usein suosittua tiedonhaussa, tuntuu antavan usein parempia tuloksia kuin muut.

En tiedä kuvittelenko vain, mutta claude code + opus 4.6 tuntuisi hieman nopeammalta tänään ja syö tokeneita urakalla. Silloin kun valittelin, että on erityisen hidas niin ei saanut millään 5h aikaikkunassa kaikkia tokeneita käytettyä, nyt alkaa hakkaamaan rajoittimeen ja ei voi käyttää mielin määrin. Liekö sitten tuunanneet normi ja fast moodin välistä eroa pienemmäksi tai ehkä normimoodin nopeus vaihtelee konesalikapasiteetin puitteissa.
Ärsyttävää, kun eivät juuri ilmoittele muutoksista mitään, joka päivä saa aina kauhulla katsoa kulutusta, että täyttyykö palkki tänään pikavauhtia vai hitaasti.

Mikä ei tarkoita yhtään mitään siihen epäonnistuiko Opus vai ei.
Onkohan noilla tullut raja vastaan, eivät saa lisää älyä ilman pidempää pohtimista? 5.2 on myös hyvin hidas ja 5.3 saivat nopeutta, mutta osa valittaa sen olevan huonompi, en itse vielä osaa sanoa, kun niin vähän kerennyt käyttämään.
 
Ärsyttävää, kun eivät juuri ilmoittele muutoksista mitään, joka päivä saa aina kauhulla katsoa kulutusta, että täyttyykö palkki tänään pikavauhtia vai hitaasti.
En usko, että per token hinta claude code:ssa max plan:ssa vaihtelee. Jos tokenit tulee ulos nopeammin niin pääsee nopeammin siihen rajaan mitä saa 5h ja viikon aikana käyttää. Niin tai näin niin saman määrän tokeneita saa tilauksella. Tietty se, että minkälaisia muutoksia tekee ts. kontekstin koko myös, jos riipasee isoja asioita käsiteltäväksi niin tokeneita palaa enemmän. Mun käytössä aika samanlaista piipertämistä koko ajan niin en taskien erilaisuuden piikkiin uskalla laittaa tän päivän limitteihin hakkaamista.
 
Sivusta sen verran huutelua, että tämä glm-4.7-flash taitaa olla reilusti paras lokaalimalli mikä mahtuu 24GB kortilla muistiin.

1770829896515.png

Kokeilin glm-4.7-flashia. Ensimmäiset pienemmät tehtävät yllätti positiivisesti ja päätyi samoihin ratkaisuihin codex 5.3 mallin kanssa samassa ajassa (varmistelua näkyi vähemmän, mutta tässä sitä ei tarvittu). Sitten kokeilin taskeja joissa pitää ymmärtää edellisten taskien asiat, ja glm ei löytänyt koukkua jonka se olisi voinut tietää aiemmasta taskista. Lopuksi laitoin megataskin etsiä suorityskykyongelmia, codex vähän oikaisi ja kertoi muutaman aika pienen ongelman. Glm mietti tunnin ja toisenkin, pysäytin sen ja en siinä sessiossa saanut enää vastauksia mihinkään.

Tavallaan hyvä ja paremman oloinen kuin qwen mutta en taida keksiäkään käyttökohteita juuri tähän hätään, sen verran verkkaista vielä.

Toinen syy ollama innostukselle oli käännösten tekeminen, latasin googlen translate-gemma 16b version (kyllästyin hitaisiin vastauksiin aiemmilla 30b malleilla jotka eivät aivan mahdu 20gb ison kontekstin kanssa). Suomeksi käännetyt englannin ja kiinankieliset lauseet oli kyllä hämmästyttävän hyviä, ei täydellisiä - mutta ei ainakaan merkittävästi huonompia mitä chatgpt tekee hitaaseen tahtiin.
 
Kannattaa kokeilla uutta (n. viikon vanha) Qwen3-Coder-Next mallia, pitää ainoastaan osan mallista "kuumana", eli 80B mallin saa ei-niin-hitaaksi jopa 16GB kortilla. n. 30 tokenia, joka on jo ihan siedettävä paikalliselle mallille. Toki loppuosan pitää mahtua muistiin ja PCI-e 5:stä ei todellakaan ole haittaa.
Ehdottomasti paras lokaalimalli, jota olen tähän mennessä testannut.
 

Uusimmat viestit

Statistiikka

Viestiketjuista
300 371
Viestejä
5 124 953
Jäsenet
81 790
Uusin jäsen
Eikkapoika

Hinta.fi

Back
Ylös Bottom