AI-koodausavustimet, keskustelua AI-avustetusta koodaamisesta/skriptaamisesta/dokumentoinnista/...

Onkohan muuten kukaan tutkinut miten kielen valinta vaikuttaa tokenien käyttöön ja yleisesti siihen, miten nopeasti ja virheettömästi AI saa tuotettua koodia? Itse kuvittelisin että joku Go voisi olla aika näppärä AI:lle, kielenä simppeli, huippunopeat käännökset ja hyvä instrumentointi. Rustilla saa toki tietyn joukon virheitä eliminoitua, mutta käännökset on hitaita ja kieli huomattavasti monimutkaisempi. Pythonilla nopea kehittää, löytyy valmiita kirjastoja, joita AI:t osaa hyödyntää mutta virheitä tuntuu jäävän suhteellisen paljon. JavaScriptillä varmaan sama kuin Pythonilla.
Mulla on kokemusta ainoastaan C# ja C++, mutta vähemmän virheitä ollut C# koodissa. Enimmäkseen ongelmia null pointerien kanssa.
 
DeepSWE benchmarkkiin liittyen sen tekijöiden blogipostaus. Oli kuten arvelinkin uusi ennennäkemätön setti koodaustehtäviä. Repeää erot isoksi kun erottuu mallit jotka osaavat ja mallit jotka aikaisemmin näyttivät osaavan kun oli opetusdatassa benchmarkki sisässä. Esim. deepseek v4 pro tipahtaa polvilleen. Ennen huijattiin 3dmarkissa, nykyään koodausbenchmarkeissa.
Every DeepSWE task is original: the reference solution is written from scratch rather than copied or adapted from an existing pull request, commit, or public patch. Some tasks are motivated by unresolved GitHub issues, but the fix itself is new. DeepSWE tasks are also never merged back into the upstream repositories, so they do not enter the public GitHub record and are unlikely to appear in future pre-training corpora scraped from open source.p

1779876037940.png


 
Viimeksi muokattu:
Lähetin pyynnön tuolle yöllä, ei ole kuulunut mitään. En ole ilmeisesti uskottava firma. :smoke:
En enää muistanutkaan tätä (OpenAI lupasi ilmaista Codex firmoille), tuli nyt viesti, että liity ChatGPT Business ja saat $1000 promon.

E: Olin jo varma, ettei tuo toiminut, kun jäi jumittamaan latausanimaatioon. No tunnin päivittelyn jälkeen onnistui, kai tämä ehkä kahta 20€ subia vastaa. :smoke:
1779917826622.png
 
Viimeksi muokattu:
Anthropicin blogista. Tulossa sekä halvempia kyvykkäitä malleja, että "viikkojen sisään" mythos tason parempi malli. Olisi mukava nähdä deepswe numerot, noihin anthropicin omiin mittauksiin ei ole luottamista.

Users will find Opus 4.8 to be a modest but tangible improvement on its predecessor. There’s still more to be done: we’re working on developing and releasing models that provide many of the same capabilities as Opus at a lower cost.

Not only that, but we plan to release a new class of model with even higher intelligence than Opus. As part of Project Glasswing, a small number of organizations are currently using Claude Mythos Preview for cybersecurity work. Models of this capability level require stronger cyber safeguards before they can be generally released. We’re making swift progress on developing these safeguards and expect to be able to bring Mythos-class models to all our customers in the coming weeks.
 
Viimeksi muokattu:
Tekisi myös mieli ottaa €200 Codex. Alkaa tästä €100 tilauksesta loppumaan tokenit kun GPT on alkanut pelaamaan Amigalla.

Siis kun sanoo vaikka että Super Cars II peliin on tullut regressio ja jumittaa kentän alussa, niin AI lähtee käynnistämään peliä, ohittaa cracktron, sitten intron, sitten menun, vaihtaa disketin ja sitten varmistaa "joo tosiaan se menee jumiin". Sitten se tutkii bittejä ja selvittää vian olevan disk controllerin DMA-toteutuksessa.

Aikaa kyllä menee välillä ihan kivasti. AI käytti Hired Guns testaukseen neljä tuntia kun selvitti miksei valikoissa näy tekstit. Lopuksi bugi oli CopperBenchissä. Niin tosiaan, Workbench on nyt CopperBench...
 
Niin olisi myös hyvä nähdä tulokset nyt ja tulokset uudestaan 2kk päästä.
Näin olisi hyvä. Tosin tuo deepswe kun on testisetti salainen niin voi tovinaikaa säilyä minimaalisen huijauksen piirissä. Toki saavat jokaisesta ajosta jotain palautetta mahdollisesti mikä auttaa kohdistamaan "optimointeja" tai jos oikein tosissaan haluavat huijata niin omilta servereiltä onkivat EULA:n vastaisesti tehtävänannot/promptit. Kiinalaisia nyt ei ainakaan pelota niin ei yllättäisi, että serveriltä kaivetaan ulos mikä se deepswe ongelmasetti oikeasti oli. Sitten overfittiä niin näyttää hyvältä vaikka oikeasti ei toimi.
 
Itsellä tulee käytettyä pääosin Ollaman pilvimalleja Cloud models · Ollama
Oma lemppari on kimi-k2.6 joka mielestäni suoriutuu koodaustehtävistä Clauden opus 4.6 ja 4.7 paremmin. Pitkän aikaa tuli käytettyä GLM-5.1, mutta mielestäni kimi vaan saa hommat tehtyä paremmin ilman suurempia ongelmia. Lisäksi tuolla 20$/kk hintaa Ollaman pilvimalleja saa käyttää melko paljon, varmaan kerran loppunut viikossa tokenit kesken, kun Claudella saman hinnan palvelusta tokenit saa kulutettua melkein päivässä.
 
Niin olisi myös hyvä nähdä tulokset nyt ja tulokset uudestaan 2kk päästä.
Niin tosiaan kun "onnistumis %" aina mainitaan myös paljonko ajo maksoi, monestikkaan ei näy kuinka kauan ajo kesti. Jos malli ns 1% parempi, mutta ruksuttaa 2x pidempää niin niin...


Nyt on Opus 4.8 mukana DeepSWE testissä.
Tämän sisällön näkemiseksi tarvitsemme suostumuksesi kolmannen osapuolen evästeiden hyväksymiseen.
Lisätietoja löydät evästesivultamme.

Linkki: https://x.com/ibragim_bad/status/2060457998133170307?s=46

Mitäs nuo Claude/Codex/Cursor on olevinaan? Vissin kai tarkoitettu opus 4.8/joku GPT/Composer 2.5?

edit: nuo tulokset ovat jostain SWE-rebench, ei DeepSWE näin äkkiseltään jos ymmärsin.
Tämän sisällön näkemiseksi tarvitsemme suostumuksesi kolmannen osapuolen evästeiden hyväksymiseen.
Lisätietoja löydät evästesivultamme.

Linkki: https://x.com/PawelHuryn/status/2060283233447600145
 
Viimeksi muokattu:
Mulla ollut Codex /goal -modessa kääntämässä Descent 2 dos source koodia apple siliconille, taitaa noita monta jo olla tehtynä, mutta tämä jos onnistuis, niin yritän että saisiko tuon gym-ai yhteensopivaksi, tekemällä siihen rajapinnat pythonia varten. Voisi olla ihan mielenkiintoinen koulutusympäristö.
1780132991140.png
 
Nyt on Opus 4.8 mukana DeepSWE testissä.
Mielenkiintoinen jyvänen oli tuolla seassa cursor:sta. Jos cursor+xai(spacex) yhteistyö toimii ja spacex ostaa cursorin niin voi tulla kova kilpailija hinta/laatu koodaushommiin
Cursor with Composer 2.5 is very cheap and strong: around 8× cheaper than Claude Code and Codex, and scores higher than open-weight models!

edit. joo, tuo oli joku swe-rebench, mikälie. En muista aikaa millon olis koodausrintamalla näin paljon tapahtunut sitten space-tab sodan jälkeen.
 
Eipä tuolla hirveästi ole väliä, kun se tuotos pitää kuitenkin katselmoida. Pullonkaula ei edelleen taida olla se malli.
Omissa caseissa sillä on paljonkin väliä ja en katselmoi jokaista ai:n promptin tuotosta vaan joskus muutaman iteraation jälkeen.

Ja itse en käytä agenttia ns tässä taski ja odottelen valmistumista vaan kun yksi jauhaa yhtä asiaa niin toinen agentti jotain aivan muuta taskia...ns eri workspacessa. Mitä vähemmän joudun odottelemaan sitä parempi.
 
DeepSWE:n sivuilla on eilen päivitetty tulokset. Opus4.8 mukana. Taskin hinta x-akselilta, hinta kasvaa vasemmalle päin.
1780138156226.png
 
Mulla ollut Codex /goal -modessa kääntämässä Descent 2 dos source koodia apple siliconille, taitaa noita monta jo olla tehtynä, mutta tämä jos onnistuis, niin yritän että saisiko tuon gym-ai yhteensopivaksi, tekemällä siihen rajapinnat pythonia varten. Voisi olla ihan mielenkiintoinen koulutusympäristö.
1780132991140.png
Tämä nyt 16h 18min xhigh:lla mennyt ja 20% käytetty viikko budjetista.
Tuossa 200€ tilauksessa tuntuu tokeneita riittävän.

edit:caveman full skill käytössä
 
Viimeksi muokattu:
Mulla ollut Codex /goal -modessa kääntämässä Descent 2 dos source koodia apple siliconille, taitaa noita monta jo olla tehtynä, mutta tämä jos onnistuis, niin yritän että saisiko tuon gym-ai yhteensopivaksi, tekemällä siihen rajapinnat pythonia varten. Voisi olla ihan mielenkiintoinen koulutusympäristö.
1780132991140.png
Ompa kätevä... Osaiskohan tuollanen kääntää jonkun asennetun pelin vaikka suomenkielelle? Osaisko se etsiä kielitiedoston ja tehdä muutokset, sitte vielä lopuksi tekis random muutoksia niin kauan että MD5 checksum (tai mitä ikinä käyttääkään) ois sama mikä aloittaessa? :D
 
Tuo olisi mielenkiintoinen tehtävä AI:lle, tuon kun speksaa kunolla niin tiedä vaikka onnistuisi :o
MD5 checksum/ SHA-256 tms pysyvyys voi olla tosin mahdoton.
 
On muuten tuossa Codex /goal hommassa bugi: jos kesken ajon kysyt jotain, se kysymys jää kiertämään sinne jokaiselle taskille aina uudestaan ja uudestaan.
 
Viimeksi muokattu:
Tämä nyt 16h 18min xhigh:lla mennyt ja 20% käytetty viikko budjetista.
Tuossa 200€ tilauksessa tuntuu tokeneita riittävän.

edit:caveman full skill käytössä
Koominen tuo maksutapojen ero, suunnilleen tuon verran agentti jauhanut itsellä ja päälle vielä suosinut pilipalimalleja ja alkaa olla 500€ käytetty krediteistä.
 
Tuossa 200€ mallissa taisi olla mainostettu 20x se 20€ käyttöraja. Näin paljon, jos olisin tätä API:lla suoraan ajanut niin veikkaan myös että samoissa summissa mentäisiin.

Nyt 24h täynnä ja viikkobudjetista jäljellä 66%, tällähän tekisi 8h/työpäiviä missä AI pyörii kokoajan vissiin ihan heittämällä läpi kuukauden.
Se tietysti, että kun malli pyörii tuossa Descent 2 lähdekoodikansiossa, niin kuinka paljon se lienee täyttää kontekstia, eri asia olisi joku iso modulaarinen 200k rivin projekti ja siellä temmeltää niin lienee tokenit kelpaisi.
1780169140619.png
 
Nyt 24h täynnä ja viikkobudjetista jäljellä 66%, tällähän tekisi 8h/työpäiviä missä AI pyörii kokoajan vissiin ihan heittämällä läpi kuukauden.
Se tietysti, että kun malli pyörii tuossa Descent 2 lähdekoodikansiossa, niin kuinka paljon se lienee täyttää kontekstia, eri asia olisi joku iso modulaarinen 200k rivin projekti ja siellä temmeltää niin lienee tokenit kelpaisi.
1780169140619.png
Minulla on nyt ~100k rivin hupiprojekti, sain käyttöä huomattavasti alas, kun teetin joka systeemille oman .md ja AGENTS.md ohjaa niihin. Orkestroijana 5.4 high 1m kontekstin kanssa, koodaus, luku ym. helpot asiat tehdään 5.3/5.4 low/med kanssa, 5.5 xhigh kosketaan vain kun pitää selvittää joku vaikea asia tai suunnitella. Jos alkaa rajat paukkua vastaan kannattaa kokeilla jotain vastaavaa viritelmää. Jos kunnolla haluaa venyttää penniä niin laittaa jonkun aliagentin paikalliseksi malliksi.
 
Päivitin 200€ tilaukseen. Pakko saada lisää tokeneita, firman piikkiin tietenkin.

Codex Appilla kun teen (en ole viritellyt autonomiaa, olen vielä amatööri...) niin tehokkain tapa näyttäisi olevan työskennellä niin että jokainen konteksti-ikkuna keskittyy yhteen asiaan. Yksi agentti tekee, sen jälkeen toinen auditoi, ja kolmas ehkä sitten tekee suunnitelman joka taas menee tekevälle agentille. Siis paremmin kuin jos käyttäisi samaa kontekstia koko ajan. Tässä kai etuna että konteksti ei roskaannu kun jokainen keskittyy vain yhteen asiaan.
 
Siellä olisi huomenna tulossa limit reset taas Codexiin
Tämän sisällön näkemiseksi tarvitsemme suostumuksesi kolmannen osapuolen evästeiden hyväksymiseen.
Lisätietoja löydät evästesivultamme.

Linkki: https://x.com/thsottiaux/status/2060964284117782996?s=46

Tämä on osittain höpöhöpöä, koska limiitit resetoitiin viimeksi viikko sitten sunnuntaina. Eli yhden päivän saa käytellä ilmaiseksi. Ja Codexin kamppis päättyy tänään millä sai tuplasti tokeneita.

Mut laitanpa Codexin fast modeen kun kerran voi.
 
Tekoäly ei pärjää ilman ihmisen apua. Tässä todiste:
1780218878756.png

Unohtakaa alaosan bugit, sen vuoro tulee myöhemmin. Merkkasin keltaisilla pystypalkeilla kohdat missä on selkeä grafiikkabugi: kuva alkaa yhden pikselin liian aikaisin ja loppuu yhden pikselin liian myöhään.

Tuo johtuu syntyy siitä että cycle-exact copper ei ole cycle-exact, vaan siellä on pyöristysvirhe. Lähtökohtaisesti mitään pyöristysvirhettä ei pitäisi olla koska ei pitäisi olla mitään pyöristettävää eli tekoäly on oikaissut. AI joutuu nyt sunnuntaina ylitöihin.
 
Linuxin VR supportti on kyllä ollut aika surkee niin otin nyt ton codexin 5.5 testiin ja eilen rakensin linux natiivin serverin virtuaalikoneeseen mikä hostaa kaikki kotiverkon/NAS kontentin lähiverkkoon ja VR lasien webbiselaimella avaa sivun niin siirtyy VR modeen ja three.js/webxr hoitaa stereo-3D projektion laseihin ja toimii muuten ihan tosi hyvin, sain ohjainhotkeyt quest controllerilla toimimaan sekä hand/finger tracking toimii myös vaihtoehtoisesti 5/5.

Teoriassa ei ole edes väliä jos vaihtaa toisiin laseihin niin pitäisi toimia millä vaan laseilla missä on moderni nettiselain integroituna.
 
Linuxin VR supportti on kyllä ollut aika surkee niin otin nyt ton codexin 5.5 testiin ja eilen rakensin linux natiivin serverin virtuaalikoneeseen mikä hostaa kaikki kotiverkon/NAS kontentin lähiverkkoon ja VR lasien webbiselaimella avaa sivun niin siirtyy VR modeen ja three.js/webxr hoitaa stereo-3D projektion laseihin ja toimii muuten ihan tosi hyvin, sain ohjainhotkeyt quest controllerilla toimimaan sekä hand/finger tracking toimii myös vaihtoehtoisesti 5/5.

Teoriassa ei ole edes väliä jos vaihtaa toisiin laseihin niin pitäisi toimia millä vaan laseilla missä on moderni nettiselain integroituna.
Toimiiko tuo selain vr-juttu nykyään kunnolla? Viimeksi kun testasin oli ihan tajuttoman kälyinen jos olisi halunnut tehdä normiwebbityylisen jutun missä on navigointia ja kontentin valintaa mukana. Älyttömän huono siirtymä 2d ja 3d moodien välillä. Olisi sillon pitänyt tehdä webgl:lla jos haluaisi järkevän käyttäjäkokemuksen webbisivulle missä kompleksisempaa navigointia ja seassa 3d videoita ja kuvia.
 
Toimiiko tuo selain vr-juttu nykyään kunnolla? Viimeksi kun testasin oli ihan tajuttoman kälyinen jos olisi halunnut tehdä normiwebbityylisen jutun missä on navigointia ja kontentin valintaa mukana. Älyttömän huono siirtymä 2d ja 3d moodien välillä. Olisi sillon pitänyt tehdä webgl:lla jos haluaisi järkevän käyttäjäkokemuksen webbisivulle missä kompleksisempaa navigointia ja seassa 3d videoita ja kuvia.
Toimii tosi hyvin, ihan kuin käyttäisi natiivia VR appia, parempi kuvanlaatu videotoistossa kuin noilla aikaisemmilla maksullisilla sovelluksilla ja täys ohjain/gesture supportti.

Videot siirtyy lähiverkon yli joten ei myöskään ole niissä minkäänlaista kompressiota.
 
Toimii tosi hyvin, ihan kuin käyttäisi natiivia VR appia, parempi kuvanlaatu videotoistossa kuin noilla aikaisemmilla maksullisilla sovelluksilla ja täys ohjain/gesture supportti.
Mut jos meinaat tehdä esim. UI:n missä tekstiä ja valikoita niin saako ne sinne sekaan fiksusti eikä joku tökero siirtymä 3d moodiin kontentin ajaksi ja sieltä takaisin 2d moodiin valitsemaan seuraavaa? Viimeksi kun testasin niin totesin, että ne ideat mitä mulla on niin vaatii unity/unreal engine kun webbisivut on superkälyinen tapa tehdä mitään muuta kuin videoplayeri jossa ollaan pitkä aika. En sillon löytänyt yhtään webbisivua mikä olisi vr:ssa toiminut fiksusti, kaikki fiksut systeemit oli natiiveja appseja tai webgl.
 
Mut jos meinaat tehdä esim. UI:n missä tekstiä ja valikoita niin saako ne sinne sekaan fiksusti eikä joku tökero siirtymä 3d moodiin kontentin ajaksi ja sieltä takaisin 2d moodiin valitsemaan seuraavaa? Viimeksi kun testasin niin totesin, että ne ideat mitä mulla on niin vaatii unity/unreal engine kun webbisivut on superkälyinen tapa tehdä mitään muuta kuin videoplayeri jossa ollaan pitkä aika.
Rakensin UI:n kokonaan 3D moodin sisään eli kun menee sivulle, klikkaa siirry VR modeen niin kaikki interaktio tapahtuu siellä ilman mitään enempiä siirtymiä.
 
Rakensin UI:n kokonaan 3D moodin sisään eli kun menee sivulle, klikkaa siirry VR modeen niin kaikki interaktio tapahtuu siellä ilman mitään enempiä siirtymiä.
Googlettelin. Tuo threejs näyttää olevan webgl:n päälle rakennettu.
 
Minimax M3 julkaistu. Taisivat hieman nostaa hintoja, muistelisin, että tuo pienin oli aiemmin $100/v.
 
Penninvenytysvinkki:
Modal.com tarjoaa $30 edestä ilmaista käyttöä kuukaudessa, nämä tarjolla:
1780310397504.png

Heitin testiin Qwen3.6-27B FP8 @ RTX PRO 6000 ja nyt se tykittää läpi kilometrin mittaista refaktorointisuunnitelmaa. Toki tuolla voi tehdä mitä tahansa muutakin kuin pyörittää koodausavustimia. Käskee tekoälyn kirjoittaa skriptit ja muut konffit niin ei tarvitse itsellä opetella tuota modalin systeemiä.
 
Hinnat nousee. En ole asiantuntija, mutta tuleeko jossain vaiheessa seinä tai jarru vastaan? Raflaava artikkeli, mutta kai noihin pitää pelisääntöjä firman sisäisesti luoda.

Ei tule seinä vastaan, mutta piikki laitetaan kiinni. Tiimeille budjetoidaan tietty rahamäärä tokeneihin joilla on pärjättävä.
 
Tänään testaillut koko päivän Opus 4.8 max effortilla. Liekö sitten malli pysyvästi pilalla vai paljon taas liikennettä nyt kun flipfloppaajat avat taas vaihteeksi Clauden parissa, mutta täysi idioottihan tuo on.

Olen kahta kokonaan erillistä projektia puskenut eteenpäin ja molemmissa esiintyy samat kuviot kuin aiemminkin: Claude on jatkuvasti laiska, valittelee työn määrää ja ehdottaa töiden lopettamista (puolen tunnin jälkeen), ottaa älyttömiä oikoreittejä (joista ei kerro mitään) ja ohittaa jatkuvasti täysin eksplisiittisiä ohjeita ja käskyjä. Noh, tässä ei toisaalta ole mitään uutta ja olen tässä jo jonkin aikaa sitten ottanut ns. triplatyöstö-lähestymistavan, jossa ensin laitan Clauden hommiin, sitten laitan compliance-aligentin hommiin katsomaan noudattiko se oikeasti promptia ja pysyväismääräyksiä, sitten kolmannen agentin korjaamaan koko paskan. Tällä saa yleensä kohtuullisen käyttistä, mutta naurattaa kyllä näm kaikenmaailman /goal jutut sun muut. Itsellä kyllä tasan 0% luotto, että Claude pystyisi itsenäisesti vielä toteuttamaan mitään kovin laajaa kokonaisuutta. Noh, onneksi työnantaja maksaa Pro 20x tilauksen, henkilökohtaisen Claude-tilauksen pistän kyllä nyt jäihin, kun ei tuolla kahdenkympin tilauksella tee enää oikein mitään tämän tyhmäilyn ansiosta.

1780321509475.png

Claude Code, 2026.
 
Onko kukaan vielä tehnyt sarjakuvia tekoälyn avustamana?

Itselläni tämä oli ollut jo pidemmän aikaa mielessä, mutta vasta pari päivää sitten sain kerättyä luut kasaan ja aloitettua tekemisen.

Tein aluksi GPT:hen seitsemän erillistä promptia ja kaksi referenssikuvaa perusasioista, joilla määritellään hahmojen ikä, miltä perushahmot näyttävät, millainen ruumiinrakenne heillä on ja kuinka he pukeutuvat. Nämä määritykset auttavat siinä, että henkilöt näyttävät samanlaisilta kaikissa tulevissakin sarjakuvissa.

Lopuksi piti tehdä vielä yksi "custom prompt", jolla varsinaisesti käsketään luomaan sarjakuva. Siinä kerrotaan esim. minkälaisessa ympäristössä ollaan, keitä hahmoja kuvissa esiintyy, mitä he tekevät, minne he katsovat, hahmojen asennot, ilmeet sekä tunteet ja mitä puhekupliin kirjoitetaan.

Puhekuplia varten piti promptata kielilukot, jotta kaikki ääkköset tulostuvat oikein eikä sanoja katkaista miten sattuu puhekuplien sisällä. Sen lisäksi piti promptata monenlaisia asioita, joita ei saa tehdä, kuten alkaa pehmentämään käytettyjä sanoja, vaan antaa minun käyttää luovasti vähän ronskimpaa kieltä tarvittaessa.

Promptasin vielä sarjikseen "vierailijan", joka voisi olla vaikka kiroileva siili, poliitikko, kärpänen, kastemato, avaruusolio, kissa tai naapurin mummo. Tällöin promptin mukana annetaan vaikka oikea kuva liitteenä, ja tekoäly generoi sarjakuvaan mukaan muiden hahmojen tyyliin sopivan vierashahmon, mutta kuitenkin täysin tunnistettavana.

Paljon voi tulla vielä kaikenlaista korjattavaa eteen, mutta perusasiat näyttäsivät jo toimivan mallikkaasti.

sarjis-final-hahmoilla-vuosiluku.png


CHARACTER_SHEET_FINAL.png
 

Statistiikka

Viestiketjuista
309 178
Viestejä
5 243 070
Jäsenet
83 446
Uusin jäsen
typokeke

Hinta.fi

Back
Ylös Bottom