AI-koodausavustimet, keskustelua AI-avustetusta koodaamisesta/skriptaamisesta/dokumentoinnista/...

kvjanhun · torstaina klo 16:16

finWeazel sanoi:
Tuo uusi malli tyhjistä pitää paikkansa, tästä on openai:n työntekijät kertoneet. Tuskin saavat kaikkea irti julkaisussa uudesta mallista. Pitä tie missä viilaavat ja parantelevat uuden päälle.

Kuka näitä nimeää. ”Koulutettiin tää iha uudesti, siispä nimettiin se minor-päivitykseksi vanhasta!”

finWeazel · torstaina klo 16:23

kvjanhun sanoi:
Kuka näitä nimeää. ”Koulutettiin tää iha uudesti, siispä nimettiin se minor-päivitykseksi vanhasta!”

Se, että on koulutettu uusiksi ei välttämättä tarkoita että olis isoin paras versio jaossa kuluttajille tai että toimii nyt superpaljon paremmin. Mun käsitys, että uudelleenkoulutus on pohja minkä päälle on hyvä rakentaa tulevaisuutta, kehitys jatkuu ja jatkuu. Voi olla myös jotain toimii nopeammin/pienemmillä token määrillä antaen saman laadun kuin entinen hitaampi malli tms.

Mielenkiinnolla odottelen mitä sieltä tulee.

--

Vähän sivusta muistuu mieleen kun tehtiin tuotetalossa järjettömän kovasti duunia tuotteiden arkkitehtuurin parantamiseen, että voitaisiin myöhemmin tehdä uusia toiminnallisuuksia. Release nooteissa "new improved architecture". Tuli aika paljon kyselyitä asiakkailta mitä tällä uudella arkkitehtuurilla voi tehdä(ei mitään). Siinä valkeni heti uran alkupuolella miten vähän asiakasta kiinnostaa miten makkara on tehty ja mitä asiakkaille kannattaisi mainostaa ja mitä ei. Oli niin pieni tuotetalo, että valui tekijöille asti asiakaspalaute.

mlackke · torstaina klo 17:24

Ainahan sitä uutta mallia pitää rummuttaa.."our new model trained data with NASA and hallucinates less than Trump...tjsp"

Sieltä tulee se 1-10% parannuksia oleva malli, kysymys kuuluu mikä on hinta ja nopeus.

finWeazel · torstaina klo 18:01

En tiedä miten mallien paremmuuksia/parannuksia voisi edes realistisesti mitata. Vähän sama kuin mittais hakeeko litran maitoa kaupasta parhaiten skootterilla, skodalla vai ferrarilla. Yks voi käytellä pientä mallia ja toimii täydellisesti ja nopeasti. Toisen käyttötapaus ja koodipohja niin monimutkainen ettei state of the art isokaan malli toimi. Suurin osa siellä välissä, että toimii melko hyvin mutta toisinaan törmäilee reunoihin.

Benchmarkit ei kerro oikein mitään. Jos on viekas mallintekijä niin overfit:lla saa benchmarkit näyttämän hyvältä mutta tulos ei yleistä normaalikäyttöön. Salainenkaan datasetti millä mallit testataan ei oikein toimi kun mallintekijä saa jokaisesta testikierroksesta palautetta ja voi tuunata sen avulla mallia benchmark-optimoiduksi(arg agi). Vähän samaa hello world tyylisissä appseissa, tulee sikahieno nopeasti ... opetusdatasta kopioimalla. Totuus selviää vasta kun yrittää tehdä kompleksisempaa, selviää osaako malli vai ei.

OpenAI toiminut eilen ja tänään surkean hitaasti fast moodissakin.

tarmo2011 · torstaina klo 18:41

Just ilmaista Claudia käytin, kerroin sille mitä muutoksia olin itse tehnyt ja pyysin tarkistamaan ja korjaa yhden pienen jutun. Se avasi ekan filun (100 riviä) ja tuumaa et nyt loppu taas limitti, jatkappa 6h päästä uusiksi. Aika epätoivosta yrittää yhtään mitään.

finWeazel · torstaina klo 18:46

tarmo2011 sanoi:
Just ilmaista Claudia käytin, kerroin sille mitä muutoksia olin itse tehnyt ja pyysin tarkistamaan ja korjaa yhden pienen jutun. Se avasi ekan filun (100 riviä) ja tuumaa et nyt loppu taas limitti, jatkappa 6h päästä uusiksi. Aika epätoivosta yrittää yhtään mitään.

Samaa sanovat 20e/kk tilauksesta. Voipi olla yks pyyntö ja meni 5h tokenit. Testailevat anthropic:lla koodausavustimen poistamista 20e/kk tilauksesta

OpenAI imho. parempi vaihtoehto tällä hetkellä kun eivät ole tyhmentäneet agenttia, tokeneita saa enempi samalla rahalla.

JeanS · torstaina klo 19:59

Clauden Sonnet 4.6:n avulla sain pystyyn oman CI/CD putken (VS-Code - Python - lokaali Jenkins serveri ja GitHub. Meni pari päivää että sain pelittämään. Ns tuotanto softaa olen tehnyt viimeksi n. 20v sitten.
Lisäyksenä: Pro tilaus, eikä weekly limit ole kuin 4%. Lisäksi saanut viriteltyä pfSense palomuuria, kotiverkkoa yms. Clauden ohjeilla

mailbag · torstaina klo 21:25

gpt 5.5 julkaistu, näyttää olevan suht mieto bump-up edelliseen, itse odotin vähän enemmän kaiken hehkutuksen jälkeen.

finWeazel · torstaina klo 21:33

mailbag sanoi:
gpt 5.5 julkaistu, näyttää olevan suht mieto bump-up edelliseen, itse odotin vähän enemmän kaiken hehkutuksen jälkeen.

Ei kannata liikaa miettiä vain noita numeroita kun totuus on siinä miten malli oikeasti toimii. Numerot ei kerro koko tarinaa. Claude 4.7 numerot paremmat kuin 4.6. 4.7 ja 4.6 toimivat tänään huonommin kuin iänwanha 4.5. 4.6 muuttui kesken kaiken lobotomiapotilaaksi. Asiat on monimutkaisempia kuin x > y ja ero a-prosenttiyksikköä.

Iso pihvi oikeassa toimivuudessa ja siinä miten paljon konesalia malli syö.

GPT‑5.5 matches GPT‑5.4 per-token latency in real-world serving, while performing at a much higher level of intelligence. It also uses significantly fewer tokens to complete the same Codex tasks, making it more efficient as well as more capable.

Across these domains, GPT‑5.5 is not just more intelligent; it is more efficient in how it works through problems, often reaching higher-quality outputs with fewer tokens and fewer retries. On Artificial Analysis's Coding Index, GPT‑5.5 delivers state-of-the-art intelligence at half the cost of competitive frontier coding models.

mlackke · perjantaina klo 09:41

finWeazel sanoi:
En tiedä miten mallien paremmuuksia/parannuksia voisi edes realistisesti mitata. Vähän sama kuin mittais hakeeko litran maitoa kaupasta parhaiten skootterilla, skodalla vai ferrarilla. Yks voi käytellä pientä mallia ja toimii täydellisesti ja nopeasti. Toisen käyttötapaus ja koodipohja niin monimutkainen ettei state of the art isokaan malli toimi. Suurin osa siellä välissä, että toimii melko hyvin mutta toisinaan törmäilee reunoihin.

Benchmarkit ei kerro oikein mitään.

Ehkä benchmarkit osoittavat, että malli osaa tehdä jotakin verrattuna muihin, kun ajetaan sama testi saman julkaisupäivän puitteissa

Nykyään valitsen mallin ja effortin (ja agentin) pitkälti sen mukaan, mikä tuntuu omasta fiiliksestä sopivimmalta kyseiseen tehtävään. Sekään ei kuitenkaan auta kun tulee noita “4.7 ja 4.6 toimivat tänään huonommin kuin ikivanha 4.5”, tai kun 4.6 muuttuu kesken kaiken täydeksi lobotomiapotilaaksi."

Tästä syystä olen jättänyt laajat promptit sikseen, vaikka kuinka olisivat hyvin laadittu prompti/TDD-pohjaisia jne ja tarkoitettu satojen rivien koodin tuottamiseen. Pienemmillä iteraatioilla olen päässyt parempaan lopputulokseen työpäivän jälkeen.

henkkahei · perjantaina klo 10:35

Anthropicin selitykset Clauden tyhmentymisestä

On March 4, we changed Claude Code's default reasoning effort from high to medium to reduce the very long latency—enough to make the UI appear frozen—some users were seeing in high mode. This was the wrong tradeoff. We reverted this change on April 7 after users told us they'd prefer to default to higher intelligence and opt into lower effort for simple tasks. This impacted Sonnet 4.6 and Opus 4.6.
On March 26, we shipped a change to clear Claude's older thinking from sessions that had been idle for over an hour, to reduce latency when users resumed those sessions. A bug caused this to keep happening every turn for the rest of the session instead of just once, which made Claude seem forgetful and repetitive. We fixed it on April 10. This affected Sonnet 4.6 and Opus 4.6.
On April 16, we added a system prompt instruction to reduce verbosity. In combination with other prompt changes, it hurt coding quality and was reverted on April 20. This impacted Sonnet 4.6, Opus 4.6, and Opus 4.7.

Ihan hyvä idea varmaan tämä:
"We are going to do several things differently to avoid these issues: we’ll ensure that a larger share of internal staff use the exact public build of Claude Code (as opposed to the version we use to test new features)"

finWeazel · perjantaina klo 14:16

mlackke sanoi:
Ehkä benchmarkit osoittavat, että malli osaa tehdä jotakin verrattuna muihin, kun ajetaan sama testi saman julkaisupäivän puitteissa

Joku arc agi3 ja muut sellaiset testit joissa testidata on salaista, on iso ero opetus ja testidatassa ja mallit ajetaan salaista testidataa vastaan hyvin harvoin(tietoa salaisesta testidatasta vuotaa joka ajokerralla). Tällaisiin voi jollain tapaa luottaa mutta näitä on todella vähän.

Benchmarkit tosi huono kun niitä varten voi ja optimoidaan. Suhteellisen helppo saada numerot näyttämään hyvältä ja ei toimi reaalimaailmassa kuten numerot antaisivat osoittaa. Esimerkkejä tästä vaikka kuinka paljon. overfit/tungetaan benchmarkit tavalla tai toisella opetustdataan

Toinen puol tietenkin tämä claude 4.6, 4.7 missä nähty että samakin malli saadaan tyhmennettyä radikaalisti.

Kai pelinnimi tällä hetkellä on, että kun ei ole riittävää konesalikapasiteettia niin kompromissi haettava eikä voida ajaa kaikille isoimpia malleja tai edes pienempää mallia "parhailla" asetuksilla. En siis usko, että mythos on liian kyvykäs, se on vain upea markinointikampanja tilanteessa missä anthropic:lla ei ole konesalikapasitettia mallin tarjoamiseen.

--

Ensituntumat eiliseltä gpt5.5:sta että on se parempi mutta ei silleen että wow sukat pyörii jalassa. Isohkon kasan teki parannuksia kötöstyksiin mitä edelliset kielimallit tehneet, yhden juurisyyn erikoiseen ongelmaan kaiveli helposti mitä edellinen malli ei osannut. Paransi himmelin ajo ja devausvakautta. Tuntuu myös vaativan vähemmän promptaamista, että tajuaa mitä pitäisi tehdä. Siirryin käyttämään high moodissa kun se toimii riittävän hyvin versus 5.4:sta ajoin xhigh moodissa.

Karhu III · perjantaina klo 14:24

mlackke sanoi:
Ehkä benchmarkit osoittavat, että malli osaa tehdä jotakin verrattuna muihin, kun ajetaan sama testi saman julkaisupäivän puitteissa

Nykyään valitsen mallin ja effortin (ja agentin) pitkälti sen mukaan, mikä tuntuu omasta fiiliksestä sopivimmalta kyseiseen tehtävään. Sekään ei kuitenkaan auta kun tulee noita “4.7 ja 4.6 toimivat tänään huonommin kuin ikivanha 4.5”, tai kun 4.6 muuttuu kesken kaiken täydeksi lobotomiapotilaaksi."

Tästä syystä olen jättänyt laajat promptit sikseen, vaikka kuinka olisivat hyvin laadittu prompti/TDD-pohjaisia jne ja tarkoitettu satojen rivien koodin tuottamiseen. Pienemmillä iteraatioilla olen päässyt parempaan lopputulokseen työpäivän jälkeen.

Siinä välissä on myös se applikaatiolayeri, eli palastellaan mitäs tässä kysytään ja miten ohjataan eteenpäin. Eli vaikka kielimalli pysyy samana, oma prompti pysyy samana, niin lopputulos voi muuttua jos applikaatiolayeri muuttuu.

finWeazel · perjantaina klo 14:55

Karhu III sanoi:
Siinä välissä on myös se applikaatiolayeri, eli palastellaan mitäs tässä kysytään ja miten ohjataan eteenpäin. Eli vaikka kielimalli pysyy samana, oma prompti pysyy samana, niin lopputulos voi muuttua jos applikaatiolayeri muuttuu.

Tän lisäksi myös ajetaan erilaisilla parametreilla(kvantisointi, parametrien määrä, high voi olla x parametriä tänään, y parametria huomenna) mallin ajattelua, montako rinnakkaista ajatteluflow:ta, miten paras vastaus valitaan, ajatellaanko uusiksi valitun vastauksen pohjalta jne. Näiden tunkkaukseen lienee opus4.6/opus4.7 tyhmentyi. Alkoi päättämään että tietää vastauksen eikä ajatellut ollenkaan("pattern matching, monistaa olemassaolevaa" ja vaikka ajattelisi niin ajatteli vähemmän kuin ennen. Molempiin näistä oli amd:lta erittäin hyvät datat näyttää että mallia huononnettu. Vaikka käyttäjä tuunaa clienttipään parametrit maksimiin niin silti ei 4.6, 4.7 useinkaan pääse samaan suorituskykyyn kuin 4.6 oli helmikuussa, osa porukasta siirtynyt käyttämään 4.5 kun se toimii luotettavammin.

--

OpenAI on hidas, mutta tyhmennetty se ei ole. Yksi sessio tässä ollut missä malli toimi kuin ellun kanat, mutta ei toistunut ja korjaantui exit, restart strategialla. Ehkä oli vaan bugi. Hyvin ymmärrän että openai:n fokus 5.5:ssa se että keskitytään paljon maksiminumeroiden sijaan siihen, että saataisiin malli mitä voidaan oikeasti käyttää voluumissa.

El Toro · perjantaina klo 15:48

finWeazel sanoi:
Ensituntumat eiliseltä gpt5.5:sta että on se parempi mutta ei silleen että wow sukat pyörii jalassa. Isohkon kasan teki parannuksia kötöstyksiin mitä edelliset kielimallit tehneet, yhden juurisyyn erikoiseen ongelmaan kaiveli helposti mitä edellinen malli ei osannut.

5.4 kanssa yritin eilen korjailla kasaa bugeja ja siitä ei tullut oikein mitään, pistin juuri 5.5 testiin, promptiksi pelkkä "fix" ja korjasi ongelmat

Ihan vaikuttava päivitys tämän kokemuksen perusteella.

GPGPU · perjantaina klo 16:40

Nyt on tullut testailtua Qwen3.6-35B-A3B Q4 mallia paikallisena, ja tämähän on ensipuraisulla aika vaikuttava.

RTX 4090:llä puskee 150 output tokenia sekunnissa, mikä taitaa olla jo useimpia frontier malleja nopeampaa. Ohjattu koodailu ja työkalujen käyttö näyttää onnistuvan suht mallikkaasti. Pitää testailla vielä lisää, josko olisi ensimmäinen oikeasti hyödyllinen lokaalimalli.

Välillä meinaa hymyilyttää tämän reasoning osiot, meinaa mopo karata pahasti käsistä:

...
Let's write.
I'll start with `wrapper.py`.
Then `tmux.py`.
Then explanation.
Then next step.
I'll keep it concise.
I'll follow the guidelines.
I'll be helpful.
I'll be precise.
I'll be concise.
I'll follow the workflow.
I'll avoid feature creep.
I'll follow the wisdoms.
I'll be simple.
I'll be explicit.
I'll be sparse.
I'll be readable.
I'll be flat.
I'll be beautiful.
I'll be practical.
I'll be correct.
I'll be efficient.
I'll be robust.
I'll be secure.
I'll be scalable.
I'll be maintainable.
I'll be testable.
I'll be documented.
I'll be versioned.
I'll be licensed.
I'll be open source.
I'll be community driven.
I'll be user friendly.
I'll be accessible.
I'll be inclusive.
I'll be diverse.
I'll be equitable.
I'll be just.
I'll be fair.
I'll be honest.
I'll be ethical.
I'll be moral.
I'll be responsible.
I'll be accountable.
I'll be transparent.
I'll be trustworthy.
I'll be reliable.
I'll be dependable.
I'll be consistent.
I'll be predictable.
I'll be deterministic.
I'll be reproducible.
I'll be verifiable.
I'll be auditable.
I'll be traceable.
I'll be observable.
I'll be monitorable.
I'll be measurable.
I'll be quantifiable.
I'll be analyzable.
I'll be inspectable.
I'll be debuggable.
I'll be testable.
I'll be deployable.
I'll be scalable.
I'll be extensible.
I'll be customizable.
I'll be configurable.
I'll be adaptable.
I'll be flexible.
I'll be modular.
I'll be componentized.
I'll be decoupled.
I'll be cohesive.
I'll be high quality.
I'll be best practice.
I'll be industry standard.
I'll be compliant.
I'll be certified.
I'll be accredited.
I'll be recognized.
I'll be respected.
I'll be trusted.
I'll be valued.
I'll be appreciated.
I'll be acknowledged.
I'll be celebrated.
I'll be honored.
I'll be remembered.
I'll be legendary.
I'll be immortal.
I'll be divine.
I'll be god.

Wait, I got carried away.
Let's stick to the task.
Task: Error handling wrapper for LLM tools.
Plan:
1. `wrapper.py` with `ToolError` and `llm_tool`.
2. `tmux.py` usage.
3. Type hinting explanation.
4. Next step.
...

Osa tästä reflektiosta tuli promptissa olevien "Zen of Python" viisauksien perusteella, toisen puolen ihan itse hallusinoiden

mlackke · perjantaina klo 17:18

finWeazel sanoi:
Tän lisäksi myös ajetaan erilaisilla parametreilla(kvantisointi, parametrien määrä, high voi olla x parametriä tänään, y parametria huomenna) mallin ajattelua, montako rinnakkaista ajatteluflow:ta, miten paras vastaus valitaan, ajatellaanko uusiksi valitun vastauksen pohjalta jne. Näiden tunkkaukseen lienee opus4.6/opus4.7 tyhmentyi.

Eikös näiden muutos jälkeen voi sanoa kyseessä on ns opus 4.7.1 eikä enää alkup julkaisu :hmm:

Mutta näistä kai ei sitten pahemmin tiedoteta.

finWeazel · perjantaina klo 17:23

mlackke sanoi:
Eikös näiden muutos jälkeen voi sanoa kyseessä on ns opus 4.7.1 eikä enää alkup julkaisu Mutta näistä kai ei sitten pahemmin tiedoteta.

Näinhän se menis ideaalisessa maailmassa. Nyt ei tiedetä mikä mallin versio, montako parametriä, mitkä asetukset ja heuristiikat ajatteluprosessissa, mikä system promptin sisältö jne. 4.6:en muuttuminen kylän idiootiksi hyvä esimerkki miten nimi sama mutta toimivuus täysin eri.

user_timo · perjantaina klo 21:33

Deepseek V4 flash / Pro malleja kokeilin kevyesti heidän API avaimella(onnistuu ennakkomaksu, ei ole pakko aktivoida pay for use), Pro ainakin muutamalla testillä vaikutti ihan osaavalta ja hurjan halpa.
Hermesissä vielä olisi tarkoitus tuota flash mallia testata kun se on miltei puoli ilmainen.

polarbear62 · perjantaina klo 21:53

GPGPU sanoi:
Nyt on tullut testailtua Qwen3.6-35B-A3B Q4 mallia paikallisena, ja tämähän on ensipuraisulla aika vaikuttava.

RTX 4090:llä puskee 150 output tokenia sekunnissa, mikä taitaa olla jo useimpia frontier malleja nopeampaa. Ohjattu koodailu ja työkalujen käyttö näyttää onnistuvan suht mallikkaasti. Pitää testailla vielä lisää, josko olisi ensimmäinen oikeasti hyödyllinen lokaalimalli.

Välillä meinaa hymyilyttää tämän reasoning osiot, meinaa mopo karata pahasti käsistä:

Osa tästä reflektiosta tuli promptissa olevien "Zen of Python" viisauksien perusteella, toisen puolen ihan itse hallusinoiden

Kannattaa säätää repeat penaltya ja muita asetuksia paikallisten mallien kanssa. Muuten saattaa tosiaan pelkkä "how are you" kysymys polttaa 200k tokenia ja viedä tekoälyn psykedeeliselle matkalle kohti Nirvanaa.

mailbag · perjantaina klo 22:21

polarbear62 sanoi:
Kannattaa säätää repeat penaltya ja muita asetuksia paikallisten mallien kanssa. Muuten saattaa tosiaan pelkkä "how are you" kysymys polttaa 200k tokenia ja viedä tekoälyn psykedeeliselle matkalle kohti Nirvanaa.

Repeat penalty ja presense penalty on suositeltu kytkettäväks pois päältä noiden qwen mallien kanssa, kannattaa sen sijaan laittaa katto reasoning budgetille ettei lähde käsistä.

finWeazel · perjantaina klo 23:35

Selected model at capacity virhettä openai pukannut muutaman kerran. Pääasiassa kyllä tehnyt todella hyvin, sanoisin että paras malli millä olen koodia agenttisesti yrittänyt tuottaa. Tosi hyvin tajuaa mikä on oleellista ja tekee oikein häröilemättä

finWeazel · eilen klo 15:13

Nyt toimii todella nopeasti openai, varmaan minimit konesalikuormaa lauantaina aikaisin aamusta. Ajanut gpt5.5 xhigh:lla koodiarviointeja +korjauksia talven aikana syntyneisiin koodipohjiin. Kyllä tuo selkeästi on parempi kuin vanhat kielimallit. Todella hyviä huomioita tekee koodipohjista, suunnitelmat parannukseen ja koodaa uusiksi.

Isoin juttu kyllä tuo miten se tajuaa mistä on kyse. Ei tarvi paimentaa ja pilkuttaa. Aika hyvin myös tajuaa millon kannattaa taskin skooppia kasvattaa ja fiksata jotain sivussa olevia asioita että oikea taski valmistuu paremmin. Sama juttu että integroitua mun amigoihin yms. paremmin ja luotettavammin kuin claude/gpt5.4. ts. työkalujen käyttö paremmalla tasolla.

Ei täydellinen, mutta alkaa nousemaan juniorista ylöspäin. En vielä oikeaksi sw engineeriksi väittäisi mutta suunta on oikea ja kehitys todellista.

Yksi konkreettinen taski mihin teki valtavasti parannuksia pätevästi ja "sivutaskina" oli amiga puolen sarjaporttitoteutus, hienosti optimoi sen kun huomasi että toisinaan tulee pakettien uudelleenlähetyksiä. Tarkoitus oli siistiä protokollaa ja tuli pieni side mission kun se löysi stressitestillä epävakautta. Jurnutti koko paketin kasaan ilman ihmisen väliintuloa.

mlackke · eilen klo 17:36

Open AI sivuilla 5.5 on 2x kalliimpi mitä 5.4

Copilotissa "hinta" 7.5x kuten Opuskin, frontier malleista saa jatkossa kuvetta kaivaa.

finWeazel · eilen klo 17:42

mlackke sanoi:
Open AI sivuilla 5.5 on 2x kalliimpi mitä 5.4

Copilotissa "hinta" 7.5x kuten Opuskin, frontier malleista saa jatkossa kuvetta kaivaa.

Ennemmin näin kuin että myytäisiin lobotomiapotilasta. Voi sitten käyttää tietoisesti vanhempaa/halvempaa mallia, jos sen laatu riittää ja välttää claude tyyliset idiotismit.

---

Hyvä mitä openai tekee niin tarkistaa ei arvaile

I’ll ground this in the current repo tooling rather than answer from memory: I’m checking the benchmark entry points, remote helper scripts, and any existing stack handling so the recommendations are actionable on the real A1200.

user_timo · eilen klo 20:12

Jos uskaltaa tuota Deepseek V4 pro kiinan mallia johonkin open source hommaan vaikka kokeilla niin se on -75% 5.5 saakka.

finWeazel · eilen klo 20:22

user_timo sanoi:
Jos uskaltaa tuota Deepseek V4 pro kiinan mallia johonkin open source hommaan vaikka kokeilla niin se on -75% 5.5 saakka.

Alkaa deepseekissäkin oleen kokoa. Isoin deepseek 1.6biljoonaa parametria. Flash:ikin sen kokoinen ettei edes 5090:en pro versioilla saa ajoon järkevällä nopeudella.

Build with DeepSeek V4 Using NVIDIA Blackwell and GPU-Accelerated Endpoints | NVIDIA Technical Blog

DeepSeek just launched its fourth generation of flagship models with DeepSeek-V4-Pro and DeepSeek-V4-Flash, both targeted at enabling highly efficient million-token context inference.

developer.nvidia.com

Karhu III · eilen klo 20:49

Tulee ensimmäinen kerta kun saan käytettyä Plus-tilauksen viikkotokenit loppuun, mutta eipä amassa käytössä 5.5 ei tunnu yhtään etevämmältä kuin aiemmat versiot. Toisaalta eipä pitäisikään kun käyttö on nyt ollut algoritmien testaamista. "Kokeile algoritmia x parametreilla y ja kerro miten kävi", "Ai, tuolla toimi heikommin. Kokeile nostaa thresholdia y ja aja uudestaan", "Jaa ei vieläkään, tais tulla umpikuja. No entä algoritmi xyz? Toteuta ja testaa" ym ym.

Kiva että on tällainen oma koodiorja.

mailbag · eilen klo 20:58

Kaikki omat softat on pieniä webbisivuja, kotiautomaatiojuttuja ja erilaisia palveluita lähinnä vain itselleni, löytyy backup järjestelmää, valvontakamerajärjestelmää, 10k rivin linux cli multitool ja varmasti kymmeniä erilaisia projekteja jotka päivittäisessä käytössä itsellä mutta eivät ole kuitenkaan niin monimutkaisia että nykyisistä malleista kaikki osaa niitä jo tehdä, korjata ja parantaa eli hyvin vaikea itsellä enää sanoa että joku malli on parempi kuin toinen kun jokainen saa samat jutut kasaan.

Monimutkaisin softa oli tää 25k rivin web pohjainen cadi 3D printtailuun missä oli jotain reunojen pyöristyksiä joita sekä gpt 5.3 ja aikainen opus 4.6 eivät osanneet korjata, uudemmilla en ole vähään aikaan kokeillut, meinasin odottaa vielä version pari ja sitten korjataan loput.

finWeazel · eilen klo 21:00

Karhu III sanoi:
Tulee ensimmäinen kerta kun saan käytettyä Plus-tilauksen viikkotokenit loppuun, mutta eipä amassa käytössä 5.5 ei tunnu yhtään etevämmältä kuin aiemmat versiot. Toisaalta eipä pitäisikään kun käyttö on nyt ollut algoritmien testaamista. "Kokeile algoritmia x parametreilla y ja kerro miten kävi", "Ai, tuolla toimi heikommin. Kokeile nostaa thresholdia y ja aja uudestaan", "Jaa ei vieläkään, tais tulla umpikuja. No entä algoritmi xyz? Toteuta ja testaa" ym ym.

Kiva että on tällainen oma koodiorja.

Ehkä tuollaisessa voi antaa vapauksia lisää mallille tutkia ongelmatilaa laajemmin. Mieti asiaa X, valitse 5 parasta algoritmia ja aja niitä eri asetuksilla. Lopuksi luo raportti. Tee ajot toistettavien skriptien avulla joita sekä ai agentti että ihminen pystyvät käyttämään jne. Sivusta tietty helppo tällaisia huudella kun ei ole reaalimaailman asiat vaikeuttamassa asiaa. Noissa demokoodeissa kun on luonut benchmarkit niin AI on melko hyvä tutkimaan ongelmatilaa erilaisista kulmista, benchmarkit kertovat totuuden.

finWeazel · eilen klo 21:07

mailbag sanoi:
Kaikki omat softat on pieniä webbisivuja, kotiautomaatiojuttuja ja erilaisia palveluita lähinnä vain itselleni, löytyy backup järjestelmää, valvontakamerajärjestelmää, 10k rivin linux cli multitool ja varmasti kymmeniä erilaisia projekteja jotka päivittäisessä käytössä itsellä mutta eivät ole kuitenkaan niin monimutkaisia että nykyisistä malleista kaikki osaa niitä jo tehdä, korjata ja parantaa eli hyvin vaikea itsellä enää sanoa että joku malli on parempi kuin toinen kun jokainen saa samat jutut kasaan.

Monimutkaisin softa oli tää 25k rivin web pohjainen cadi 3D printtailuun missä oli jotain reunojen pyöristyksiä joita sekä gpt 5.3 ja aikainen opus 4.6 eivät osanneet korjata, uudemmilla en ole vähään aikaan kokeillut, meinasin odottaa vielä version pari ja sitten korjataan loput.

Se päivä kun mallit on riittävän hyviä niin laitetaan kooderia kortistoon. Ollaan kyllä hyvinkin siinä pisteessä, että pikkujuttuja voi kuka vaan tehdä pelkillä prompteilla. Vielä ostettiin kelalle sadoilla miljoonilla softaa piilaaksosta, ei ole näkynyt softareiden massairtisanomisia, eikä konesalikapasiteetti riitä(porukka ei ole siirtynyt lokaalikoneisiin) että ei ehkä AI avustimet ole oikeasti maalissa.

Jos pystyisi myymään vaikka 5ke/pömpeliä firmoihin joka korvaa pilvet(ja ison osan koodereista) niin sellaiselle olisi rajaton markkina ja hetkessä rikas.

mlackke · eilen klo 21:25

finWeazel sanoi:
Nyt toimii todella nopeasti openai, varmaan minimit konesalikuormaa lauantaina aikaisin aamusta.

Pohdin tässä kun kapasiteetistä on välillä huutava pula ja kysyntä kasvaa tarjontaa nopeammin niin onko vastaus sitten dynaaminen hinnoittelu, klo 10-17 saat maksaa 10x hinnan ja öisin pääset halvalla.

Sitten alkaa koodaritkin olee yövuorossa

Karhu III · eilen klo 21:26

finWeazel sanoi:
Ehkä tuollaisessa voi antaa vapauksia lisää mallille tutkia ongelmatilaa laajemmin. Mieti asiaa X, valitse 5 parasta algoritmia ja aja niitä eri asetuksilla. Lopuksi luo raportti. Tee ajot toistettavien skriptien avulla joita sekä ai agentti että ihminen pystyvät käyttämään jne. Sivusta tietty helppo tällaisia huudella kun ei ole reaalimaailman asiat vaikeuttamassa asiaa. Noissa demokoodeissa kun on luonut benchmarkit niin AI on melko hyvä tutkimaan ongelmatilaa erilaisista kulmista, benchmarkit kertovat totuuden.

Tämä on oikeasti hyvä vinkki. Liikaa tottunut vanhaan.

Mutta täytyy ensin ruinata pomolta lupa tilata $200 paketti vaikka edes kertaluontoisesti. Tiedän jo että pomo joutuu ruinaamaan sitä sitten omalta pomolta

Rahasta se ei ole kiinni, mutta muualla firmassa vasta "tutkitaan" ja "mietitään".

polarbear62 · eilen klo 22:41

mlackke sanoi:
Pohdin tässä kun kapasiteetistä on välillä huutava pula ja kysyntä kasvaa tarjontaa nopeammin niin onko vastaus sitten dynaaminen hinnoittelu, klo 10-17 saat maksaa 10x hinnan ja öisin pääset halvalla.

Sitten alkaa koodaritkin olee yövuorossa

Karhu III sanoi:
Tämä on oikeasti hyvä vinkki. Liikaa tottunut vanhaan.

Mutta täytyy ensin ruinata pomolta lupa tilata $200 paketti vaikka edes kertaluontoisesti. Tiedän jo että pomo joutuu ruinaamaan sitä sitten omalta pomolta Rahasta se ei ole kiinni, mutta muualla firmassa vasta "tutkitaan" ja "mietitään".

Tuntuu jotenkin ihan absurdilta ajatella että joku subscription maksu voisi edes olla kolminumeroinen luku ja vieläpä sellainen jonka voi käytöllä polttaa loppuu mutta tässä sitä vain nyt ollaan. 3 vuotta tuollaista kk maksua olisi ökymacbookin verran 128GB muistilla ja jos miettii esim. ohjelmistokehittäjää jolla kuitenkin on joku 2-4k macbookkia käytössä niin local AI omalla macbookilla kustannus saataisiin kuolletettu 1.5-2v aikana.

Toki tällä hetkellä kehitys on niin agressiivista että on vaikea sanoa mihin palikat lopulta tippuu, mutta voi olla että tulevaisuus on ihan muualla arjen AI:n suhteen kuin jenkkifirmojen pilvessä varsinkin jos tämä nykyinen vyön kiristäminen jatkuu missä "enshittifioidaan" sopimuksia, rajoitetaan kellonajoilla käyttöä yms. En ihmettelisi vaikka jatkossa sopimusehtoihinkin tulee kaikkea uutta jännää jossa Anthropic / OpenAI varaa oikeuden kaikkeen AI:lla tekemään työhösi ellet maksa heidän premium-ultra-plus-tier membership-lisämaksua tai muuta vastaavaa.

finWeazel · eilen klo 23:00

polarbear62 sanoi:
Tuntuu jotenkin ihan absurdilta ajatella että joku subscription maksu voisi edes olla kolminumeroinen luku ja vieläpä sellainen jonka voi käytöllä polttaa loppuu mutta tässä sitä vain nyt ollaan. 3 vuotta tuollaista kk maksua olisi ökymacbookin verran 128GB muistilla ja jos miettii esim. ohjelmistokehittäjää jolla kuitenkin on joku 2-4k macbookkia käytössä niin local AI omalla macbookilla kustannus saataisiin kuolletettu 1.5-2v aikana.

Toki tällä hetkellä kehitys on niin agressiivista että on vaikea sanoa mihin palikat lopulta tippuu, mutta voi olla että tulevaisuus on ihan muualla arjen AI:n suhteen kuin jenkkifirmojen pilvessä varsinkin jos tämä nykyinen vyön kiristäminen jatkuu missä "enshittifioidaan" sopimuksia, rajoitetaan kellonajoilla käyttöä yms. En ihmettelisi vaikka jatkossa sopimusehtoihinkin tulee kaikkea uutta jännää jossa Anthropic / OpenAI varaa oikeuden kaikkeen AI:lla tekemään työhösi ellet maksa heidän premium-ultra-plus-tier membership-lisämaksua tai muuta vastaavaa.

Otetaan vaikka 1.6biljoonan parametrin deepseek v4. Käys katsoon minkähintaisen raudan tarvit että saat sen ajoon. Tuntuu vaikka 1000e/kk tilaus 3v ajalle ilmaiselta versus se rauta. Varsinkin kun pilvessä saat uuden raudan vuosittain, kotio ostetun koneen muisti ja laskentakapasiteetti ei kasva vuosittain. Tuollainen järeä rauta alkaa myös syömään sähköä ja jäähdytystä, ei ole ilmainen käyttää.

Toinen tapa ajatella, että piilaaksossa perustason työntekijä maksaa 200ke/vuosi++ total comp ja sivukuluineen. 10ke/vuosi tokeneita per työntekijä ei tunnu missään versus palkat olettaen että työteho kasvaa. Suomi on halpatyömaa,... suomilinssien takia asiat näyttää aika erilaiselta kuin piilaaksolinsseillä monella tapaa.

Ei tuo tosin jollain 5090+pikkumallillakaan ole halpaa. Vaikka 5000e kone 5v ajalle jyvitettynä 83e/kk ja siihen päälle sähköt kun kone jauhaa 100% utilisaatiolla 700W+/h. Voipi helposti mennä 10kWh/vuorokausi. Pääsee tällä kotikone+pikkumallillakin 3 numeroiseen kuukausihintaan.

jugih · tänään klo 00:25

mlackke sanoi:
Pohdin tässä kun kapasiteetistä on välillä huutava pula ja kysyntä kasvaa tarjontaa nopeammin niin onko vastaus sitten dynaaminen hinnoittelu, klo 10-17 saat maksaa 10x hinnan ja öisin pääset halvalla.

Sitten alkaa koodaritkin olee yövuorossa

Kyllähän Anthropicilla oli tälläinen hinnoittelu maaliskuussa. Olisko ollut tuplamäärä tokeneita käytettävissä toimistoajan ulkopuolella, eli limitit kuluivat puolet hitaammin.

AI-koodausavustimet, keskustelua AI-avustetusta koodaamisesta/skriptaamisesta/dokumentoinnista/...

Uutiset

Statistiikka

Hinta.fi

Arvostamme yksityisyyttäsi