Tekoäly jäi kakkoseksi heuristisen koodaamisen MM-kisoissa

Kaotik

Banhammer
Ylläpidon jäsen
Liittynyt
14.10.2016
Viestejä
23 782
Puolalainen Przemysław “Psyho” Dębiak on voittanut AtCoder World Tour Finals 2025 -kilpailun, jota Tom's Hardware kuvailee heuristisen koodaamiseen MM-kisoiksi. Kisoihin kutsutaan vuosittain 12 parhaiksi arvostettua koodaria kilpailemaan erilaisten koodauspulmien parissa ja tänä vuonna mukaan otettiin ensimmäistä kertaa myös OpenAI:n kehittämä OpenAIAHC-tekoälymalli.

42-vuotias Dębiak, joka on ollut aiemmin kehittämässä mm. OpenAI Five -tekoälymallia, voitti 10-tuntisen kilvan noin 9,5 %:n erolla ennen toiseksi tullutta OpenAIAHC:ta. Kilpailun tehtävänä oli optimoida robotin reitti 30x30 -ruudukon läpi mahdollisimman vähin liikkein, minkä pitäisi olla tekoälymalleille hyvin sopiva tehtävämalli.



Lähde: Human programmer beats OpenAI's custom AI in 10-hour marathon, wins World Coding Championship — Polish programmer might be the last human winner
 
Vuodenpäästä saa jännittää löytyykö enää sitä yhtäkään ihmistä joka voittaa keinoälyn tässä kilpailussa vai kävikö kuten shakin ja go:n kanssa. Hauska miten tätä lööpitetään eri lähteissä eri tavoilla, joissain paikoissa uutisoidaan kuin kakkostila olisi suuri tappio ja toisissa paikoissa ihmisten päivät ovat ohi kulmalla.
 
Vuodenpäästä saa jännittää löytyykö enää sitä yhtäkään ihmistä joka voittaa keinoälyn tässä kilpailussa vai kävikö kuten shakin ja go:n kanssa. Hauska miten tätä lööpitetään eri lähteissä eri tavoilla, joissain paikoissa uutisoidaan kuin kakkostila olisi suuri tappio ja toisissa paikoissa ihmisten päivät ovat ohi kulmalla.
Hauskasti ainakin se go ai joka voitti ihmiset silloin isossa mediamyllytyksessä on nykyisin ”helppo” vastus taitaville pelaajille. Se ei ollutkaan niin erinomainen kuin mitä ajateltiin ja sen pelitavassa oli isoja puutteita.
 
Hauskasti ainakin se go ai joka voitti ihmiset silloin isossa mediamyllytyksessä on nykyisin ”helppo” vastus taitaville pelaajille. Se ei ollutkaan niin erinomainen kuin mitä ajateltiin ja sen pelitavassa oli isoja puutteita.
Hauskasti asiat on jatkaneet kehittymistä eikä kehitys juminut paikalleen
 
Vuodenpäästä saa jännittää löytyykö enää sitä yhtäkään ihmistä joka voittaa keinoälyn tässä kilpailussa vai kävikö kuten shakin ja go:n kanssa. Hauska miten tätä lööpitetään eri lähteissä eri tavoilla, joissain paikoissa uutisoidaan kuin kakkostila olisi suuri tappio ja toisissa paikoissa ihmisten päivät ovat ohi kulmalla.
Sehän riippuu millainen tehtävä kilpailussa on vuoden päästä. Onko sellainen jossa tekoälyllä ei tee yhtään mitään vai sellainen jota varten tekoälyllä on reilusti oppimateriaalia ja optimointia.
 
Sehän riippuu millainen tehtävä kilpailussa on vuoden päästä. Onko sellainen jossa tekoälyllä ei tee yhtään mitään vai sellainen jota varten tekoälyllä on reilusti oppimateriaalia ja optimointia.
GitHub - atcoder/ac-library: AtCoder Library koodauskisalla on pitkä historia. Voinee olettaa, että eivät muuta kysymysten tyyliä rajusti. Sama juttu kuin hiljattain pidetty historiallinen ja maailman arvostetuin matematiikkakisa missä ainakin openai:n ai otti kultaan riittävät pisteet. AI ei saanut helpotuksia tässä kisassa vaan samat säännöt, tehtäväntoja ei purettu ai:lle erikseen ja aikarajat kuin ihmisillä. IMO kisasta tuli pieni hässäkkä kun openai julkaisi tuloksensa sovittua aikaisemmin. Siellä oli muitakin ai firmoja mukana ja järjestäjät olivat pyytäneet, että ai firmat eivät kertoisi tuloksiansa ennen kuin 28.7.
OpenAI's latest model solved five out of six problems on the International Math Olympiad exam.
"This is an LLM doing math and not a specific formal math system; it is part of our main push towards general intelligence," Altman said on X.

Vuosi on melko pitkä aika AI:n kanssa. Jos nyt verrataan vuodentakaisia keinoälyjä ja tän hetkisiä niin kehitys on ollut aika valtava. Olettaa voi, että vuoden päästä ollaan taas reilusti parempia. Osassa parannuksesta auttaa paremmat konesalit(gb300 nvl72 voluumissa syyskuussa), osa softapuolen otimointeja ja loput uusia ideoita/parempia algoritmeja ja käytetään enemmän laskenta-aikaa(reasoning mallit, agentit, iterointi versus yksi pyyntö ja yksi vastaus)


edit. Google kertoi oman IMO tuloksensa, myös kultaan oikeuttavat pisteet
An advanced version of Gemini Deep Think solved five out of the six IMO problems perfectly, earning 35 total points, and achieving gold-medal level performance. The solutions can be found online here.
 
Viimeksi muokattu:
Noissa kisoissa pitäisi kyllä laskea myös vastaukseen kulunut energia. Se. että rakennetaan yhä syöpömpiä datacenttereitä ei ole järkevää..
 
Noissa kisoissa pitäisi kyllä laskea myös vastaukseen kulunut energia. Se. että rakennetaan yhä syöpömpiä datacenttereitä ei ole järkevää..
enemmän ehkä yrityksiä kiinnostaa mitä asian x tekeminen ihmisresurssilla maksaa ja mikä hinta on ai avustetulla ihmisellä.

Virrankulutus esim. IMO kisassa tullut valtavasti alas vuodessa. Cost per tokeni llm:ssa halventuneet myös paljon ja halventumistrendi näyttää jatkuvan. Googlen kommentit viime ja tän vuoden IMO:sta alla miten tarvittiin konesaliresurssia.
At IMO 2024, AlphaGeometry and AlphaProof required experts to first translate problems from natural language into domain-specific languages, such as Lean, and vice-versa for the proofs. It also took two to three days of computation. This year, our advanced Gemini model operated end-to-end in natural language, producing rigorous mathematical proofs directly from the official problem descriptions – all within the 4.5-hour competition time limit
 
enemmän ehkä yrityksiä kiinnostaa mitä asian x tekeminen ihmisresurssilla maksaa ja mikä hinta on ai avustetulla ihmisellä.

Virrankulutus esim. IMO kisassa tullut valtavasti alas vuodessa. Cost per tokeni llm:ssa halventuneet myös paljon ja halventumistrendi näyttää jatkuvan. Googlen kommentit viime ja tän vuoden IMO:sta alla miten tarvittiin konesaliresurssia.
Konesalien kokoa ei mainittu. Kaksi päivää ja vaikka 1000m2 konesalia, vs. 4,5h ja 20000m2 konesalia niin googlen lausunto on edelleen totta, mutta vähän harhaanjohtava.

Onko tarkkoja tietoja käytetyistä konesaleista esitetty jossain?
 
Konesalien kokoa ei mainittu. Kaksi päivää ja vaikka 1000m2 konesalia, vs. 4,5h ja 20000m2 konesalia niin googlen lausunto on edelleen totta, mutta vähän harhaanjohtava.

Onko tarkkoja tietoja käytetyistä konesaleista esitetty jossain?
Uunituore asia, ei ole vielä kerrottu tarkasti. Eiköhän sekä google että openai jossain kohtaa paukuttele henkseleitä ja kerro tarkemmin. Samalla varmaan tulee paremmin matematiikkaa ymmärtävät llm:t maksaville asiakkaille tarjolle. Tätä odotellessa data antaisi olettaa, että cost per token kun pidetään vastausten laatu samana laskee 10x per vuosi(linkin väite). Linkin väitteen jälkeen tuli deepseek r1 joka myös rysäytti hintaa per token alaspäin ilman että vastausten laatu huononee.
In fact, the price decline in LLMs is even faster than that of compute cost during the PC revolution or bandwidth during the dotcom boom: For an LLM of equivalent performance, the cost is decreasing by 10x every year
 
Tätä odotellessa data antaisi olettaa, että cost per token kun pidetään vastausten laatu samana laskee 10x per vuosi(linkin väite).
Kyse oli ymmärtääkseni siitä että miten vastausten laadun paraneminen skaalautuu. tarvitaanko 10x nopeampaan ja jonkin verran parempaan lopputulokseen 100 vai 10000x laskentatehoa/tokeneita/whatever? Cost per token toki laskee ajan myötä.

Tokenit itsessään on kans huomattavan erihintaisia. o3 tokeni maksaa tuplat siitä mitä vaikka o4mini.

Asiaa kun ei ole vielä kerrottu tarkasti, niin paha sitä on arvata juuri mitään konesaliresurssien käytöstä.
 
Viimeksi muokattu:

Statistiikka

Viestiketjuista
282 674
Viestejä
4 857 317
Jäsenet
78 441
Uusin jäsen
JERE200

Hinta.fi

Back
Ylös Bottom