Google julkaisi Gemini-tekoälymallin

Kaotik

Banhammer
Ylläpidon jäsen
Liittynyt
14.10.2016
Viestejä
22 495
google-gemini-20231208.jpg


Kaotik kirjoitti uutisen/artikkelin:
Erilaiset tekoälymallit GPT:t keihäänkärkinään ovat vallanneet markkinoita viime ajat. Nyt myös Google on saanut valmiiksi oman uuden suuren kielimallinsa (Large Language Model, LLM) Geminin.

Googlen mukaan Gemini on tällä haavaa maailman suurin ja kyvykkäin tekoälymalli ja se tulee markkinoille saataville kolmena eri versiona: Ultra, Pro ja Nano. Ultra kuten nimestäkin voi nikkeknattertonit päätellä joukon suurin ja monipuolisin kielimalli, joka on suunniteltu kaikkein monimutkaisimpiin tehtäviin. Pro on pykälää keveämpi yleismalli ja Nano suoraan laitteella suoritettavaksi tarkoitettu kevytversio Geministä.

[gallery link="file" columns="2" size="medium" ids="92658,92659"]

Googlen mukaan Gemini on suunniteltu aivan alusta asti ns. multimodaaliseksi, eli se kykenee saumattomasti yhdistelemään, ymmärtämään ja tulkitsemaan tietoa useista erityyppisistä lähteistä, kuten videoista, tekstistä, koodista, äänistä ja kuvista.

[gallery link="file" columns="2" size="medium" ids="92661,92660"]

Geminin kyvykkyydestä kertoo Googlen mukaan ensinnäkin se, että Ultra-variantti on yhtiön mukaan ensimmäinen kielimalli, joka kykenee peittoamaan ihmisekspertit MMLU-tehtävissä (Massive Multitask Language Understanding). Gemini Ultra sai yhteensä 57 erilaista matematiikkaan, fysiikkaan, historiaan, lakiteksteihin ja lääketieteisiin liittyvissä testeissä tulokseksi 90 %, mikä peittoaa esimerkiksi GPT4:n 86,4 %:n tuloksen selkeällä erolla.

Gemini tulee käyttöön välittömästi ja ensimmäisenä Googlen Bard-tekoälybotin käyttöön on annettu Geminin Pro-versio. Se tulee saataville Bardiin englanninkielisenä yli 170 maassa. Gemini Nano puolestaan tuodaan pikavauhtia Pixel 8 Pro -puhelimille. Jokin versio Geministä ollaan lisäämässä myös Googlen hakuun, mainospalveluihin, Chromeen ja Duet AI -palveluun.

Lähde: Google

Linkki alkuperäiseen juttuun
 
tuo 90 % on pitkälti markkinointia. Ne mittasi sen eri tavalla kuin esim. GPT4:n tulokset. Ja nuo testit, mistä ne sai nuo luvut, ei ole oikeasti mitenkään erityisen tarkkoja edes, pienet erot ei tarkoita tuossa käytännössä mitään.

esim.

GPT4 ~= annetaan pari esimerkkiä, ja sitten kysytään kysymys, ja katsotaan vastaako oikein.

gemini ~= annetaan pari esimerkkiä, ja sitten kysytään kysymys. Tämä tehdään 32 kertaa, ja sitten valitaan vastaus minkä gemini vastaa useimmiten, tms, tai jos kaikki vastaukset on erilaisia, otetaan "randomisti" 1.
Todennäköisesti se on suunnilleen yhtä hyvä kuin gpt-4, mutta nuissa graafeissa se halutaan näyttää kuin olisi selkeästi parempi, olisivat edes testanneet molemmat samalla tavalla, ja jos se silloinkin olisi ollut parempi, niin ok.

Samanlaista markkinointia / pientä huijausta niiden youtube videoissa, ihmiset on toistanut niitä testejä jo gpt-4:llä ja käytännössä aivan samanlaiset testitulokset, mutta sentään niiden julkaisemissa papereissa ne kertoo mitä ne oikeasti teki, ja paljon tarkemmin.

No, hyvä joka tapauksessa lienee että on kilpailua tuollakin, hieman typerää vain että google, jne aina yrittää hypettää aivan turhaan.
 
Yksi mielenkiintoinen aspekti geminissä, että se on opetettu googlemin omilla tpu-piireillä. Google saanut nvidian/... pois tieltä ja omaa ratkaisua tilalle.

Googlella on ollut omat piirit käytössä 2016 lähtien jo, toki käyttävät myös kilpailevia ratkaisuja mutta TPU-piireissä mennään jo 5. sukupolvessa
 
Googlella on ollut omat piirit käytössä 2016 lähtien jo, toki käyttävät myös kilpailevia ratkaisuja mutta TPU-piireissä mennään jo 5. sukupolvessa
Googlella on myös nvidiaa konesaleissa. imho. ihan huomionarvoinen asia, että gemini täysin tpu:lla opetettu.
 
Kuinkahan kaukana on semmoinen koodi-helpperi botti että voisin sanoa sille koodauksessa että tee ViewModel joka käyttää X ja Y repository luokkaa hakemaan tuon ja tuon datan ja filtteröi niistä omat StateFlow muuttujat jotka voi UI puolella Compose kontekstissa ottaa käyttöön, mutta älä ala sooloilemaan mitä tahansa patterneja ja paradigmoja vaan käytä olemassa olevia ihmisen tekemiä ViewModeleita X, Y, ja Z mallina että tulee koherentin näköistä koodia mitä meillä organisaatiossa tehdään aina näihin?

Jos tuommoisia operaatioita voisi jouhevoittaa luotettavasti niin sanoisin että MukaÄly alkaa olemaan jokseenkin hyödyllinen.
 
No kaikki tietenkin suhteellista. Tuon videon perusteella ehkä 5-15 vuotta? Ainakin omaan silmään vähän kömpelöä touhua tuo videon tekeminen.
Arvelisin, että isoissa firmoissa paljon nopeammin kuin 5vuotta niin alkaa olemaan llm mallien käyttö erittäin merkittävää koodauspuolella. Linkin nvidian chipnemo mihin on syötetty nvidian koodit, skriptit, dokumentaatio, bugikannat jne. Yrityskohtaisesti räätälöity malli ja opetusdata vähentää hallusinointia ja parantaa lopputulosta merkittävästi. Vain 10% vuosittainen tehonlisäys tarkoittaa satojen miestyövuosien kilpailuetua isossa firmassa saati jos työteho paranee tyyliin 2x. Pelkät automaattisesti generoituvat&päivittyvät testikoodit voisivat olla game changer.

Pienemmät yritykset joilla ei ole varaa, tietotaitoa ja dataa joilla tehdä yrityskohtainen malli ovat heikommilla jäillä.

Toki voi toivoa, että apple, microsoft, google tms. toisi sdk spesifisen copilotin. Uskoisin, että kehitys copilottien ja kielimallien kanssa on merkittävän nopeaa ja iso määrä yrityksiä satsaa niihin.

 
Viimeksi muokattu:

Statistiikka

Viestiketjuista
258 622
Viestejä
4 493 870
Jäsenet
74 264
Uusin jäsen
NiuNau

Hinta.fi

Back
Ylös Bottom