Aikataulusta puhuminen ei ole kovin hedelmällistä vaan tuo on olennaisempi asia, että onko tälle jokin periaatteelinen este vai ei.
No hain aikataululla ehkä takaa lähinnä sitä, että siitä puhumalla voidaan välttää monta väärinkäsitystä. Jos nyt otetaan vaikka esimerkiksi tämä ohjelmoijan korvaaminen tekoälyllä. Jos henkilö A sanoo että "tekoäly korvaa ohjelmoijan", niin tarkoittaako hän sitä, että meillä on nyt jo käsillä sellaista teknologiaa, jolla tämä on mahdollista, ja koodaajia pystytään suurissa määrin korvaamaan tekoälyllä jo ihan lähitulevaisuudessa? Vai tarkoittiko hän sitä, että teknologinen kehitys on huikeaa, ja nyt tuntuma on kyllä se, että kun samanlaisia kehitysaskeleita otetaan vielä lisää, niin silloin ollaan siinä tilanteessa, että tekoäly tekee ohjelmoijista tarpeettomia? Jos henkilö B vastaa, että "ei korvaa", niin tarkoittaako hän sitä, että nykyisellä teknologialla se ei onnistu, mutta ei ota kantaa siihen, mitä tapahtuu tulevaisuudessa? Vai tarkoittaako hän sitä, ettei tuollaiseen tilanteeseen päästä milloinkaan, eikä ole edes mahdollista kehittää tekoälykästä järjestelmää, joka pystyisi viemään koodaajan työt? Toki nämä nyt ovat aika alkeellisia esimerkkejä, mutta aika usein käy varmaan niin, että puolet siitä erimielisyydestä on pelkkää tulkintaongelmaa, eivätkä ne keskustelijat ole niin erimielisiä kuin ehkä alustavasti näyttää. Jos siis tehdään oma käsitys mm. siitä kehityksen aikataulusta selväksi, niin vähentäähän se turhia väärinkäsityksiä.
Veikkaisin että ChatGPT osaa jo nyt aika hyvin kertoa mikä on koira tai sopimus (näyttää olevan tukossa tällä hetkellä niin ei voi kokeilla). Tässä on epäselvää, että mitä sinusta tekoälyn pitäisi ymmärtää koirista tai sopimuksista? Mitä nykyiset mallit eivät pysty koiriin tai sopimuksiin liittyen ymmärtämään tai tekemään?
No, kuten tuossa Johan_V:n linkittämässä artikkelissa todettiinkin: "They are excellent at predicting the next word in a sentence, but they have no knowledge of what the sentence actually means."
Kun ihminen lukee sitä ChatGPT:n kuvausta koirasta, niin ihminen antaa niille sanoille ja lauseille merkityksiä, jotka eivät ChatGPT:lle merkitse mitään. Ja tuossa on mielestäni juuri se keskeinen ongelma. Kun kielimalli kertoo, että "koira haukkuu koko päivän ja naapureita vituttaa", niin se kielimalli ei ymmärrä mitään niistä käsitteistä ja kokonaisuuksista niiden merkkijonojen takana. Kun ihminen kertoo saman, niin ihminen ymmärtää, mikä se koira on, mitä se haukkuminen on, mikä on naapuri ja mitä on vitutus, muutenkin kuin pelkkinä merkkijonoina. Asiasta muodostuu mieleen kielen, kuvan ja äänen muodostama kokonaisuus, josta joustava ihmisäly kykenee vaikka sulavasti siirtymään siihen koiraan, joka siellä oven takana haukkuu omistajaansa takaisin. ChatGPT ei tuohon pysty. Sille "koira" on pelkkä merkkijono, joka sopii tietyn tilastollisen mallin mukaan hyvin yhteen toisten merkkijonojen kanssa.
Olisi varmaan mahdollista rakentaa sinne kielimallin taakse jonkinlainen kuvaus siitä, että sana "koira" vastaa tiettyä visuaalisen datan vektoriesitystä. Ja sana "haukkua" vastaa tiettyä vektorimuotoista esitystä audiaalisesta datasta. Mutta "naapurin" kuvaaminen onkin jo paljon hankalampi homma. Sen voi kuvata vaikka tekstillä "henkilö, joka asuu omassa asunnossaan jonkun toisen henkilön asunnon vieressä", mutta pelkkä teksti ei kuvaa sitä todellisuutta, jos se tekstin käyttäjä ei pysty antamaan niille sanoille merkityksiä sen tekstin ulkopuolelta. Jotta kone voisi ymmärtää "naapurin" samalla tasolla kuin ihminen, pitäisi samaan esitykseen saada jotenkin koodattua ei-sanallisesti tietoa sekä siitä oliosta että sen avaruudellisesta sijainnista sekä asemasta siinä yhteisössä. Ja jos puhutaan siitä, mitä "vitutus" on, niin sellaisen mallintaminen on vielä hankalampaa. Eikä meillä tällä hetkellä ole mitään teknistä toteutusta sille, että kone pystyisi joustavasti liikkumaan kielellisten, visuaalisten ja kaikkien muiden tietomuotojen välillä sillä tavalla kuin ihminen kykenee.
Tässä itse näen merkittävän syyn sille, miksen usko, että nykyisellä osaamisella on mahdollista rakentaa tekoälyä, joka kykenee korvaamaan ihmisen opettajana tai koodaajana. Kuten sanottua, ymmärrän ja uskon kyllä, että nykyinen tekniikka voi muuttaa työn luonnetta ehkä jopa merkittävästi, mutta ohjelmoijan ammatin ajautuminen marginaaliin vaatii jotain sellaista tekoälyä, jota meillä ei vielä ole, ja jota ei pelkällä lisäkouluttamisella saa aikaiseksi. Edeltävää paremmin en niitä syitä oikeastaan osaa selittää, eikä meidän tarvitse tästä kai samaa mieltä ollakaan. Jos sinä, tai joku muu, osaa selittää, minkä vuoksi olen ChatGPT:n suhteen väärässä, kuulen kyllä mielelläni ja korjaan sitten virheellisiä käsityksiäni. Mutta toistaiseksi se, mitä olen esimerkiksi artikkeleista lukenut, on ollut aika korkealentoista, enkä ole näihin edeltäviin epäilyksiini saanut mitään konkreettisia vastauksia.
Edit:
Tyypillisesti täsmällisimmät näkemäni väitteetkin ovat muotoa: "lisää koulutusdataa => ??? => profit". Mutta ajatellaan vaikka tyyppiä, joka elää koko elämänsä yhdessä lukitussa huoneessa. Hän ei ymmärrä sanaakaan ranskaa, mutta saa lukeakseen rajattoman määrän tekstimuotoista ranskankielistä lakimateriaalia: lainsäädäntöä, oikeuskirjallisuutta, oikeustapauksia jne. Tuleeko hänestä pätevä ranskalainen juristi? Ok. Lisätään vielä koulutusdataa siten, että jokaisen lukemansa sanan yhteydessä hän näkee kuvan, jos kyseiselle sanalle on olemassa jokin mielekäs kuvallinen esitystapa. Tuleeko hänestä siinä tapauksessa etevä ranskalainen juristi? ChatGPT tai mikään kielimalli ei muuten pysty edes tällaiseen tasoon. (Huom: edeltävällä esimerkillä en tarkoita sitä, etteikö kielimalli voisi olla erittäin hyödyllinen myös oikeustieteellisessä työskentelyssä. Varmasti voi, mutta se ei ole sama asia, kuin että kielimalli voi korvata juristin.)
Kuten sanoin, on kyllä mahdollista rakentaa jonkinlainen taustajärjestelmä, jossa jokainen sana kuvautuu jonkinlaiseen visuaaliseen esitykseen. Mutta se, mitä tuollainen järjestelmä ei osaa tehdä, on sitä, mitä ihminen tekee, eli luoda myös niiden visuaalisten esitysten välisiä yhteyksiä. Ok, on mahdollista rakentaa myös järjestelmä, joka tulkitsee visuaalista kontekstia vaikkapa siten, että tietynlaiset visuaaliset kohteet esiintyvät usein toisten tietynlaisten visuaalisten kohteiden kanssa. Ok, rakennetaan sitten järjestelmät teksti-kuva, kuva-ääni, ääni-teksti, avaruudellinen-teksti, avaruudellinen-kuva, avaruudellinen-ääni, jne. Tai rakennetaan järjestelmä, jossa nuo kaikki em. kuvaukset esitetään lopulta yhtenä abstraktiona, vaikkapa sitten järkyttävän pitkänä vektorina. Se ei kuitenkaan sitten ole enää ChatGPT vaan vielä moninkertaisesti kompleksisempi systeemi, eikä sellaisen toimintaa voi kuin spekuloida.