Tekoälynväläyksiä

Julkaistu 19.3.2023. Aiheet: Suomeksi, Tekoäly.

No siis, mitä tekoäly edes on? Vaikuttaa siltä, että tähän ei tarvita vastausta, että sitä käytetään. Yhtä kiinnostava kysymys on, että mistä se muodostuu ja mistä "se tulee".

Vinoumat ja puoluepoliittisuus

Vähän mainstream-keskustelua on käyty myös ChatGPT:n (tai minkä tahansa muunkaan niin sanotun tekoälyn) vinoutumisesta. Käsittääkseni tutkimuksen saralla se on kuitenkin tiedostettu ja paljonkin(?) tutkittu asia.

Kävi esimerkiksi ilmi, että GPT-4 onkin demari. Tviitin kuvassa on vaalikoneen tulos.

Web.archive -linkki tviittiin.

No, tällaista johtopäätöstä ei voi tehdä pelkästään yhden casen perusteella, mutta se avaa oven asian pohtimiseen. Millaisia vinoumia tekoälyllä voi ylipäänsä olla? Pessimisti minussa myös sanoo, että ei ole mahdollista tehdä tekoälyä, jolla ei olisi ollenkaan vinoumia.

Toisaalta emme myöskään odota, että ihmisillä ei olisi vinoumia, joten kuinka voimme odottaa, että (oletettavasti pääosin) ihmisten tuottamaan tekstiin nojaavalla ei olisi myöskään vinoumia?

Olisipa keino selvittää, että millaisia vinoumia tekoälyllä on...

Suljettu lähdekoodi

GPT-4:n teknisen raportin (englanniksi, PDF) mukaan niin sanottua harjoitusdataa (englanniksi "training data") ei aiota julkistaa:

Given both the competitive landscape and the safety implications of large-scale models like GPT-4, this report contains no further details about the architecture (including model size), hardware, training compute, dataset construction, training method, or similar.

2 Scope and Limitations of this Technical Report, sivu 2.

Meillä ei siis ole hajuakaan, että millaista dataa tekoäly on ottanut sisälleen. Se taidetaan tietää, että malli perustuu netissä oleville teksteille ja syötteille, joita käyttäjät antavat ChatGPT:lle.

Kaventaako tekoäly sisältöjä?

Koska tekoäly käyttää lähteinään tekstiä, joka on jo olemassa, niin voiko olla vaarana, että sisällöt ja tätä kautta ajattelu ylipäänsä kapenee?

Kuvitellaan, että tekoälyn tekstit tulevat jossain vaiheessa täyttämään niin suuren osan sisällöistä, että näitä tekstejä aletaan käyttää harjoitusdatana. Tämän voisi ainakin kuvitella johtavan tilanteeseen, jossa tekoäly alkaa vain toisintaa itseään.

Samalla, jos ihmiset käyttävät sitä sisältöjen tuottamiseen tai uuden luomiseen, niin mihin tämä johtaa? Voiko käydä niin, että uusien ja innovatiivisten ideoiden määrä vähenee?

Vastapainona voi kai ajatella, että tekoälyn ja sisällön välissä on kuitenkin ihmisen vaikutus. Ehkä syötteet, joita ihmiset antavat johtavatkin kaventumisen sijaan avartumiseen. Tässä tapauksessa vain aika näyttää.

Tekoäly ja omistajuus

Erityisesti kuvien tuottamisessa olen törmännyt tekijänoikeuskysymyksiin ja henkisen pääoman hyödyntämiseen. Kuvia tai taideteoksia on mahdollista pyytää jonkun tietyn taiteilijan tyylillä. Tekoälyn tuottama työ voi olla vaikea erottaa taitelijan varsinaisesti työstä. Eikä taitelijoilta itseltään ole kysytty, että saako heidän töitään käyttää lähdemateriaalina.

Missä määrin sama voi päteä myös teksteihin? On mahdollista pyytää tekstiä esimerkiksi Shakespearen tyylillä, mutta onko tämä henkisen pääoman omimista? Missä määrin voidaan puhua plagioinnista? Sillä käytettävissään netin koko sisältö.

Tekoälyn rajallisuus

On kuitenkin muistettava, että tekoälyllä on käytössään vain netin koko sisältö. Todella paljon tekstejä, sisältöjä ja tietoa on netin ulkopuolella, jonne harjoitusdatat eivät ulotu. Tämäkin on siis yksi vinouman lähde: Millaista sisältöä tekoäly ei kykene edes tuottamaan?

Etenkin asiaa voidaan miettiä Suomen kielen näkökulmasta. Millaisia tekstejä on saatavilla netissä suomeksi ja miten nämä tekstit vaikuttavat tekoälyn tuottamaan tekstiin?

Tekoäly on myös riippuvainen ihmisestä, koska ihmisen täytyy olla luomassa sisältöä, jota se voi hyödyntää.

Tekoälyn käyttökohteet

Microsoft alkaa markkinoimaan Office 365-ohjelmistoissa toimivaa tekoälyä (englanniksi), joiden avulla voi esimerkiksi vetää yhteen ja tiivistää sähköposteja, kokouksia, kokouspöytäkirjoja ja niin edelleen. Kuulostaa siistiltä, eikö vain? Ainakin aluksi...

Helsingin sanomat uutisoi, miten GPT-4 suoriutuu YO-kokeista ja suomenkielisen uutisartikkelin tiivistämisestä: GPT:n uusi versio luo videopelin hetkessä ja kiteyttää laajat tietomassat nopeasti, näin se on edeltäjäänsä parempi (hs.fi).

Uutisartikkelin tiivistelmän suhteen GPT-4 teki jopa asiavirheitä, jotka vaikuttavat olennaisesti tekstin välittämään tietoon. Entä, kun ihmiset tekevät töitä tällaisten tietojen varassa, joissa on - sanotaanko - 2 % virheitä. Uskaltaako tällaiseen tietoon luottaa?

Toisaalta teen työssäni itsekin tiivistelmiä ja poimin jatkon kannalta olennaisia kohtia kokousmuistiinpanoista. Kysymys kuuluukin, että miten paljon luotan edes omaan kykyyni tiivistää tekstiä tai poimia olennaisia asioita? Ja tämähän vielä riippuu vuorokaudenajasta!

Olisinko siis valmis luottamaan tekoälyn tekemiin tiivistelmiin, vaikka niissä olisi 0-2 % virheitä verrattuna omiin aivoihini, joissa sama vaihteluväli voi olla 0-10 %? Mikä on siis virhemarginaali, jota kukin on valmis sietämään?