Globális versenyfutás zajlik a szöveges adatbázisokért: a mesterségesintelligencia-fejlesztők a nyelvi modelljeik betanításához keresik a nyersanyagot, a nagy tartalomszolgáltatók viszont védik a kreatív alkotásokat a kéretlen felhasználástól.
Sürgősen szükség lenne áthidaló megoldásokra.
Sorra tiltják ki a legfontosabb internetes tartalomszolgáltatók a mesterségesintelligencia-fejlesztők keresőrobotjait a weboldalaikról. Tavaly még csak 3 százalékuk jelezte, hogy a szöveges tartalmak után kutakodó algoritmusokat nemkívánatos látogatóknak tekinti, az idén viszont már 30 százalékra nőtt azon portálok aránya – köztük olyan ismert híroldalak, mint a The New York Times, a HuffPost vagy a The Guardian –, amelyek nem szeretnék, hogy a mesterséges intelligencia (MI) nagy nyelvi modelljeit (angol rövidítéssel: LLM) az ő cikkeiken, írásaikon tréningezzék. Erre hívta fel a figyelmet egy független MI-kutatókból álló nemzetközi kutatócsoport, a Data Provenance Initiative, amely 14 ezer webhelyet vizsgált meg ebből a szempontból. Az eredményeiket összefoglaló tanulmány arról is beszámol, hogy legnagyobb arányban a híroldalak védik ilyen formában a tartalmaikat, valamint hogy a tiltás terén a honlapok tulajdonosai (ma még) kevéssé következetesek. Míg ugyanis a különféle cégek világszerte tucatnyi nagy MI-modellt fejlesztenek, a tartalomszolgáltatók elsősorban a legismertebb, a ChatGPT-t is jegyző OpenAI keresőrobotjait próbálják távol tartani, a többiekre – például a Facebook-tulajdonos Metára vagy a Google-ra – sokkal kevésbé ügyelnek. A Data Provenance Initiative szerint
ez a tiltás évről évre egyre több helyről fogja majd kiszorítani az alapanyagra vadászó algoritmusokat, ennek pedig nemcsak a kereskedelmi célú MI fejlődésére lesz kedvezőtlen hatása, hanem a tudományos kutatásokra is.
A tanulmány állításainak értelmezéséhez tudni kell, hogy a nagy nyelvi modellek azért lettek az utóbbi években ilyen jól használhatók (elsősorban angol nyelven), mert hatalmas szövegadatbázisokon, szaknyelven korpuszokon tanítják be őket. Leegyszerűsítve: minél nagyobb, minél változatosabb és minél jobb minőségű az a szöveg, amelyen átrágják magukat az LLM-ek, annál értelmesebb, hasznosabb, „emberibb” válaszokat adnak majd csevegés közben.
Az, hogy mekkora méretűek és miből állnak össze az ominózus korpuszok, csak részben ismert, a fejlesztőcégek keveset árulnak el erről. A ChatGPT-ről például annyit tudni, hogy az alapmodelljét tréningező adatbázis is több százmilliárd szót tartalmazott. Ennek mindössze 3 százaléka volt a teljes angol nyelvű Wikipedia (amely jelenleg 4,6 milliárd szóból áll). A betanító adatbázis döntő része, közel kétharmada egy webarchiváló projekt, a Common Crawl adatbázisából származott. Ez a kaliforniai nonprofit szervezet évente több alkalommal mintavételezi a teljes internetet, és ezekből a „webaratásokból” állít össze szabadon felhasználható korpuszt. A GPT–3-at ezeken kívül közösségimédia-platformok csevegésein pallérozták, valamint beletáplálták – állítólag szabadon hozzáférhető – digitalizált könyvek, tudományos közlemények, hírportálok cikkeinek szövegeit is.
A gond az, hogy ezeket az emberi léptékkel nehezen felfogható méretű adatbázisokat nem elég egyszer összeállítani, folyamatos frissítésre, megújításra szorulnak. Ha ugyanis ez nem történik meg, bekövetkezhet az úgynevezett modellösszeomlás, amikor a nem megfelelően „táplált” nyelvi modell egyre kevésbé változatos, egyre hibásabb, egyre előítéletesebb válaszokat ad. Ezt a folyamatot felgyorsíthatja, hogy az internetet már most is elárasztják az MI által generált tartalmak, így az algoritmusoknak sokszor önmaguktól kellene tanulniuk. Ezért vadásszák a fejlesztők az ember által készített, eddig még nem ismert szövegeket.
Erre utalnak az utóbbi hónapokban kipattant botrányok. A LinkedInt a The Washington Post buktatta le a napokban, amikor kiderítette, hogy a világ legnagyobb üzleti közösségi hálózata csendben rászabadította az MI-keresőrobotját a platform tartalmaira (személyes adatok mellett rengeteg poszt, cikk is található a portálon), hogy ezeken tréningezze saját nyelvi modelljét. A felhasználóknak külön kell jelezniük, ha ezt nem szeretnék, ám a döntésük nem visszamenőleges hatályú, vagyis amit eddig megtalált az algoritmus, azt már fel is használta. Szintén pár napja a Meta adatvédelemért felelős igazgatója, Melinda Claybaugh ismerte el, hogy a vállalat keresőrobotja 2007-ig visszamenőleg kotorászik az ausztrál Facebook- és Instagram-felhasználók posztjaiban, ezzel is „etetve” az amerikai óriáscég LLM-jét. És ha ez még nem lenne elég: a tavasz óta tudható, hogy a Google és az OpenAI is lehajol az apróért, és az MI-fejlesztés nemes célja érdekében szabad prédának tekinti a YouTube-videókat. A leghatalmasabb online videotékába feltöltött több mint 14 milliárd rövidebb-hosszabb mozgóképben elhangzó szövegek gépi átirataiból ugyanis szintén kiváló, autentikus forrásanyag áll össze.
Ezek a legtöbbször titokban zajló „beszerzések” a szakértők szerint több szempontból is aggályosak. Bár az adatokat nem egy az egyben használja fel válaszaiban az MI, így is számos szerzői jogi és adatvédelmi kérdést vet fel ez a gyakorlat. A YouTube-on például, bár a videók feltöltésének korhatára 13 év, rengeteg olyan kisfilm található, amelyet láthatóan felnőttfelügyelet nélkül készítettek, és ennél jóval fiatalabbnak tűnnek a szereplői. Ráadásul MI-fejlesztők elárulták, hogy az LLM-ek betanításához kifejezetten keresik a videómegosztón hatalmas mennyiségben fellelhető, csupán egy szűk kör (család, barátok) számára feltöltött amatőr filmecskéket, mert az életszerű párbeszédek és fordulatok okán ezeknek sokszor nagyobb a nyelvi értéke számukra, mint az agyonlájkolt influencerek vagy nagy cégek opuszainak.
Ami a szellemi alkotások védelmét illeti, a Nature vezető tudományos folyóirat is felfigyelt az MI-fejlesztők gyakorlatára. Az augusztus végi vezércikk jelzi, hogy bár senki sem tudja biztosan, mivel tréningezik az LLM-eket, az kijelenthető, hogy több millió tudományos közleményt használnak a korpuszokban, és ezek között korántsem csupán az ingyenesen elérhető cikkek és tanulmányok szerepelhetnek (mint a PLOS One vagy a Frontiers adatbázisa), hanem minden bizonnyal fizetős folyóiratok tartalma is. Bár az szakértők szerint is vitatott, hogy egy szöveg MI-képzés céljából történő felhasználása szerzőijog-sértésnek minősül-e, a Nature szerint ideje lenne méltányosságból elismerni és láthatóvá tenni a kreatív és tudományos teljesítményéket. Egy-egy válasz olvasásakor így legalább a kimondottan tudományos célra fejlesztett MI-k felhasználói megtudhatnák, kinek a tollaival ékeskedik az algoritmus, azaz kiderülne, milyen fontosabb dokumentumokat, forrásokat használt a kimenet generálásához. Ebbe az irányba mutat az Európai Unió augusztus elején hatályba lépett MI-szabályozó rendelete, amely előírja, hogy „az ilyen modellek szolgáltatói kellően részletes összefoglalót készítsenek és tegyenek nyilvánosan hozzáférhetővé az általános célú MI-modell tanításához használt tartalomról (…) például a nagy magán- vagy nyilvános adatbázisok vagy adatarchívumok felsorolásával, valamint az egyéb felhasznált adatforrások részletes leírásával”. Kérdés, mit érnek az ilyen rendelkezések az olyan nagy multikkal szemben, amelyek már eddig is hírhedtek voltak arról, hogy inkább utólag kérnek bocsánatot, mint előre engedélyt.
Akár korlátozzák az MI-keresőrobotokat, akár nem, a világ előbb-utóbb úgyis ki fog fogyni a felhasználható szövegforrásokból. Egy európai kutatócsapat idén nyáron figyelmeztetett arra, hogy a jelenlegi trendek alapján valamikor 2030 táján fogynak majd el az ember által generált jó minőségű korpuszok – vagy kicsit korábban is, ha a nyelvi modelleket „túltanítják”. A Meta által fejlesztett Llama 3 nevű LLM-et állítólag már most több mint 15 ezermilliárd tokenen tréningezik (MI-s zsargonban a token lehet bármiféle lexikai egység: szótag, szó, karakter, írásjel), és a világ jelenleg legnagyobb szabadon elérhető szöveges adatbázisában, a Common Crawléban sincs ennek a duplájánál több hasznos adat.
Az MI fejlődésének lassulása vagy leállása fenyegető fejlemény, számos kutató dolgozik azon, hogy továbbra is legyen mivel betanítani a modelleket. A lehetséges megoldások között felmerült, hogy érdemes lenne az információs korszak előtti évszázadokban született írásműveket, könyveket, cikkeket, tanulmányokat digitalizálni, ám ez is csak ideig-óráig enyhítené az LLM-ek forráséhségét. Elképzelhető, hogy a kutatók olyan betanítási mechanizmust dolgoznak ki, amit használva kevesebb adattal is hatékonyan tréningezhetők az algoritmusok. De a fejlesztők nagy reményeket fűznek az első hallásra fából vaskarikának tűnő „szintetikus adathoz” is. Ezt maga az MI állítja elő a valós emberi adatbázisokban megfigyelt statisztikai minták és jellemzők alapján úgy, hogy ne szerepeljenek benne valós vagy személyes adatok. Az ötlet kecsegtető, de szakértők figyelmeztetnek, hogy még ha használható korpuszok születnek is a szintetikus adatokból, a mostaninál komolyabb ellenőrző mechanizmusokat és szabályrendszert kell az algoritmusokba építeni a másodlagos felhasználás fokozott hibalehetőségei miatt. (hvg.hu)