A mesterséges intelligencia fejlődésével egy elsőre hihetetlennek tűnő, ám egyre égetőbb kérdés merül fel a kutatók fejében: vajon kifogyunk-e előbb-utóbb az adatokból, amelyeken az egyre nagyobb nyelvi modelleket tanítjuk?
(A szerző befektetési szakember. Korábbi írásai itt olvashatók.)
Akármilyen nehéz is elképzelni, egyáltalán nem elméleti probléma, hogy elfogyhatnak a mesterséges intelligencia (AI) nyelvi modelljeik (LLM) tanítására használható releváns adatok. Az olyan vezető modelleket, mint például a Meta által fejlesztett Llama 3, már most is elképesztő mennyiségű adaton – több mint 15 000 milliárd ún. tokenen – képzik. A token a betáplált adategység. Szöveg esetén például egy mondat tokenei mindazok az elemek – például a szavak és az írásjelek –, amelyekre a feldolgozáshoz szükség van.
A 15 000 milliárd token ránézésre nagy számnak tűnik, de kontextus nélkül nehéz értelmezni.
Már most is kevés a releváns, jó minőségű adat
A világ legnagyobb – és az LLM-ek tanítására legtöbbet használt – ingyenes internetes adatarchívuma, a Common Crawl, nagyjából 100 000 milliárd tokennyi információt tartalmaz. Ezeknek az adatoknak a jelentős része azonban spam vagy duplikáció, a valóban eredeti adatmennyiség körülbelül 30 000 milliárd tokenre becsülhető. Ez lényegében azt jelenti, hogy a Llama 3
szinte az összes hasznos adatot felhasználta a Common Crawl adatbázisából.
Ennél is rosszabb a helyzet, ha a jó minőségű, specifikus adatokhalmazok mennyiségét nézzük. Az egyik legnagyobb számítógépes kód tárhely, a GitHub mindössze néhány ezermilliárd tokennyi adatot tartalmaz, amit a jelenleg piacon lévő modellek már rég átrágtak. Még úgy is korlátos ez az adatmennyiség, ha a modellek tanítása során megismételjük a jó minőségű adatokat, 16 ismétlés után ugyanis szinte nullára csökken az ismétlés határhaszna – ezen az úton így nem tudunk tovább halani.
Ez a fenyegető „adatfal” azt sugallja, hogy a jelenlegi paradigmánk – modellek képzése egyre több és több adattal – hamarosan eléri a határait.
Olvasunk több százmilliárd dolláros AI beruházásokról, de hirtelen elérhetjük a modellek felső korlátját? Ilyen banális módon érne véget a mesterséges intelligencia fejlődése?
Az iparági bennfentesek nem ilyen borúlátók. Dario Amodei, aki korábban az OpenAI kutatási alelnöke volt, jelenleg a Claude nagy nyelvi modellsorozat fejlesztőjeként ismert Anthropic vezérigazgatója és társalapítója. Nemrégiben úgy nyilatkozott, hogy bár hamarosan kifogyhatunk a rendelkezésre álló adatokból, ez nem feltétlenül szab gátat a fejlődésnek.
Innovatív megoldások a láthatáron
Az „adatfal” leküzdésére a kutatók számos lehetséges megoldást vizsgálnak, köztük a szintetikus adatok használatát, a Self-play (amikor a modell saját magával játszik) és a Reinforced Learning (a megerősítéses tanulás) megközelítéseket.
Mindhárom ötlet lényege, hogy a modellek hatékonyabban tanuljanak a rendelkezésükre álló adatokból, hasonlóan ahhoz, ahogyan az emberek a tömény, összetett tananyagokat dolgozzák fel.
Képzeljük el, hogy egy bonyolult összefüggéseket ismertető matematika könyvből tanulunk. Ilyenkor nem csak átfutjuk a tankönyvben található képleteket és feladatokat, hanem lassan olvassuk, megvitatjuk a problémákat másokkal, megoldjuk a feladatokat, visszajelzést kapunk, és ha elrontottuk a példák megoldását, újra próbálkozunk. Tesszük ezt addig, amíg meg nem értjük teljesen az adott fejezetet.
Az AI-kutatók hasonló folyamatokat kívánnak beépíteni az LLM-képzésbe, hogy
adott információból valódi megértésre, és ne csak „emlékezetből visszamondásra” legyen képes a modell.
Gyenge webes adatok helyett kiváló minőségű adathalmaz
Az egyik ígéretes megközelítés a szintetikus adatok használata a tanítás során. Ez azt jelenti, hogy a modellel új adatokat hozunk létre, amelyek kiegészíthetik a meglévő adatkészleteket. Ez elsőre eléggé kétes megoldásnak tűnik, de hadd hozzak egy példát, amin keresztül jobban megérthető.
A világ legjobb gó játékosát legyőző mesterséges intelligencia rendszer, az AlphaGo is részben ezt a szintetikus adatokon való tanulást használta egy kétlépcsős tanulási folyamatban. Az első lépésben profi gó játékosok játszmáit mutatták neki, hogy megértse az alapokat és a stratégiákat (utánzásos tanulás). Második lépésben pedig több millió játékot játszott saját maga ellen (self play), ami lehetővé tette, hogy óriási gyakorlatot szerezzen és idővel felülmúlja a legkiemelkedőbb emberi teljesítményt is. (Az AlphaGo történetéről egy elképesztően izgalmas dokumentumfilmet is készítettek, ez teljes verziójában elérhető Youtube-on ezen a linken.)
Ha hasonló megközelítést alkalmaznánk az LLM-ekre, az jelentősen növelhetné képességeiket. Ahelyett, hogy hatalmas számítási erőforrásokat fordítanánk tehát gyenge minőségű webes adatokra, a modelleket gondosan összeállított, kiváló minőségű adathalmazokon képezhetjük, és ennek az adathalmaznak a minél mélyebb megértésére koncentrálhatnánk.
Ez a váltás nemcsak nagyobb, hanem sokkal jobb képességű modelleket is eredményezhet.
Transzfer tanulás, félig felügyelt és önfelügyelt módszerek
Az „adatfal” leküzdésének másik kritikus területe az adatok hatékonyságának javítása jobb algoritmusok révén. Itt nem mennék ezeknek a technikáknak a mélyére – őszintén még magam is dolgozom a teljes megértésükön. A kutatók szerint különböző technikák alkalmazásával hatékonyabbá lehet tenni kisebb adathalmazokon is a tanulást. Ezen technikák közül az egyik a „transzfer tanulás”, ahol a modellek az egyik területről származó tudást válnak képessé alkalmazni egy másik területet felmerülő problémára.
Egy másik módszer a finomhangolás, ahol az előre betanított modelleket specifikus adatokkal finomítják, ezzel segítve, hogy kisebb adathalmazon tudjanak tanulni. Emellett a félig felügyelt és önfelügyelt tanulási módszerek (semi-supervised és self-supervised learning) pedig lehetővé teszik, hogy a modellek válaszait emberi kutatók segítségével értékeljék és ezek alapján biztosítsák a válaszok pontosságát.
A saját kutatás és a mesterséges intelligencia jövője
Érdekes módon, ahogy közeledünk az adatfalhoz, úgy válnak az AI-modellek egyre különbözőbbé. A múltban a legmodernebb technikákat a kutatók gyakran büszkén publikálták az interneten, ami széles körű hozzáférést és versenyt tett lehetővé az iparágban.
Most, hogy az adatok kritikus korláttá válnak, a vezető laboratóriumok a leginnovatívabb megközelítéseiket titokban fogják tartani.
Ez a váltás azt jelenti, hogy a különböző AI-fejlesztők módszerei és teljesítménye között egyre nagyobb eltérésekre számíthatunk. Egyesek számára valóra válik a rossz forgatókönyv és beleütköznek az adatfalba, míg mások áttörést érnek majd el, ami jelentős különbségekhez vezethet az általuk fejlesztett mesterséges intelligenciák képességeiben.
Összefoglalva, bár a mesterséges intelligencia modellek képzésére felhasználható adatok mennyiségi korlátaitól való félelem jogos, nem valószínű, hogy ez megállítja majd a fejlődést. A mesterséges intelligenciával foglalkozó közösség aktívan kutatja a kihívás leküzdésére irányuló innovatív stratégiákat.
Tekintettel a mesterséges intelligencia múltbeli korlátok leküzdésében elért eredményeire, joggal várhatjuk, hogy ezek az új megközelítések nem csak elkerülik az adatfal okozta katasztrófát, hanem potenciálisan a modellképességek még nagyobb növekedéséhez vezethetnek.
Énekes Tamás,
a Hold Alapkezelő privátbankára
A vendégszerzők külsős szakértők, nem a Forbes szerkesztőségének tagjai, véleményük nem feltétlenül tükrözi a Forbesét.
Jogi nyilatkozat. A dokumentumban foglaltak nem minősülnek befektetési ajánlatnak, ajánlattételi felhívásnak, befektetési tanácsadásnak vagy adótanácsadásnak, befektetési elemzésnek, az abban foglaltak alapján a Hold Alapkezelő Zrt.-vel szemben igény nem érvényesíthető, azokért a Hold Alapkezelő Zrt. felelősséget nem vállal.