Az autóiparral kezdtek, de már a drónok és más felhasználási területek felé is nyitottak. A hosszú távú cél az, hogy minden iparágban ott legyenek, ahol a gépi tanulás és látás esszenciális. Két bátor magyar srác, Pásztor Bálint és Pintér Roland felkerekedtek, hogy meghódítsák az AI aranylázában égő Szilícium-völgyet. Céljuk, hogy szintetikus adatokkal tanítsák meg a robotokat látni. A DiffuseDrive-sztori.
A mesterséges intelligencia forradalma alapjaiban formálja át azt, hogyan működnek bizonyos iparágak. Szinte hónapról hónapra jönnek az újabb és újabb alapmodellek, variánsok, amik vagy gyorsabbak, vagy mélyebb kontextus-ablakkal rendelkeznek, ezáltal jobban megértik a feladatokat, vagy épp a kettőt ötvözik. Sam Altman OpenAI-vezér többször hangsúlyozta, neki mindegy, hogy 500 millió, 5 vagy éppen 50 milliárd dollárt égetnek el évente addig, amíg fent tudják tartani a növekedés ütemét. A cél: az általános mesterséges intelligencia.
Közben a Covid során kiürült San Francisco környéki irodaházak újra megtelnek élettel: AI-startupok tömkelege bukkant fel gombamód az újabb digitális aranylázban.
Nagyon úgy néz ki, hogy az adat az új olaj, a számítási kapacitás az olajfúró, az OpenAI, az Anthropic és társaik által fejlesztett alapmodellek pedig a csövek és finomítók, amik az olajból használható üzemanyagot állítanak elő.
Mint az olajiparban is, ezek az alap infrastrukturális fejlesztések is elképesztően tőkeigényesek, és úgy tűnik, a nagy tech cégek ezeket a beruházásokat magukra vállalták, másoknak nem is lenne erre elég pénze (persze ezzel a teljes iparágat uralni fogják, ennek gazdasági, társadalmi hatását egyelőre nehéz felmérni) . Így a Szilícium-völgyben most azon megy a verseny, hogy milyen gépeket, járműveket fog fűteni az AI által feldolgozott adat-olaj.
Míg az USA lázban ég, addig Európában a szabályozó szervek az innováció útjában állnak adatvédelmi és AI-regulációs aggályok mentén. Így az igazán motivált és tehetséges európai alapítók is Amerika nyugati partján keresik a szerencséjüket.
Így tett Pásztor Bálint és alapítótársa Pintér Roland is, akik DiffuseDrive nevű vállalkozásukkal korán felismerték, hogy a Silicon Valley tárt karokkal várja őket. A srácok jelenleg azon dolgoznak, hogy a gépi tanulás egyik speciális ágazatában, a computer vision, vagyis a számítógépes képfelismerés területén oldjanak meg egy komoly problémát: megfelelő mennyiségű és minőségű tréning adatot szolgáltassanak gépi tanulás alapú kamerarendszerek számára. Mindezt a generatív mesterséges intelligencia alapmodellek egyik kevésbé ismert vállfajával: a diffúziós modellel.
Szupertitkos belső startup-projekt
De ne szaladjunk ennyire előre, ugyanis a DiffuseDrive története önmagában is nagyon érdekes, kezdve a két alapító életútjával. Bálint Skóciában kezdte felsőfokú tanulmányait, amit végül Magyarországon fejezett be előre nem várt események miatt. Majd a budapesti Bosch-nál helyezkedett el, ahol először az elektromos hajtáslánc fejlesztési vezetőjének volt a jobb keze, a technikai asszisztense, majd az önvezető üzletághoz került. Itt termékmenedzser volt, valamint a Bosch belsős vezetőképzőjébe, a Junior Managers Programjába is bekerült. Ennek köszönhetően rengeteg különböző üzleti területre látott rá. Maga a projekt amin dolgozott is érdekes volt:
„tulajdonképpen egy belsős startup-ként működtünk, annak minden előnyével és hátrányával. Bár magasfokú autonómiánk volt a Bosch-on belül, azért a szervezeti keretekkel meg kellett küzdenünk”.
Arról, hogy mit csináltak nem árulhat el semmit, mert cégtitok, de már akkor is a gépi látás/tanulás és a képfelismerés világában működtek. Az ott zajló fejlesztések horderejét tekintve „simán lehetett volna rá egy saját startup céget alapítani.”
Bálint a szupertitkos projektben találkozott alapító társával, Rolanddal.
Roland az ELTÉ-n végzett fizikusként, programozásra és adatelemzésre fókuszálva. Egyetemi évei alatt dolgozott az „amerikai CERN-nek”, vagyis a Long Island-en található Brookhaven National Laboratory-nak, ahol a többi között egy részecskegyorsítóval végeznek fundamentális fizikai kísérleteket. Végül Roland is a budapesti Bosch-nál kötött ki, ahol gyorsan az önvezető autókkal kapcsolatos kutatások egyik vezető fejlesztője lett. Így került ő is a már említett belső startupba, ahol Bálinttal gyorsan megtalálták a közös hangot.
Fehér zajból valósághű kép
Egy idő után úgy érezték, a multis környezet nem igazán enged kibontakozni egy startupot, így Bálint az Egyesült Államokba ment a cégen belül a Bosch üzletfejlesztésén dolgozni. Eközben Roland egy rövid, ám annál tartalmasabb kitérőt tett a Gattyán-féle Docler Csoport mesterséges intelligencia részlegén, ami a cég szerint Európa egyik legjobb AI fejlesztő csapata. Itt a klasszikus gépi tanulási projektek mellett már elkezdett ismerkedni a nagy nyelvi modellekkel (LLM–ez többek között a ChatGPT mögött futó algoritmus is), és találkozott a diffúziós (diffusion) modellekkel is.
Az utóbbiban az elmúlt időben jelentős technikai előrelépés volt tapasztalható, és Roland Bálinttal összefogva úgy döntött egy olyan problémára keresnek közösen megoldást az új technológia segítségével, amivel ők is találkoztak még a Bosch-os projektek során, és ami jelentős problémát okozott: Ez a megfelelő mennyiségű és minőségű kamera alapú tréning adatok hiánya és problémás gyűjtése. Mindezt olyan ütemben, ahogy a fejlesztési folyamatokban szükség van rájuk.
Mi fán terem a diffúziós modell?
A diffúziós modell lényege, hogy egy random zajból állít elő több lépcsőben egy képet, ami a modell tudása alapján a leginkább megfelel a kezdeményező leírás feltételeinek, azaz a prompt-nak. A diffúziós modell a tanítási fázisban megtanulja, hogyan kellene kinéznie a képeknek különböző „zajossági” szinteken. Ezt öntanuló módon, a tréning-képhez véletlenszerű zajosság hozzáadásával oldja meg. A folyamat inverzével pedig összeáll a diffúziós modell, azaz zajosságból tud konkrét képeket előállítani ezzel a „fordított predikcióval”.
Szemléltető példának képzeljünk el egy régi, karcos, elmosódott fotót, amin szinte semmi sem kivehető, azaz zajos. De tudjuk, hogy azon a képen valaha a nagymamánk portréja volt. Megadjuk a diffúziós modellnek, hogy ez a nagymamánk portréja. Mivel a modell már látott előtte milliószám portrékat a nagymamánkról, így szépen elkezdi eltávolítani az elmosódott és karcolt részeket, és a nagyiról készült más fotók alapján rekonstruálja, újrarajzolja az eddig hibás részeket. A végeredmény a nagyiról készült összes képben rejlő adatok alapján újraalkotott portré lesz.
A DiffuseDrive-ban a fiúk a diffúziós modellek segítségével olyan platformot fejlesztenek, amely olyan képes és videós anyagokat generál a fejlesztőknek, amelyek megkülönbözhetetlenek a való világtól. Ami még extra, hogy a szintetikus média-elemek már annotálva kerülnek ki a termékből, tehát DiffuseDrive rengeteg manuális munkát spórol meg a fejlesztőknek azzal, hogy nem nekik kell bekeretezni és ráírni a képkockákon látható elemekre, hogy mi micsoda és hol található. Ezek a generált képes adatok aztán felhasználhatók a kamera alapú automatizált rendszerek tanítására.
A platform ráadásul úgy tudja megoldani a generált képek létrehozását, hogy a kameraszögek, és egyéb beállítások a tanítandó eszköz paramétereihez igazíthatók, ehhez csak pár képet kell feltölteni rendszerükbe amik a tényleges kamerákkal készültek.
A csapat hátteréből és a piacon tapasztalt elsődleges igényekből adódóan az autóiparral kezdtek, de már a drónok és más felhasználási területek felé is nyitottak. A hosszú távú cél az, hogy minden iparágban ott legyenek a modelltanítási értékláncban, ahol a gépi tanulás és látás esszenciális.
Elfogult modellek és Tokyo Drift – vagy mégsem?
Maga a koncepció is eléggé absztrakt, hogy öntanuló algoritmusokat öntanuló algoritmusokkal, generált szintetikus képeken tanítsunk. Amióta azonban az internetet elárasztotta a ChatGPT által generált szöveges tartalom, a kutatók panaszkodnak arra, hogy a nagy nyelvi modellek tanítása sokkal nehezebb és rosszabb hatásfokú lett, ami befolyásolja az output-ok minőségét is.
Rákérdeztem Bálintéknál, náluk érvényesül-e ez a fajta „drift” vagy modellösszeomlás, aztán Roland válaszától megvilágosodtam:
„Ez a »drift« jelenség akkor problémás, ha szintetikus, vagyis generált adatokkal tanítunk egy másik, szintén generatív modellt. Tehát mondjuk egy novellákat író nyelvi modellt olyan novellákon tanítunk, amit már a ChatGPT írt. Ebben az esetben érvényesül a minőségi romlás a szintetikus tréningadatból eredően. Nálunk alapvetően egy generatív modellel egy objektum-detektáló modellt tanítunk, és ebben a relációban nem érvényesül a »drift«.”
Amellett, hogy nem érvényesül a hátráltató tényező, két nagyon fontos előnye is van a szintetikus tanulóadatoknak a gépi látás esetében. Az egyik, hogy generatív módon lehet nagy számban adatpontokat generálni, ami még az az úgynevezett edge case-ekhez is hasznos tud lenni. Az edge case jellemzően alacsony számosságban előforduló, de nagy hatású eseteket jelent. Például egy önvezető autó esetében edge case, ha az autó elüt valakit. Mivel direkt még Elon Musk sem akar elüttetni senkit a Teslákkal, hogy kellő mennyiségben álljon rendelkezésre tréningadat, itt nagyon jól tud érvényesülni a DiffuseDrive megoldása. Mert technikailag végtelen számban és helyzetben lehet fotorealisztikusan generálni bármilyen szükséges esetet – akár drónra, akár raktárlogisztikára.
A másik pedig az, hogy amellett, hogy a valós videófelvételeket már említett módon annotálni kell, azok hatására kialakulhat a modell túlillesztettsége (overfitting), az úgynevezett lokációs elfogultság (location bias). Ez röviden annyit tesz, hogy hiába mutatunk különböző szcenáriókat a modellnek, ha az ott látottak ugyanazon az 1000 úton, utcán, azaz közterületen történnek. Ettől a modellekben kialakulhat a környezeti elemekből fakadó elfogultság, és más környezetben nem tud ugyanolyan hatásfokkal működni az objektum-detektálás sem. A diffúziós modellekkel a környezeti elemek és a „háttér” is nagyobb variancia mentén tud generálódni.
A szakma még a GTA 5-nél van leragadva
Az elmondottak alapján a megoldás maga az aranystandard lehet. Jogosan merül ugyanakkor fel a kérdés, hogy mi a helyzet a versenytársakkal. A diffúziós modellek az elmúlt nagyjából másfél évben olyan minőségi javuláson mentek át mind minőségi, mind számítási-kapacitás igény szempontjából, hogy mostanra a piaci igényekhez mérten megvalósítható lett egy ilyen termék.
Innen nézve Bálint és Roland jókor volt jó helyen, azaz a jó technológiákkal, kicsivel a trend berobbanása előtt kezdtek el ismerkedni és dolgozni, és meglátták az ebben rejlő potenciált. Léteznek ugyanis már a piacon adatgenerálási megoldások, de ezek nem generatív diffúziós modelleken, hanem videójáték-motorokon alapulnak. Ezek nagyon jól működnek ismétlődő szituációk (például forgalmi helyzetek) modellezéséhez, de nehezen lehet általuk általános megértésre tanítani az AI-t.
„A jelenlegi modellek körülbelül a GTA 5 grafikai szintjén vannak, mert ugyanazt azt a renderelési technológiát használják, mint a videójátékokat hajtó grafikus motorok.”
A magyar tech-szcéna egyik meghatározó cége, az AiMotive egyik megoldása is erre a szimulációra épít, de Bálinték szerint nincs közvetlen verseny a két cég között. „Míg az AiMotive az autóipari vertikálra fókuszál, hardveres és szoftveres megoldásaival egyaránt, addig mi kifejezetten a gépi látás fejleszjelesztésre fókuszálunk, és nyitunk más iparágak felé is.” Roland azt is hozzáteszi:
„A szimuláció és a mi megoldásunk között nincs igazi verseny, más technológia, más a felhasználási mód is, hiszen a környezet a radaralapú megoldások tanítására is használható. Ha mégis össze kellene hasonlítani, akkor az egységnyi szintetikus adatra vetített költségek sokkal magasabbak a szimulációs megoldás esetében és a fotórealisztikusság, valamint a szükséges diverzitás az általunk fejlesztett generatív modellek megkülönböztetője.”
Munkamegosztás terén Bálint felel az üzleti feladatokért, míg Roland a technológiáért, de a nap végén „mindketten csinálnak mindent”. Jelenleg ketten vannak, de „már megvannak az első kulcsemberek, akiket szeretnénk bevonni”. A cél egy erős senior csapat összerakása a gépi tanulás és gépi látás fejlesztésére – szaktudással és mély iparági háttérrel.
Mire jó egy globálisan elismert akcelerátor?
Habár korábban Bálint élt már az USA-ban, a DiffuseDrive – még ötletfázisban – részt vett a 500 Global Startup Flagship akcelerátor programjában Kaliforniában. Így kerültek az alapítók is az Egyesült Államokba, és azóta a koncepcióból egy kezdeti termék lett, ami az eredeti elképzelésekhez képest is sokat változott és várhatóan még sokat is fog változni. Például az adatok platformon belüli menedzselése előre nem látott komplexitású és fontosságú funkció lett, ami a felhasználói teszteken bukott ki.
„Folyamatosan tanulunk, alázatosan; mindig is termék-fókuszúak voltunk, ezután is azok leszünk, a vevők valós problémáinak megoldására törekszünk.”
Bálint és Roland jelenleg Magyarország és Amerika között ingázik, de az idő nagy részében a Szilícium-völgyben vannak és onnan építik a céget. A miértre egyszerű a válasz: ott van tudás, ott van ügyfél és ott van tőke – egyszóval, ott van a termékeny talaj. A 500 Global akcelerátor programja sokat adott hozzá a cég beindításához, „itt, a völgyben sok ajtót ki tudtak nyitni mind az ügyfél, mind befektetői oldalon. Kaptunk egy irodát és rengeteg képzést, amelyek az üzleti oldalon voltak nagyon hasznosak, és egy erős validációt is ad a program azoknak, akik nem az Egyesült Államok nyugati partján nőttek fel, és nem ebben a közegben szocializálódtak”.
A fiúk kezdetben kicsit nehezen találták meg a helyüket az „amerikai magabiztosságban európai szerénységgel”, de Bálint szerint az igazi különbség az amerikai és az európai startup-kultúrában, nem pedig a fejlesztett termékekben rejlik.
„A vágyak és célok ugyanazok, viszont egy amerikai sokkal jobban el- és elő tudja adni azt, amin dolgozik. Viszont a klasszikus Silicon Valley életérzés, hogy már ötletfázistól is óriási kockázatokkal, gigászira növő cégekben lehet gondolkozni, ez a mentalitás Európában még nem ennyire jellemző.”
Új standard a szintetikus tanításban
A tervek már a közeljövőre nézve is ambiciózusak. Már futnak az első pilot projektek nagy autóipari multikkal. A fiúk most szeretnének még embereket felvenni, és az is cél, hogy a fejlesztést Európában és Magyarországon építsék fel, míg a termékfejlesztést, üzletfejlesztést-értékesítést és az operatív szerepköröket az USA-ban tartsák.
„Alapvetően Amerikai cég vagyunk Európai gyökerekkel.”
Mivel az amerikai – és európai– top munkavállalók nagyon drágák, a DiffuseDrive éppen az első tőkebevonáson dolgozik. A hosszútávval kapcsolatban Bálint és Roland hiszi, hogy az ő megoldásuk lesz a standard minden kamera-alapú gépi tanulási rendszer betanításában és teljes körű adatszolgáltatásában.