Az Alrite első blikkre semmi földöntúlira nem képes: mesterséges intelligencia segítségével megérti a magyar beszédet és pillanatok alatt szöveget gyárt belőle. Úgy tűnik, mégis nagyon hiányzott az életünkből, hogy ebből szolgáltatás szülessen, év végére legalábbis már több mint 15 ezer felhasználó aktívan használja.
„Na, majd talán az interjú után rákapsz” – mondják nekem a beszélgetés legelején, miután elindítom ósdi Iphone-diktafonomat, velem szemben pedig éppen az Alrite nevű beszédfelismerőt helyezik üzembe annak készítői. Pár nappal később én is átfuttatom az alkalmazáson az általam felvett hangot.
Vajon mennyi időt spórolok, ha nem nekem kell a begépeléssel vacakolnom, hanem az app leiratozza a felvételt?
A szűk egyórás hangfájlt (ami bele is fért az ingyenes kezdőkeretbe) felhőbe töltéssel és feldolgozással együtt két perc alatt letudja az Alrite webes felülete. Ott máris szerkeszthető formában kapom meg a szöveget, a résztvevők is külön gondolatjelekkel vannak tagolva. Nem mindenhol pontos, vannak benne szavak, amiket teljesen félreértett az algoritmus, de abszolút használható a végeredmény. Ezt utólag átfutni még mindig sokkal kevesebb idő, mint nyers szöveget gépelni. Legalábbis nekem. Másnak nem biztos, hogy kényelmesebb ezt követően kiszerkeszteni az élőbeszéd hibáit, mint eleve begépelés közben.
„Nagyon bírom, megkönnyíti az életemet” – ezt már Nyáry Krisztián író, irodalomtörténész, 2019-es Forbes Life-címlaposunk mondja telefonon az Alrite-ról. Nemrég Facebook-posztban dicsért olyan hazai (nem állami) fejlesztésű, előfizetéses alkalmazásokat, mint az Arcanum, a Számlázz.hu, vagy éppenséggel az Alrite.
Az utóbbit pár alkalommal használta eddig, de így is rengeteg bosszúságtól menti meg, és rengeteg időt takarít meg vele. Azokat a régi könyveket, kéziratokat, amikkel foglalkozik, tapasztalata szerint még a legjobb szövegfelismerők sem dolgozzák fel jobban a nyomdatechnika, a betűtípus és a minőség miatt, mintha megfogja a szöveget, felolvassa az Alrite-nak, majd gyorsan összeveti az eredetivel. Vidéki autózás során vázlatot tud diktálni neki, de egyszer még az Országos Széchényi Könyvtárban is nagy hasznát vette, hiszen ott bent tilos kifényképezni a szöveget, a fénymásolót igénybe venni pedig nem túl felhasználóbarát.
„Azt nem tiltja senki, hogy fölolvassam a telefonomnak vagy a laptopomnak a szöveget. Úgyhogy ezt tettem, ami, hát, nagyon vicces.”
Régens-régen
De pontosan mi is az az Alrite? Egy deep learning alapú, magyarul, angolul, németül és spanyolul is értő beszédfelismerő – techesen mondva speech-to-text – alkalmazás, böngészőből és mobilappból egyaránt használható. Rögzítjük vagy feltöltjük a hangot, videót, ahhoz pedig az Alrite a felhőben szöveges leiratot és időkódos feliratot tud készíteni, amiket Word-dokumentumban, illetve SRT fájlban tölthetünk le, vagy akár helyben szerkeszthetünk.
Ideális körülmények között – érthető beszédből, különválasztható felekkel, nulla vagy minimális háttérzajjal – a mesterséges intelligencia (innentől AI), ha nem is 100 százalékos precizitású, de percek alatt meglepően pontos szöveget ad vissza.
Az Alrite egy magyar szoftvercég, a Régens fejlesztése. Ahogy azt a nevük is sugallja, egy már több mint 20 éve létező vállalatról volna szó. A kilencvenes években pénzügyi, majd logisztikai és váminformatikai szoftverekkel, megoldásokkal építették ki üzleti ügyfélkörüket, mára a budapesti székhelyen kívül egy szegedi fejlesztési központtal, valamint nemzetközi kapcsolatok céljából egy londoni irodával is rendelkeznek.
A Régens kutatás-fejlesztési csapata öt éve kezdte el feltérképezni az AI területét, azon belül is a kép- és hangfelismerését, valamint a szövegelemzését. Az Alrite megoldása mögötti magszoftvert 2018-ban kezdték el fejleszteni. Akkor még 2-3 fő dolgozott rajta, de miután már a teljes szolgáltatást elkezdték köréépíteni, volt, hogy 10 fölé emelkedett a projektcsapat létszáma.
Az Alrite béta verzióját 2019 végén tudták tesztelni az első felhasználók, és 2020. februárban volt az éles rajt, amikor már elő is lehetett fizetni. Az Alrite ingyenesen is használható: először egyszeri 1 órával, majd havonta fél órával töltik fel a keretet. A különböző fizetős csomagokhoz viszont jár például automatikus fordítás vagy időzített videó feliratozás, kiegészítő szolgáltatásként pedig akár valós idejű leiratozás, harmadik fél kizárására on-premise (helyben telepített) rendszer, privát felhő, továbbtanítás, miegymás is rendelhető.
Az alkalmazás idén nyáron érte el a 10 ezer aktív regisztrált felhasználót, e pillanatban ez a szám már 15 ezer felett tart, 28 ezernyi feldolgozott órával és több mint 195 millió leiratozott szóval.
Így neveld a mesterséges intelligenciádat
A Régens kelenföldi, két szintet befoglaló székhelye a covid miatt nyilván most kicsit csendesebb – a beszédfelismerő szempontjából ez nem feltétlen hátrány, ugye. Görcsösen rááll a szám az „éjájrájt” kiejtésre, pedig már az interjú elején tisztázzuk, hogy az bizony „ólrájt”. Nyilván értem a poént, nem arról van szó, de hiába – ezek szerint nem tanulok olyan gyorsan, mint az Alrite.
Moravcsik Áron termékmenedzser és Matics-Horváth Kata marketingvezető az elmúlt durván fél évtizedben csatlakozott a céghez. Mindkét harmincas szakember a Közgázon végzett, mindketten üzleti elemzőkként is dolgoznak itt (Áron még tanácsadóként is), az Alrite életében pedig már a kezdetek óta jelen vannak.
„Az első drótvázakat is gyakorlatilag együtt rajzoltuk meg, mielőtt átadtuk egy UX csapatnak. Ezért kicsit úgy is kezeljük, mint a saját gyerekünket” – meséli Kata.
Az üzletimodell-tervezéshez szükséges tudásuk jött a Közgázról, az alkalmazás felépítése pedig üzleti elemzői tapasztalataikból származik, mivel jó pár éve csinálnak már hasonló alkalmazásokat, például jogi vagy autóipari területeken.
Az Alrite-féle új keletű megoldásokkal, ahogy Áron fogalmaz, egy „új Régens hírét” szeretnék vinni mind a hazai, mind a nemzetközi piacon, ennek gyakorlatilag az egyik zászlóshajó-terméke ez a beszédfelismerő. Áron és Kata szerint nemcsak itthonról, külföldről is mutatkozik érdeklődés az alkalmazás iránt: a statisztikáikból azt látják, az angol miatt nem csak az anyanyelvi országokat tudják megcélozni. Ők is igyekeznek szélesíteni saját látókörüket, céljuk is, hogy ne csak egyetlen AI-termékkel, de szélesebb portfólióval, minél több nyelven jelen tudjanak lenni a nemzetközi piacon.
Megnyugtatnak: az Alrite nem úgy működik, hogy beszélünk az asztalnál, alattunk pedig éppen egy hús-vér ember gépel vadul.
Az algoritmus két modellből áll, egy akusztikusból, illetve egy nyelvtaniból. Ezt a kettőt veszi figyelembe és súlyozza, amikor leírja az adott beszédet. Az AI valójában nem a helyesírás szabályait tanulja meg, hanem inkább a mintákat a kapott hanganyagból és hozzá tartozó leiratból. Ha például sokszor látja a mintákban, hogy a Lánchíd az egyedüli olyan híd, ami egybeírandó, szemben a többi híddal, amik kötőjellel (Tisza-híd) vagy különírva (Petőfi híd) helyesek, akkor nem fog nehezére esni megtanulni, hogy így írja le hallást követően. Ugyanez a helyzet például a központozással is.
A Régens az elején inkább a szélesebb körben megfogalmazott igényekre fókuszált, de elegendő anyagból és adatból szerintük mindenre továbbtanítható és specializálható a rendszer, legyen szó tájszólásról, gyerekbeszédről vagy gyengébb minőségű telefonbeszélgetésről.
Egyetemistáknak, youtubereknek, lelkipásztoroknak
A beszédfelismerővel az üzleti felhasználók mellett immáron a magánfelhasználók is megjelentek, az ő igényeiket is figyelembe kellett venni a platform és az üzleti modell megalkotásakor. Bár ezt a teljesítményt nem csupán az Alrite-hoz, más szolgáltatásaik erősödéséhez is kötik, az kétségtelen, hogy
2020-ban, a beszédfelismerő bevezetésének évében 2019-hez képest megötszöröződött a Régens adózott eredménye.
Áron és Kata végigvesz jó néhány tipikus vagy lehetséges felhasználási módot:
- egyetemi tananyagok leiratozásához, szakdolgozathoz (vannak is hazai egyetemek, melyek Alrite-profiljához több száz hallgató van hozzárendelve);
- egy Youtube-csatorna saját videóinak feliratozásához;
- céges értekezletek vagy önkormányzati ülések jegyzőkönyvezéséhez;
- archívumok vagy levéltárak feldolgozásához;
- más alkalmazásokhoz való integrálással csetbotokhoz vagy telefonos ügyfélszolgálatokhoz;
- tévéműsorok leiratozásához vagy azonnali fordításához;
- online konferenciák, események akadálymentesítéséhez, és így tovább.
Kata elmeséli, hogy kapcsolatban állnak egy hallássérült lelkipásztorral is, aki történetesen Alrite-tal feliratozza a miséket, de rajta kívül más vallási felekezetek is használják az alkalmazást. Egy másik, szintén kedves felhasználói történet egy nagypapáról szól, pontosabban annak visszaemlékezéseiről, melynek átírása évek óta elhúzódott. Így viszont ezt az irdatlan munkát az Alrite mesterséges intelligenciája percek alatt letudta, így pedig emlékkönyvbe fűzve minden családtagnak jutott a nagypapa krónikájából.
„Van egy nagyon jó magyar szólásunk, hogy a szó elszáll, de az írás megmarad. Egyszerűen annyi területen lehetne hasznosítani az Alrite-ot, hogy az megszámlálhatatlan. A leírt szöveg sokkal jobban kezelhető, tárolható, elemezhető, mint egy hang- vagy videóanyag” – foglalja össze Áron.
Az alkalmazás általános szókincsre lett betanítva, különböző szakterületekre, szaknyelvekre tovább kell tanítani az algoritmust. Bár Kata ellenpéldaként felhozza: egy kórházi pilotprojektből jött visszajelzés szerint alapjáraton is váratlanul pontos a rendszer, „kevés olyan dolgot írt le, amin az egészségügyi dolgozóknak mosolyogniuk kellett”. Visszajelzések szerint maszkban, távolságtartással sem romlik drasztikusan a leirat pontossága, de ehhez persze az is kell, hogy minél közelebbi, minél tisztább hangot tudjunk rögzíteni.
A mesterséges intelligenciától nem kell félnetek jó lesz?
Áron és Kata ma is azt látják, hogy a magyar nyelv vonatkozásában kifejezetten ritkának mondhatók az ehhez hasonló megoldások a hazai piacon, világszinten meg pláne.
Afelől viszont nincs kétségük, hogy a Google, Apple és a többi techóriás egyszer úgyis megérkezik melléjük, pontosabban azok, akik eleve nincsenek már itt, lásd például a Siri korlátozott magyar funkcióit.
Ezért is kell szerintük olyan egyedi megoldásokat nyújtani, amit a nagyok majd úgysem akarnak, például a már említett on-premise rendszertelepítést, hogy a felhasználó mindent egy platformon belül érhessen el (szerkesztés, felhőtárolás stb.), vagy hogy külön kérésre továbbtanítsák az algoritmust különböző kifejezésekre, márkanevekre, amit privát felhő biztosításával az ügyfél versenytársai nem érnek el.
Sőt, kiegészítő szolgáltatásként van lehetőség alapérzelmek felismerésére, lejegyzetelésére és színskálákhoz rendelésére is, így akár azt is vezethetjük, hogy mondjuk a hívás hányadik másodpercétől lett mérges a beszélgetőfél.
AI-fejlesztéseikről Áron elmondja, hogy pillanatnyilag is munkálkodnak a hangról szövegre ültetés (speech-to-text) ellentettjén, egyelőre prototípusfázisban van saját text-to-speech, ha úgy tetszik, felolvasó megoldásuk. Közben olyan szövegelemző funkciókon is dolgoznak, mint hogy egy többórás hanganyagból akár pármondatos összefoglalót tudjanak AI segítségével készíteni. A Sirihez, Alexához és Cortanához hasonló virtuálisasszisztens-funkciók terén is elindultak szimatolások, bár itt szoftvercégként megkötés náluk a célhardver, egyelőre nem látják, mi az az eszköz, amire érdemes fejleszteni.
Ami az AI hazai környezetét illeti: a Régens a Mesterséges Intelligencia Koalíció tagjaként jelen van a hazai szakmai párbeszédekben, a náluk nyílt üresedéseket pedig fel tudják tölteni kellő tudástőkével. A felvevőpiacon is azt látják, hogy ügyfeleik egyre inkább látják az AI okozta megtérülést, bár azt nem tagadják, hogy azért kell még edukálni a hazai piacot, hiszen egyesek szemében ez még mindig idegen technológia. Ők például az adatvédelmi irányelveiket is úgy alakították ki, hogy se az algoritmus, se saját ügyfélszolgálatuk se férhessen hozzá a feltöltött fájlokhoz. Kata szerint már az alkalmazás kiadásának legelején felvállalták ezt az algoritmusfejlesztés szempontjából történő lemondást, elkerülve ezzel a lehetséges etikai aggályokat.
Rákaptam
Vissza saját alrite-os élménybeszámolómhoz. Maszkban, mindhárman durván fél méterrel ültük körbe a telefonomat: Kata tiszta kiejtését közel hibátlanul dolgozta fel az alkalmazás, Áron gyorsabb beszédstílusába néha belebakizott, de szintúgy jó arányban ültette szövegre a mondandóját.
Hiába az én mélyebb hangszínem uralja le a hangsávot, híresen rosszul artikulálok, amivel az Alrite is megizzadt, valamint a kérdéseim végére sem tett kérdőjelet. Viszont a szöveg többi részét, valamint a központozást korrektül oldotta meg, kiszűri az őzéseket, sőt képes olyan mozaikszavakat is értelmezni, mint például a NAV vagy az API. Igaz, magát az Alrite szót nem sikerült leírnia, gondolom, erre külön kellene betanítani.
Azt se feledjük, hogy a begépelés egy szellemileg elég fárasztó, cseppet sem kreatív feladat. Biztosan vannak olyanok, akik az elhagyásáért nem hullajtanának könnyeket. Egy utólagos ellenőrzést, összevetést nyilván be kell iktatni, mivel egyáltalán nem hibátlan pontosságú az alkalmazás, de ez sem igényel sokkal több időt a beszélgetés teljes hosszánál. Szóval még így is órákat spórolt meg nekem az Alrite.
Kapcsolódó cikk a Forbes.hu-n:
Borítókép: Sebestyén László