Beszélgessünk a gépekről, beszélgessünk a gépekkel

Életünk számos területén észrevétlenül jelen van már a beszélő vagy a beszédet felismerni képes mesterséges intelligencia. Mi is tervezünk ilyen fejlesztést, ennek kapcsán gyűjtöttem most össze néhány érdekességet és információt a beszéd-alapú mesterséges intelligencia régmúltjából, arról, hogyan áll most ez a terület, ha a magyar nyelvről beszélünk, illetve, milyen lehetőségek rejlenek ebben a közeljövő telekommunikációs szektora számára.

Kempelen Farkastól Nemes Tihamérig

A mesterséges intelligencia régmúltjában kutatva két magyar névvel is találkoztam, ami a beszédalkotáshoz köthető. A barokk korban született és alkotó Kempelen Farkast sokan ismerik sakkozó gépéről, azt azonban kevesen tudják, hogy A beszédhangok első sikeres mesterséges előállítása is az ő nevéhez fűződik (1791). Ez a teljesen mechanikus, két kézzel működtethető szerkezet a belenyomott levegőt az emberi hanghoz hasonló levegőrezgésekké alakította át. Kempelen, beszélőgépének építése során, számos, napjainkban is érvényes megállapítást tett a beszédhangokkal kapcsolatosan.

Beszélőgépéről ITT olvashatsz bővebben.

Kevesen tudják, hogy 1930-ban Nemes Tihamér, a kibernetika hazai úttörője szabadalmi kérvényt nyújtott be egy berendezésre, amely optoelektronikai úton leírja a beszédet. A hangfelismerés egyik előfutára volt, és nemzetközi szinten is számontartják. Ennek kapcsán alaposan tanulmányozta Kempelen beszélőgépét. Még ma is igen érdekes megközelítéseket tartalmaz e kutatásaival foglalkozó munkássága, a hangfelismerés és rögzítés előfutáraként tekinthető. Az emberi cselekvés és gondolkodás megismerését mérnöki módszerekkel, szerkezeti elemekkel, áramkörökkel közelítette meg. Az emberi test alapos megfigyelése során alakította ki a beszédíró gépét, ami egyfajta idegműködési modell is, tehát komoly lépés a mesterséges intelligencia mai értelemben vett irányába is.

AI magyarul

A modern, számítógépes beszédelőállítással nem csak beszédhangokat és rövid mondatokat hozhatunk létre, mint Kempelen tehette 200 évvel ezelőtt; napjaink „beszélő gépei” már hosszú szövegek azonnali kimondására is alkalmasak. A mesterségesen előállított beszéd a tudományban és a gyakorlat számos területén hasznosítható.

Alexa, Watson és társai azonban általában világnyelveken (elsősorban angolul) értenek, beszélnek és „gondolkodnak”. Sokan vélik úgy a területen dolgozók közül, hogy a számos bíztató projekt ellenére magyar nyelvünk, a maga fura szóalkotási módszereivel, ragozott szóalakjaival, szabad szórendjével jelenti a legnagyobb akadályt a magyar nyelvű MI elterjedése előtt.

A magyar nyelv bonyolultsága ellenére több szolgáltató (mint a Google vagy a Nuance) is fejlesztett már olyan öntanuló megoldást, amely felismeri és szöveggé alakítja a beszélt magyar nyelvet, ez fontos lépés afelé, hogy a mesterséges intelligencia a hétköznapokban is használható legyen.

Ez azonban még nem jelenti azt, hogy érti is a gép, amit mondunk. Farkas Richárd, a Szegedi Tudományegyetem adjunktusa szerint távol vagyunk még attól, hogy a mesterséges intelligencia megértse a magyar szöveget, hiszen komplex, (egyelőre) ember számára felfogható szövegértelmezési feladat elé állítjuk a szabad szórendű magyar nyelvvel. Például „a labda nem fér a táskába, mert túl nagy” mondatban az emberek megértik, hogy a labda a nagy, nem a táska, ezért nem fér bele, a gép számára azonban még mindig nehéz az ehhez hasonló összefüggéseket megállapítani és megérteni.

A nehézségek ellenére vannak bíztató és igen eredményes hazai projektek mind az egyetemi kutatóbázisok, mind a vállalkozások oldalán. A Magyar Tudományos Akadémia és a Szegedi Tudományegyetem közös szervezete, a Mesterséges Intelligencia Kutatócsoport például pár éve a Computational Paralinguistic Challenge elnevezésű viadalon nyert el első helyezést, ami az érintett szakemberek jelentős megmérettetése: a magyar algoritmus a beszélő hangja alapján jó eséllyel felismeri a Parkinson-kórt.

A Budapesti Műszaki Egyetem Beszédkommunikáció és Intelligens Interakciók Laboratóriuma, röviden a SmartLab fejlesztéseit több mint 30 éve használják Magyarországon, a mintegy húsz kutató a beszédtechnológia szinte minden területén otthon van. Arra törekednek, hogy egy tetszőleges, írott szöveget megfelelő hangzásban alakítson beszéddé a gép. Bárki ellenőrizheti az eredményességüket számos vasútállomás automata utastájékoztatóját hallgatva.

„A beszédszintetizáló rendszernek például egyfajta éntudatot is létre kell hozni – mesél munkájáról Németh Géza docens, a labor vezetője –, hogy milyen stílusban közöljön információkat, magázzon vagy tegezzen, hivatalos vagy barátságos legyen a hangneme, utasítson vagy kérjen inkább. Egyfajta személyiséget kap, ami a hangszínben, beszédtempóban, szünetekben és egyéb nonverbális eszközökben is megnyilvánulhat. „

A közeljövő

A szakemberek szerint a beszédtechnológia fejlődésének az a végső célja, hogy az ember és gép kapcsolatában előbb-utóbb szélesebb körben megjelenjen a beszéd. Idővel beszéddel fogjuk irányítani a gépeket, mivel pedig ők visszajeleznek, kommunikálni fogunk velük és ez – szerintünk – már a közeljövő telekommunikációs technológiájában jelentős szerepet kap.

Néhány év távlatában bizton felkészülhetünk arra, hogy az IVR technológiában is nagy szerepet játszik majd a gombok helyett a hang-utasítás. A világnyelvek esetében már elterjedtebb ez a megoldás és az ügyfelek elégedettebbek vele, mint a nyomkodással. Elterjedése – a piac dinamizmusának függvényében – hamarosan Magyarországon is várható.

Mi az Opennetworksnél azonban nem csak a „sima” hangvezérlésben gondolkodunk. Hiszünk abban, hogy a beszédszintézis és a beszédfelismerés/hangvezérlés, valamint az ehhez kapcsolódó alkalmazások fejlesztése és valódi üzleti intelligenciaként történő alkalmazása a humán-gép, gép-humán, gép-gép kommunikáció és a mesterséges intelligencia kutatás/fejlesztés egyik dinamikusan fejlődő ágazata lesz. A közeljövőben reális cél lehet egy olyan flexibilis TTS  (tex-to-speech) rendszer megvalósítása, mely hangminták alapján képezi le a lehető legtermészetesebb beszédhangot, így képezve egy öntanuló IVR rendszer alapját. Mert a telekommunikáció ugyan nem űrtechnológia, de tartogat még nagy kihívásokat, ha van bennünk innovációs spiritusz:)

András

Források:

http://www.itbusiness.hu/Fooldal/rss_3/Letezik_magyar_mesterseges_intelligencia.html

http://www.demokrata.hu/hir/tudomany/gepekkel-beszelgetve

http://smartlab.tmit.bme.hu

0