Hanggal hoz közelebb: AI-kommunikáció hangalapon

A ChatGPT egy ideje már nem csak írásban, de hangalapon is működik, amivel a praktikusabb használat mellett lehetőségek egész sorát nyitotta meg. A program nem a telefonos AI-asszisztensek helyét veheti át, viszont kreatívabb feladatokkal is elboldogul, TTS-megoldása pedig az ügyfélszolgálati felhasználáshoz is hasznos lehet.  

Ha a ChatGPT-ről van szó, a legtöbbeknek biztos az írott szöveg alapú kommunikáció jut eszébe. Az Open AI alkalmazása, ami óriásit lendített az MI körüli általános őrületen, az elmúlt időszakban folyamatosan fejlődik, így tényleg egyre kifinomultabban lehet vele kommunikálni írásban. Ez viszont messze nem minden.

Bő fél éve ugyanis az alkalmazás már hangalapú kommunikációval is működik. Legyen szó a saját hangunk szöveggé generálásáról vagy épp arról, hogy egy tetszőleges szövegből alkot a program hangot, az ezzel létrejövő lehetőségek tárháza szinte végtelen. Érdemes is megnézni, mi mindenre használható.

Ha megfelelő módon vettem igénybe, a ChatGPT számomra korábban is nagyon hasznos tudott lenni a mindennapokban. Problémamegoldó képességének sokszor hasznát vettem, de a hibáim kijavítását is mindig megbízhatóan megoldotta. Volt viszont egy komoly limitációja: mindig írásban, pötyögve kellett vele kommunikálnom.

Ez változott meg a telefonon elérhető hangvezérléssel. Rányomni egyetlen gombra és megkérdezni az alkalmazást, ami aztán ugyanúgy élő beszédben válaszol neked, sok esetben egyszerűen sokkal praktikusabb. Főzés közben vagy, de nem vagy képben a pontos recepttel? Simán rákérdezel. Útbaigazításra van szükséged egy idegen városban? Azonnal megkapod.

A ChatGPT ebben a formában lényegében ugyanúgy működhet, mint bármelyik okostelefonba beépített AI-asszisztens. Ez sem rossz, pláne figyelembe véve azt is, hogy míg mondjuk az Apple Sirijével angolul kell beszélgetni, itt simán magyarul is kommunikálhatunk. Ennél viszont jóval sokszínűbb módon is használható.

A cég által tavaly közzétett bemutatóban felhozott példa – amiben egy anyuka kéri meg a programot, hogy mondjon egy mesét az általa körülírt karakterről – engem személy szerint ugyan inkább kicsit megijeszt, de a lényeget jól mutatja. Szemben egy általános telefonos asszisztenssel, a ChatGPT hangvezérlése is akkor teljesedik ki igazán, ha kreatív, nem pedig konkrét információ alapú feladatokat szeretnénk vele végrehajtani.

Ugyanúgy egy gyerekekhez köthető példánál maradva, a program akár segíthet elmagyarázni egy matekfeladat megoldását. Vagy ha főzés kérdéshez térünk vissza, elmondhatjuk neki, milyen dolgok vannak a hűtőnkben, az pedig tehet egy javaslatot, hogy mit főzzünk belőle. Ha ugyanezt kérdezem a telefonom beépített asszisztensétől, legfeljebb egy linket kapok egy internetes recepthez.

Persze ugyanazok az igények, amik az írásos kommunikáció esetében, itt is fennállnak. A program akkor működik igazán jól, ha pontos utasításokat kap a vezérlőjétől, ellenkező esetben az AI-hallucinációra is megnő az esély.

Ahhoz, hogy a ChatGPT-vel hangban tudjunk kommunikálni, az Open AI egyébként a saját hangfelismerő rendszerét (Whisper) és text-to-speech (TTS) programját használja, ami bármilyen szövegből élő szót generál mindössze néhány másodperces hangminta alapján.

Ez a megoldás már abba az irányba is mutat, az ilyen megoldások hogyan lehetnek használhatók a közeljövőben akár ügyfélszolgálati rendszerekben is. A jövő héten erről is mesélünk Nektek.

 

András

0

Szólj hozzá