Hanggal hoz közelebb: AI-kommunikáció hangalapon

A ChatGPT egy ideje már nem csak írásban, de hangalapon is működik, amivel a praktikusabb használat mellett lehetőségek egész sorát nyitotta meg. A program nem a telefonos AI-asszisztensek helyét veheti át, viszont kreatívabb feladatokkal is elboldogul, TTS-megoldása pedig az ügyfélszolgálati felhasználáshoz is hasznos lehet.

Ha a ChatGPT-ről van szó, a legtöbbeknek biztos az írott szöveg alapú kommunikáció jut eszébe. Az Open AI alkalmazása, ami óriásit lendített az MI körüli általános őrületen, az elmúlt időszakban folyamatosan fejlődik, így tényleg egyre kifinomultabban lehet vele kommunikálni írásban. Ez viszont messze nem minden.

Bő fél éve ugyanis az alkalmazás már hangalapú kommunikációval is működik. Legyen szó a saját hangunk szöveggé generálásáról vagy épp arról, hogy egy tetszőleges szövegből alkot a program hangot, az ezzel létrejövő lehetőségek tárháza szinte végtelen. Érdemes is megnézni, mi mindenre használható.

Ha megfelelő módon vettem igénybe, a ChatGPT számomra korábban is nagyon hasznos tudott lenni a mindennapokban. Problémamegoldó képességének sokszor hasznát vettem, de a hibáim kijavítását is mindig megbízhatóan megoldotta. Volt viszont egy komoly limitációja: mindig írásban, pötyögve kellett vele kommunikálnom.

Ez változott meg a telefonon elérhető hangvezérléssel. Rányomni egyetlen gombra és megkérdezni az alkalmazást, ami aztán ugyanúgy élő beszédben válaszol neked, sok esetben egyszerűen sokkal praktikusabb. Főzés közben vagy, de nem vagy képben a pontos recepttel? Simán rákérdezel. Útbaigazításra van szükséged egy idegen városban? Azonnal megkapod.

A ChatGPT ebben a formában lényegében ugyanúgy működhet, mint bármelyik okostelefonba beépített AI-asszisztens. Ez sem rossz, pláne figyelembe véve azt is, hogy míg mondjuk az Apple Sirijével angolul kell beszélgetni, itt simán magyarul is kommunikálhatunk. Ennél viszont jóval sokszínűbb módon is használható.

A cég által tavaly közzétett bemutatóban felhozott példa – amiben egy anyuka kéri meg a programot, hogy mondjon egy mesét az általa körülírt karakterről – engem személy szerint ugyan inkább kicsit megijeszt, de a lényeget jól mutatja. Szemben egy általános telefonos asszisztenssel, a ChatGPT hangvezérlése is akkor teljesedik ki igazán, ha kreatív, nem pedig konkrét információ alapú feladatokat szeretnénk vele végrehajtani.

Ugyanúgy egy gyerekekhez köthető példánál maradva, a program akár segíthet elmagyarázni egy matekfeladat megoldását. Vagy ha főzés kérdéshez térünk vissza, elmondhatjuk neki, milyen dolgok vannak a hűtőnkben, az pedig tehet egy javaslatot, hogy mit főzzünk belőle. Ha ugyanezt kérdezem a telefonom beépített asszisztensétől, legfeljebb egy linket kapok egy internetes recepthez.

Persze ugyanazok az igények, amik az írásos kommunikáció esetében, itt is fennállnak. A program akkor működik igazán jól, ha pontos utasításokat kap a vezérlőjétől, ellenkező esetben az AI-hallucinációra is megnő az esély.

Ahhoz, hogy a ChatGPT-vel hangban tudjunk kommunikálni, az Open AI egyébként a saját hangfelismerő rendszerét (Whisper) és text-to-speech (TTS) programját használja, ami bármilyen szövegből élő szót generál mindössze néhány másodperces hangminta alapján.

Ez a megoldás már abba az irányba is mutat, az ilyen megoldások hogyan lehetnek használhatók a közeljövőben akár ügyfélszolgálati rendszerekben is. Rövidesen erről is mesélünk Nektek.

 

András

 

Olvasd el
legfrissebb bejegyzéseinket!

NIS2: beszállított kockázat

Lehet tökéletes a saját védelmed, ha közben egy fejlesztő partner, egy üzemeltető vagy egy adatközpont rés a láncban. A NIS2 feltételeinek teljesítésében a beszállítóid főszereplők: a te kockázatod része és az auditor is így fogja nézni.

Újgenerációs TTS: a hang újra stratégiai eszköz

Ha eddig a TTS-t (Text-to-Speech) csak „felolvasó gombnak” láttad, 2026-ban érdemes újra ránézni. Az új generációs modellek képesek tempót, hangsúlyt, szünetet és érzelmi árnyalatot is kezelni. Ezért lett a hang újra stratégiai terület és eszköz a céges kommunikációban.

NIS2: Te is lehetsz a leggyengébb láncszem

A legtöbb incidensnél utólag nem az a kérdés, milyen tűzfal volt, hanem az, hogy miért volt elég egy rossz kattintás, egy sietős döntés, egy megosztott jelszó vagy egy „most kivételt teszünk” pillanat. Az emberi tényező nem mellékszál a NIS2 megfelelésben, hanem a legfontosabb megerősítendő láncszem.

Beszéd: élmény és bizalom – STT/TTS trendek 2026

2026-ban a beszédtechnológia (STT/TTS) kilép az „átírás–felolvasás” korszakból: a kontextusfüggő intelligencia, az érzelemgazdag megszólalás és az adatbizalom együtt alakítja át a telekom ügyfélélményt és a belső működést.

NIS2 – Felelősség és kockázatvállalás

A NIS2 a board asztalára teszi a kiberkockázatot: stratégiát, kijelölt felelősöket és számonkérhető vezetői döntéseket vár el. Hogyan csináljuk ezt jól, hogy a megfelelés ne legyen kegyetlen teher, de ugyanakkor ne csak a „papírformát” hozzuk. Erre keressük a választ

Sabbatical a tech szektorban: nem luxus

Sabbatical a techben: nem luxus, hanem újrafókuszálás. Miért kell fejlesztőknek, milyen modellek vannak, és hogyan hozd fel jól.

Teszteld most
mi a válaszunk a kérdéseidre!

Keress minket, hogy egy online vagy személyes bemutatón egyeztethessük kérdéseidet
és azt, hogyan segíthetjük céged fejlődését!

Próbáld ki most milyen egyszerű felépítened a céged számára
optimális kommunikációs és ügyfélszolgálati megoldást! 30 napig
költségmentes, testre szabott Felhőközpontod akár néhány perc,
vagy óra múlva használhatod!