Legyen a szövegből hang: csak a képzeleted szab határt!

A mesterséges intelligenciára építő, hangalapú megoldások egyre elterjedtebbek az interneten, a felhasználók számos területen veszik hasznát, ha egy szoftver a szövegből hangot generál számukra. Ez a TTS technológia, ami a céges call centerekben is komoly változást hozhat. Most bemutatjuk, hogyan működik.    

Az internet ma már messze nem csak szövegalapon működik. A mindennapoknak egyre inkább részei a hangalapú megoldások: a telefonjaink virtuális asszisztensei segítenek az élet minden területén, kismillió podcastet hallgatunk, de könyvet is gyakran már hangoskönyv formában fogyasztunk.

A technológia, ami lehetővé teszi, hogy a hangalapú tartalmak még jobban elterjedjenek, az úgynevezett szövegből hang (text to speech), vagyis a TTS. Ezek a mesterséges intelligencia fejlődése által elérhetővé tett megoldások az élet tényleg minden területén megjelennek, nem kivételek ez alól a telekommunikáció és az ügyfélszolgálatok sem.

Most röviden elmesélem, hogy működik a technológia, mire lehet használni és kitérek arra is, hogyan könnyítheti ez meg céges call centered munkáját.

Kezdjük azzal, hogy nagy vonalakban hogyan is működik a TTS. A technológia neve beszédes, tényleg egy szoftverről van szó, ami szöveg alapú tartalomból hangalapút generál. A hang gépi, de a cél az, hogy minél tökéletesebben hasonlítson az emberi beszédre: nyilván minél jobb az adott megoldás, ez annál inkább működik.

Pont ezért egy jó TTS fejlesztése sok terület ismeretét igényli. Szükség van hozzá lingvisztikai tudásra, hogy a szoftver hatékonyan elsajátítsa, miképp lesz a szövegből emberi beszéd, hol vannak a hangsúlyok, szünetek, stb. Emellett a programnak képesnek kell lennie a hang generálására, de a mesterséges intelligenciához, különösen a gépi tanulás folyamatához is érteni kell a tervezésnél.

Ebből is látszik, hogy egy TTS szoftvert nem egyszerű létrehozni, de ha sikerült, a határ tényleg a csillagos ég. A ReadSpeaker cikke alapján összefoglalom, mik a leggyakoribb felhasználási területek.

A technológia első felhasználói a különböző látási nehézségekkel küzdő emberek voltak, akiknek nagy könnyebbséget jelentett, ha hang formájában kapták meg az információt. A TTS így egyfajta akadálymentesítő funkciót töltött be, és sok esetben tölt be ma is. Nem kell viszont konkrétan látáskárosultnak lenni, hogy ennek hasznát vegyük: idősebb embereknek vagy fényérzékenyeknek nehezére esik a monitorok tartós bámulása, de a kék fény hosszútávon azoknak sem egészséges, akik amúgy jól bírják azt. A hangalapú megoldás mindenkinek jó alternatíva.

Ritkább, de nem kevésbé hasznos felhasználása a TTS-nek a beszédsegítő rendszerek működtetése. Olyanok, akik valamilyen nehézség miatt nem tudnak folyékonyan verbálisan kommunikálni, az AI által generált hanggal mégis megtehetik ezt. Ezt a módszert alkalmazta például az ALS-szel élő Stephen Hawking is.

A TTS a tanulásban is komoly segítség lehet. Kutatások bizonyítják, hogy vannak, akik hang-, míg mások a képalapú információt tudják jobban memorizálni, de a legjobban a kettő kombinációja működik. Egy jól működő szoftver a nyelvtanulásban is hasznos: ha a mesterséges intelligencia jól utánozza az adott nyelv sajátosságait, akkor hallgatással könnyebben ráérezhetünk annak ritmusára vagy hangsúlyaira.

Eddig főleg hasznossági szempontok alapján csoportosítottam, de van, hogy a TTS használata egyszerűen csak kényelmes. A fiatal generáció egyre inkább a hangalapú tartalmakat igényli, de a rohanó életünkben is nagy segítség, ha mondjuk vezetés vagy takarítás közben nem csak podcastekből tudunk tájékozódni, hanem egy szoftver a híreket is felolvassa nekünk. Ha pedig nem okoz gondot a többfelé figyelés, meghallgathatjuk például az adott receptet főzés közben, vagy egy bútor összeszerelési útmutatóját a feladat végrehajtásához. Tényleg végtelen lehetőség van.

És ott vannak az ügyfélszolgálatok is. A TTS alkalmazása különösen sokat segíthet olyan cégek tájékoztatási rendszereiben, ahol a közlendő információ gyakran változik. Már egy folyamatosan változó munkarend közlése is nagy terhelés, ha újabb és újabb bejátszókat kell hozzá rögzíteni, egy nagy szolgáltató IVR-rendszere pedig manapság már olyan sokrétű, hogy szinte lehetetlen elképzelni AI által generált beszéd nélkül.

A TTS technológia tehát sok szempontból jelenti a jövőt, de a jelenben is egyre inkább elengedhetetlen. Ha a kérdés gondolkodóba ejtett, jó hírem van: jövő héten tovább foglalkozunk majd a témával, következő blogposztunkban pedig bemutatjuk majd azt is, mi milyen megoldást kínálunk ezen a területen.

András

0

Szólj hozzá