MegMinden
2024-04-04

Voice Engine

(raketa.hu)

Olyan technológiát fejleszt az OpenAI, amit még ők is kockázatosnak tartanak.

A Voice Engine közel tökéletesen utánozza bárki hangját egy rövid hangminta alapján, de a cég óvatosan teszteli az alkalmazást az amerikai választások előtt.

Az OpenAI a ChatGPT chatbot és a Sora videógenerátor révén már megmutatta, hogy a mesterséges intelligencia használatával milyen különleges lehetőségek nyílhatnak meg a felhasználók előtt: a ChatGPT-nek köszönhetően egy testetlen asszisztens minden kérdésünkre válaszol és számos feladatot megold helyettünk, méghozzá egészen “emberszerű” módon, a videógenerátor pedig néhány szó megadása után szinte moziba illő kisfilmeket állít elő bármilyen témáról realisztikus stílusban. Az OpenAI számára a leglényegesebb aspektusát a fejlesztéseknek az jelenti, hogy kikísérletezzék és megmutassák, mi mindenre képes a mesterséges intelligencia és hol vannak a határai a technológiának, illetve hogyan lehet minél kijjebb tolni ezeket a határokat.

Legújabb alkalmazásuk készítésénél is ez cél vezérelte a cég munkatársait, akik létrehozták a Voice Engine hanggenerátort, amely bárki hangjából szintetikus hangot alkot és a végeredmény a bemutatott minták alapján rendkívül hasonló az eredetihez. A valósághű hatást leginkább a beszéd stílusa adja, ami feltűnően jól intonált és jól utánozza az érzelmeket, vagyis az MI generálta hangokon kevéssé érződik, hogy mesterségesek lennének. A hangklónozó technológia így valóban klónokat tud előállítani, szürke és egysíkú művi beszéd helyett. A Voice Engine használatához csak egy 15 másodperces hangmintára és egy szövegre van szükség és a rendszer ebből össze tudja állítja a kívánt audiofájlt. Az alkalmazásban, egyszerű használata és hatékonysága miatt, nagy potenciál rejlik, de éppen ezek miatt a vele járó kockázat is jelentős, ahogy az az OpenAI is elismeri.

A cég a potenciális veszélyek miatt egyelőre csak szűk körben, szigorúan ellenőrzött feltételek között engedte kipróbálni a rendszert és a szélesebb körű megjelentetését nem kezdték meg. A kockázatot főként az jelenti, hogy a hanggenerátort esetleg kétes célokra alkalmazzák majd az emberek: átverésekhez használják fel, híres emberek, politikusok hangját utánozzák vele a beleegyezésük nélkül, ezzel hozzájárulva az egyre élethűbbé váló deepfake-ek egyébként sem elhanyagolható károkozásához. A cég különösen az amerikai választások előtt próbál óvatos lenni a mesterséges intelligencia által gyártott tartalmakkal kapcsolatban, emiatt az Egyesült Államokban és nemzetközi együttműködésben is párbeszédet kezdett a partnercégekkel és szervezetekkel, akiknek visszajelzései alapján alakítják az alkalmazást. Az OpenAI az első próbák során azzal igyekezett elejét venni a visszaéléseknek, hogy megtiltotta a hang tulajdonosának tudta és beleegyezése nélkül készített klónozást, a saját hangról készült beszéd generálását, emellett arra kötelezik a Voice Engine-t használó partnereiket, hogy tegyék egyértelművé mindenki számára, hogy a hallott hangok mesterségesen készültek, nem valódiak.

“Úgy gondoljuk, hogy bármilyen széles körű alkalmazását a szintetikus hang technológiának hangazonosító megoldással kell társítani, ami igazolja, hogy az eredeti beszélő tudatosan adta a hangját a szolgáltatáshoz és egy no-go hanglistával, ami észleli és megakadályozza azoknak a hangoknak a generálását, amelyek túlságosan hasonlóak a prominens emberek hangjához.”

- írja a cég közleményében.

Az eredeti írást itt találja.

Zacher Gábor

Fókuszban a tudományos utánpótlás

DEmedia.hu

Szerző
Hasonló cikkek