Deepfake: a valótlan valóság - Médiatudományi Könyvek (Budapest, 2023)

Aczél Petra - Veszelszki Ágnes (szerk.): Deepfake: a valótlan valóság - Médiatudományi Könyvek (Budapest, 2023)

INFLUENSZEREK - GOCSÁL ÁKOS Manipulált beszéd használata a személyészlelés kutatásában

174 INFLUENSZEREK valójában a célszemély előzetesen rögzített hangjának lejátszását jelenti. Ennek altípusa a kivágás-beillesztés módszer (cut and paste), amely beszédrészletek összeillesztésével készített, az adott formában el nem hangzott mondatok előállítását jelenti. A deepfake-beszéd második nagy kategóriájához a gépi beszéd tartozik. Ebben az esetben egy szoftveres vagy hardveres szintetizátor a begépelt szöveget hangzó formába alakítja át. A harmadik nagy típust pedig a hangkonverzió vagy megszemélyesítés (impersonation) alkotja. Ekkor egy rendelkezésre álló beszédfelvétel módosítása történik oly módon, hogy az úgy hangozzon, mintha egy másik személy mondta volna. Megszemélyesítéskor nemcsak az alaphang és más akusztikai minőségek utánzása történik, hanem az így manipulált beszéd a célszemély beszédstílusát is meggyőzően tükrözi (Gao-Singh-Rai 2018). A hangkonverzió valójában a hangtranszformáció speciális esete. Transzformáció esetében általában nem cél más beszélő utánzása, hanem a beszédnek csak olyan módosítása történik, amely a nyelvi tartalmakat változatlanul hagyja, miközben annak hangzása természetes marad (Stylianov 2009). Itt említhetjük például a beszéd gyorsítását vagy lassítását, illetve a beszélő alaphangjának (hangmagasságának) emelését vagy mélyítését. Ezek a manipulációk bizonyos határokon belül megőrzik a beszéd természetes hangzását. A virtuális személyek felépítésekor nem csak az a feladat a kutató, fejlesztő számára, hogy a legmeggyőzőbb, leginkább életszerű figurát kidolgozza. Emellett fel is kell mérnie, a befogadók, nézők, hallgatók hogyan vélekednek a virtuális személyről, milyen tulajdonságokkal ruházzák fel, mennyire találják elfogadhatónak. A természetes beszéd hangzása által kiváltott benyomásokkal már az 1920-as évek vége óta foglalkoznak kutatók. A nyelvész-antropológus Sapir (1927/1991) a beszéd egyénre jellemző sajátosságairól még elvi alapokon írt, nem sokkal később azonban már pszichológusok kísérleteket is végeztek ezzel kapcsolatban. A korai kísérletekben a hallgatóknak az elhangzott beszéd alapján a beszélő nemét, életkorát, intelligenciáját, foglalkozását, személyiségjegyeit kellett megítélniük (például: Pear 1931; Herzog 1933; Allport-Cantril 1934). Már ezekben a kísérletekben is megmutatkozott, hogy a hallgatók sztereotípiákat alkalmaznak a személyészlelés során: gyakoriak voltak a téves becslések, ennek ellenére meglehetősen nagy egyetértés mutatkozott a hallgatók között. Némi kihagyás után az 1960-as években új lendületre kaptak a kutatások. Ezen a területen klasszikusnak tekinthető Zuckerman és Driver (1989) kísérlete, amelyben a szerzők egyrészt kimutatták, hogy a kísérleti személyek között egyetértés mutatkozott abban, hogy mely hangok tűntek számukra vonzónak vagy kevésbé vonzónak, másrészt kimutatták, hogy a vonzóbbnak ítélt hang együtt járt az elképzelt beszélő személyiségének kedvezőbb megítélésével. Weirich (2008) például azt találta, hogy a vonzóbb hangú beszélőt egyúttal jóindulatúbbnak is vélték a hallgatók. A hang minőségének és a vonzóságítéleteknek számos következményük van az emberi kapcsolatok alakulására. Luke és munkatársai (2021) a szakirodalomban közölt ered