Aczél Petra - Veszelszki Ágnes (szerk.): Deepfake: a valótlan valóság - Médiatudományi Könyvek (Budapest, 2023)

INFLUENSZEREK - GOCSÁL ÁKOS Manipulált beszéd használata a személyészlelés kutatásában

174 INFLUENSZEREK valójában a célszemély előzetesen rögzített hangjának lejátszását jelenti. Ennek altípusa a kivágás-beillesztés módszer (cut and paste), amely beszédrészletek ös­­­szeillesztésével készített, az adott formában el nem hangzott mondatok előállítását jelenti. A deepfake-beszéd második nagy kategóriájához a gépi beszéd tartozik. Ebben az esetben egy szoftveres vagy hardveres szintetizátor a begépelt szöveget hangzó formába alakítja át. A harmadik nagy típust pedig a hangkonverzió vagy megszemélyesítés (impersonation) alkotja. Ekkor egy rendelkezésre álló beszédfel­vétel módosítása történik oly módon, hogy az úgy hangozzon, mintha egy másik személy mondta volna. Megszemélyesítéskor nemcsak az alaphang és más akusz­tikai minőségek utánzása történik, hanem az így manipulált beszéd a célszemély beszédstílusát is meggyőzően tükrözi (Gao-Singh-Rai 2018). A hangkonverzió valójában a hangtranszformáció speciális esete. Transzformáció esetében általá­ban nem cél más beszélő utánzása, hanem a beszédnek csak olyan módosítása történik, amely a nyelvi tartalmakat változatlanul hagyja, miközben annak hang­zása természetes marad (Stylianov 2009). Itt említhetjük például a beszéd gyor­sítását vagy lassítását, illetve a beszélő alaphangjának (hangmagasságának) eme­lését vagy mélyítését. Ezek a manipulációk bizonyos határokon belül megőrzik a beszéd természetes hangzását. A virtuális személyek felépítésekor nem csak az a feladat a kutató, fejlesztő szá­mára, hogy a legmeggyőzőbb, leginkább életszerű figurát kidolgozza. Emellett fel is kell mérnie, a befogadók, nézők, hallgatók hogyan vélekednek a virtuális sze­mélyről, milyen tulajdonságokkal ruházzák fel, mennyire találják elfogadhatónak. A természetes beszéd hangzása által kiváltott benyomásokkal már az 1920-as évek vége óta foglalkoznak kutatók. A nyelvész-antropológus Sapir (1927/1991) a be­széd egyénre jellemző sajátosságairól még elvi alapokon írt, nem sokkal később azonban már pszichológusok kísérleteket is végeztek ezzel kapcsolatban. A korai kísérletekben a hallgatóknak az elhangzott beszéd alapján a beszélő nemét, életko­rát, intelligenciáját, foglalkozását, személyiségjegyeit kellett megítélniük (például: Pear 1931; Herzog 1933; Allport-Cantril 1934). Már ezekben a kísérletekben is megmutatkozott, hogy a hallgatók sztereotípiákat alkalmaznak a személyészle­lés során: gyakoriak voltak a téves becslések, ennek ellenére meglehetősen nagy egyetértés mutatkozott a hallgatók között. Némi kihagyás után az 1960-as években új lendületre kaptak a kutatások. Ezen a területen klasszikusnak tekinthető Zuckerman és Driver (1989) kísérlete, amelyben a szerzők egyrészt kimutatták, hogy a kísérleti személyek között egyetértés mutatko­zott abban, hogy mely hangok tűntek számukra vonzónak vagy kevésbé vonzónak, másrészt kimutatták, hogy a vonzóbbnak ítélt hang együtt járt az elképzelt beszélő személyiségének kedvezőbb megítélésével. Weirich (2008) például azt találta, hogy a vonzóbb hangú beszélőt egyúttal jóindulatúbbnak is vélték a hallgatók. A hang minőségének és a vonzóságítéleteknek számos következményük van az emberi kap­csolatok alakulására. Luk­e és munkatársai (2021) a szakirodalomban közölt ered­

Next