Synchronizace mezi jazykem a gesty během interakce s robotem
V přirozené komunikaci lidé využívají kombinaci multimodálních signálů, jako je úhel pohledu, řeč a gesta. Není však jasné, zda jsou gesta časově sladěna s řečí, nebo mají odlišný nástup. Tyto poznatky jsou klíčové pro vývoj humanoidních robotů, kteří musí porozumět přirozené řeči v čase i prostoru. Proto jsme analyzovali vztah mezi začátkem a vrcholem deklarativních (ukazovacích) gest a odpovídajícími prvky řeči.
Zaměřili jsme se na možné rozdíly mezi začátkem gesta a začátkem řeči, mezi časem vrcholu gesta a odpovídající jazykovou částí a mezi celkovým trváním gesta a řečové instrukce. Účastníci komunikovali s humanoidním robotem ve VR, kde jej učili rozpoznávat objekty a jejich vlastnosti pomocí řečových instrukcí a gest. Scénář zahrnoval 16 úloh s pěti objekty v pseudonáhodném rozmístění. Během úloh byly zaznamenávány pohyby hlavy, trupu, rukou i zvukový záznam.
Zásadním zjištěním bylo, že řeč předcházela gestu: průměrný čas zahájení řeči byl 0,6 s, u gest 1,16 s. Vrchol gesta následoval po vyřčení klíčového slova a gesta trvala déle než řeč, což potvrzuje jejich doplňující roli v komunikaci.
Studie má však omezení. Vzorek tvořili převážně mladší účastníci a rozdíly v jejich zkušenostech s VR mohly ovlivnit načasování gest. VR navíc nemusí plně zachycovat přirozenou interakci.
Sepsala: Mgr. Karina Zamrazilová et al.
Zdroj:
Zamrazilova, K., Vavrecka, M., Ostapenko, S., Sejnova, G., & Skovierova, J. (2025, September). “Are Multimodal Signals Synchronous?”: Temporal Relation of Declarative Gestures and Language Instructions in Human Robot Interaction. In 2025 IEEE International Conference on Development and Learning (ICDL) (pp. 1-6). IEEE.
Komentáře ()