Kiedy w roku 2017 po raz pierwszy pojawiła się w sieci nazwa "deepfake", a technologia podmiany twarzy w kadrze stała się czymś powszechnym, dość nieufnie spoglądałem na tę dziedzinę manipulacji materiałami filmowymi.
Kiedy weźmiemy pod uwagę możliwości realistycznego "wklejenia" dowolnej twarzy pod praktycznie dowolny materiał filmowy, plusy takiej technologii dość szybko zostają przyćmione potencjalnymi zagrożeniami.
W epoce fake newsów, manipulacji faktami w sieci i szalejących w mediach starć propagandowo-informacyjnych technologia tworzenia deepfake'ów jest groźną amunicją, która łatwo może przyczyniać się do pogłębiania dezinformacji oraz szkodzić prawdzie.
Jednak technologia ta natchnęła niektórych pasjonatów do szukania jej artystycznych i medialnych zastosowań, które mogłyby ułatwić życie lub pomóc odbiorcom na całym świecie.
Jedną z firm, które pod takim właśnie sztandarem pracują nad deepfake'ami, jest londyńska Flawless, stworzona przez doświadczonych filmowców z dekadami doświadczenia w produkcji i postprodukcji obrazu.
Czemu o tym piszę na blogu poświęconym, bądź co bądź, głosowi, pracy lektorskiej i pokrewnym obszarom? Bo Flawless zajmuje się dubbingiem. Ale w całkowicie nowy i wcześniej niewykonalny technologicznie sposób.
Jak to drzewiej bywało
Dubbing zawsze był pracą z dźwiękiem. To dość oczywiste. Do gotowego filmu, w odpo
wiednio przystosowanym studiu, nagrywamy z aktorami dialogi w nowej wersji językowej - tak, by każda kwestia była możliwie zbliżona intonacyjnie i czasowo do oryginalnej. Po podmianie oryginalnej ścieżki dialogowej na nową, otrzymujemy film w innym języku niż pierwotnie. Dla jasności - nie poruszam tu kwestii "pierwszego" dubbingu do animacji, bo kolejność zazwyczaj jest tam odwrotna: obraz powstaje do wcześniej nagranej listy dialogowej.
Zasada nagrywania nowej wersji językowej do filmu jest dość prosta i powszechnie znana - a że technologia tworzenia dubbingu nie zmieniła się (z grubsza) przez ostatnie dziesięciolecia, zdawałoby się, że nie ma tu podatnego gruntu dla nowinek technicznych.
Aż tutaj któregoś dnia jeden brytyjski filmowiec powiedział do drugiego "Ej, drażni mnie to, że w dubbingu ruch ust aktora nie zgrywa się z warstwą audio", na co drugi powiedział "A co gdyby zrobić deepfake samych ust aktorów?" - i tak narodziło się Flawless i ich technologia TrueSync.
Ciekawostka czy nowy nurt?
Na etapie tworzenia dubbingu nie zmienia się tutaj wiele - nadal nagrywamy aktorów w sposób możliwie synchroniczny i zbliżony intonacyjnie do oryginalnego filmu. Ale po tym procesie ma nastąpić dodatkowy, całkowicie nowy etap postprodukcji - modyfikacja warstwy wizualnej, by ruch ust aktorów zgrywał się z nową wersją językową.
Pomysł wydaje się... szalony. Ale patrząc na filmy demonstracyjne na stronie twórców - francuski Jack (Jacques?) Nicholson czy niemiecki Robert De Niro wcale nie brzmią i nie wyglądają źle. A Forrest Gump żonglujący wersjami językowymi w scenie pełnej emocji i grymasów rozpaczy, wcale nie odciąga uwagi od oscarowej kreacji Toma Hanksa.
Technologia nie jest jeszcze idealna, dłuższe oglądanie materiałów przetworzonych w taki sposób prowadzi widza w otchłań doliny niesamowitości i powoduje niejasne poczucie oderwania, które może przeszkadzać w odbiorze filmu i aktorskich kreacji.
Do tego przetworzenie obrazu wymaga potężnej mocy obliczeniowej i nakładów czasowych - co przy obecnych komputerach przekłada się na długi czas renderowania zmodyfikowanego materiału.
Ale każda technologia dojrzewa i staje się coraz lepsza z upływem czasu.
Nie wątpię, że z TrueSync będzie podobnie. Tempo rozwoju deepfake'ów jest gigantyczne, nawet pomimo trwającego kryzysu na rynku kart graficznych - i nie widać, by ta tendencja miała się zmienić w nadchodzącej przyszłości.
Co to znaczy dla nas, aktorów głosowych i lektorów?
Być może... nie zmieni się nic. W końcu sam proces tworzenia dubbingu nie zmienia się, a jedynie zostaje rozbudowany o nowy krok. Krok, który... ktoś musi sfinansować. I zanim zachłyśniemy się możliwościami jakiejkolwiek nowej technologii, zasadne jest zadać sobie pytanie, czy będzie ona rentowna i czy sprawi, że producenci lub dystrybutorzy wysupłają na nią dodatkowy budżet.
Subiektywnie jednak wydaje mi się, że jeśli TrueSync przyjmie się jako coś więcej niż tylko ciekawostka na targach, to mogą zmienić się trzy rzeczy.
Po pierwsze, technologia tego typu będzie wymagała jeszcze większej precyzji tworzenia nagrań, będzie więc jeszcze trudniejsza dla tłumaczy, aktorów, reżyserów i realizatorów w studiach dubbingowych. Precyzja wykonania nagrań będzie musiała uwzględnić nie tylko czas wybrzmienia linii dialogu, ale także dokładniej zgrać się z ruchem, gestykulacją czy ekspresją aktora na ekranie. Nie mówiąc o większej presji, by na castingach dobierać głosy jeszcze bardziej zbliżone do oryginalnych (z czym... różnie bywa).
Po drugie, istnieje szansa, że wraz z rozwojem takiej technologii, zobaczymy więcej filmów z dubbingiem w ofercie polskich kin i serwisów VOD. Jak dość powszechnie wiadomo, dubbing jest w Polsce stosunkowo mało popularny, głównie przez dekady przyzwyczajenia do pojedynczych lektorów czytających listy dialogowe - w czym jesteśmy praktycznie ewenementem w skali świata. Chciałbym jednak wierzyć, że upowszechnienie TrueSync skłoni dystrybutorów do inwestycji w rodzime wersje językowe. Pomarzyć zawsze można, prawda...?
Po trzecie zaś, i chyba najciekawsze... świat filmu może znacznie się zmniejszyć. I mam tu na myśli świat w dosłownym, globalnym ujęciu. Cóż bowiem za różnica, czy oglądamy film produkcji amerykańskiej, koreańskiej, albańskiej czy tureckiej, jeśli dialogi są wypowiadane przez aktorów w naszym ojczystym języku, bez żadnego dysonansu poznawczego na linii audio-wideo?
Zacierać ręce czy machnąć nimi?
TrueSync ma w sobie potencjał i na pewno niejeden aktor głosowy z ciekawością będzie przyglądać się jego rozwojowi.
Czy deepfake zadomowi się w świecie dubbingu i przyczyni do rozwoju naszej branży - przez zwiększenie zapotrzebowania na takie usługi lub upowszechnienie ich na naszym rodzimym, specyficznym rynku? Trudno powiedzieć.
Warto jednak pamiętać, że wraz z rozwojem mocy obliczeniowej stacji roboczych, technologie pierwotnie uważane za nieopłacalne lub trudne w implementacji zadomowiły się w produkcji i postprodukcji w branży filmowej.
Istnieje zatem szansa, że obserwujemy narodziny technologii, która - po odpowiedniej fazie udoskonalania i rozwoju - stanie się łatwa, oczywista i powszechna za 5 lub 10 lat.
Czas pokaże, a nam pozostaje czekać i obserwować. A czy będziemy czekać z nieufnością czy ekscytacją... to już pozostawiam Wam do przemyślenia.
Comments