Wykrywanie filmów "podły" w mgnieniu oka

Wykrywanie skrobi (Lipiec 2019).

Anonim

Nowa forma dezinformacji ma rozprzestrzenić się w społecznościach internetowych, gdy kampanie wyborcze w roku 2018 rozgrzeją się. Nazwany "deepfakes" po pseudonimowym koncie online, który spopularyzował technikę - która mogła wybrać swoją nazwę, ponieważ proces wykorzystuje techniczną metodę zwaną "deep learning" - te fałszywe filmy wyglądają bardzo realistycznie.

Do tej pory ludzie wykorzystywali filmy z deepfake w pornografii i satyrze, aby pokazać, że sławni ludzie robią rzeczy, których normalnie by nie robili. Ale jest prawie pewne, że podczas sezonu kampanii pojawią się pogłoski, które będą przedstawiać kandydatów mówiących o rzeczach lub miejscach, w których prawdziwy kandydat by nie chciał.

Ponieważ te techniki są tak nowe, ludzie mają problem z odróżnieniem prawdziwych filmów od filmów z deepfake. Moja praca, moja koleżanka Ming-Ching Chang i nasz doktorat student Yuezun Li, znalazł sposób, aby rzetelnie powiedzieć prawdziwe filmy z filmów o głębokich fałszach. To nie jest trwałe rozwiązanie, ponieważ technologia się poprawi. Ale to jest początek i daje nadzieję, że komputery będą w stanie pomóc ludziom odróżnić prawdę od fikcji.

Co to jest "deepfake"?

Robienie wideo z deepfake jest bardzo podobne do tłumaczenia między językami. Usługi takie jak Google Translate wykorzystują uczenie maszynowe - analizę komputerową dziesiątek tysięcy tekstów w wielu językach - w celu wykrycia schematów używania słów, których używają do tworzenia tłumaczenia.

Algorytmy Deepfake działają w ten sam sposób: używają systemu uczenia maszynowego zwanego głęboką siecią neuronową do badania ruchów twarzy jednej osoby. Następnie syntetyzują obrazy twarzy innej osoby, wykonując analogiczne ruchy. Takie działanie skutecznie tworzy film przedstawiający osobę docelową, która wydaje się robić lub mówi rzeczy, które wykonywała osoba źródłowa.

Zanim będą mogły działać poprawnie, głębokie sieci neuronowe potrzebują wielu informacji źródłowych, takich jak zdjęcia osób będących źródłem lub celem podszywania się pod inne osoby. Im więcej zdjęć posłuży do wyuczenia algorytmu DeepFake, tym bardziej realistyczne będzie podszycie cyfrowe.

Wykrywanie migania

Wciąż występują wady tego nowego typu algorytmu. Jeden z nich ma związek z tym, jak symulowane twarze migają - lub nie. Zdrowi dorośli ludzie mrugają gdzieś pomiędzy co 2 a 10 sekund, a pojedyncze mignięcie zajmuje od jednej dziesiątej do czwartej sekundy. To jest normalne, co można zobaczyć na filmie osoby mówiącej. Ale to nie dzieje się w wielu filmach z deepfake'em.

Kiedy algorytm "Deepfake" jest wyszkolony na obrazach twarzy osoby, zależy to od zdjęć dostępnych w Internecie, które można wykorzystać jako dane treningowe. Nawet dla osób, które są często fotografowane, kilka zdjęć jest dostępnych online, a ich oczy są zamknięte. Nie tylko takie zdjęcia są rzadkością - ponieważ oczy ludzi są otwarte przez większość czasu - ale fotografowie zwykle nie publikują obrazów, w których oczy głównych fotografów są zamknięte.

Bez przeszkolenia obrazów ludzi miga, algorytmy Deepfake są mniej prawdopodobne, aby stworzyć twarze, które migają normalnie. Kiedy obliczyliśmy ogólny wskaźnik mrugania i porównaliśmy go z naturalnym zasięgiem, stwierdziliśmy, że postacie w filmach o głębokich fałszach migają znacznie rzadziej w porównaniu z prawdziwymi ludźmi. Nasze badania wykorzystują uczenie maszynowe do badania otwierania i zamykania oczu w filmach.

To daje nam inspirację do wykrycia filmów z deepfake. Następnie opracowujemy metodę wykrywania, kiedy osoba w wideo miga. Mówiąc dokładniej, skanuje każdą klatkę danego filmu wideo, wykrywa twarze, a następnie automatycznie lokalizuje oczy. Następnie wykorzystuje inną głęboką sieć neuronową, aby określić, czy wykryte oko jest otwarte, czy zamknięte, używając wyglądu oka, cech geometrycznych i ruchu.

Wiemy, że nasza praca wykorzystuje lukę w zakresie dostępnych danych do trenowania algorytmów Deepfake. Aby uniknąć popadnięcia w podobną wadę, wyszkoliliśmy nasz system na dużej bibliotece obrazów zarówno oczu otwartych, jak i zamkniętych. Ta metoda zdaje się działać dobrze, w wyniku czego osiągnęliśmy wskaźnik wykrycia przekraczający 95 procent.

Oczywiście nie jest to ostatnie słowo na temat wykrywania podróbek. Technologia szybko się poprawia, a konkurencja między generowaniem i wykrywaniem fałszywych filmów jest analogiczna do gry w szachy. W szczególności migotanie można dodawać do filmów wideo z głębokim rakiem, dodając obrazy twarzy z zamkniętymi oczami lub używając sekwencji wideo do treningu. Osoby, które chcą wprowadzić w błąd opinię publiczną, będą miały lepsze wyniki w tworzeniu fałszywych filmów - a my i inni członkowie społeczności technologicznej będziemy musieli nadal znajdować sposoby ich wykrywania.

menu
menu