Korzystanie z technik głębokiego uczenia się w celu lokalizowania potencjalnych działań ludzkich w filmach

Anonim

Kiedy policjant zaczyna podnosić rękę w korku, ludzcy kierowcy zdają sobie sprawę, że oficer ma zamiar zasygnalizować im, by przestali. Jednak komputerom trudniej jest wytypować kolejne prawdopodobne działania ludzi na podstawie ich obecnego zachowania. Teraz zespół badaczy i współpracowników A * STAR opracował wykrywacz, który może z powodzeniem wykryć, gdzie ludzkie działania będą miały miejsce w filmach, niemal w czasie rzeczywistym.

Technologia analizy obrazu będzie musiała stać się lepsza w zrozumieniu ludzkich zamiarów, jeśli ma być stosowana w szerokim zakresie zastosowań, mówi Hongyuan Zhu, informatyk z Instytutu Badań Infocomm A * STAR, który kierował badaniem. Samochody bez kierowców muszą być w stanie wykryć funkcjonariuszy policji i szybko i dokładnie zinterpretować ich działania, aby zapewnić bezpieczną jazdę - wyjaśnia. Systemy autonomiczne mogą również zostać przeszkolone do identyfikowania podejrzanych działań, takich jak walka, kradzież lub upuszczanie niebezpiecznych przedmiotów oraz ostrzeganie funkcjonariuszy służb bezpieczeństwa.

Komputery są już bardzo dobre w wykrywaniu obiektów w statycznych obrazach, dzięki głębokim technikom uczenia się, które wykorzystują sztuczne sieci neuronowe do przetwarzania złożonych informacji o obrazie. Ale filmy z ruchomymi obiektami są trudniejsze. "Zrozumienie ludzkich działań w filmach jest niezbędnym krokiem do budowy inteligentniejszych i bardziej przyjaznych maszyn" - mówi Zhu.

Poprzednie metody lokalizowania potencjalnych ludzkich działań w filmach nie wykorzystywały ram głębinowych, były powolne i podatne na błędy - mówi Zhu. Aby temu zaradzić, zespół detektora YoTube łączy równolegle dwa typy sieci neuronowych: statyczną sieć neuronową, która już okazała się dokładna w przetwarzaniu nieruchomych obrazów, oraz powtarzająca się sieć neuronowa, zwykle używana do przetwarzania zmieniających się danych, do rozpoznawania mowy. "Nasza metoda jest pierwszą metodą, która łączy wykrywanie i śledzenie w jednym głębokim procesie uczenia" - mówi Zhu.

Zespół przetestował YoTube na ponad 3000 filmów wideo rutynowo wykorzystywanych w komputerowych eksperymentach wizji. Podają, że przewyższa on najbardziej zaawansowane wykrywacze przy prawidłowym wybieraniu potencjalnych działań ludzkich o około 20 procent w przypadku filmów przedstawiających ogólne codzienne czynności i około 6 procent w przypadku filmów sportowych. Wykrywacz czasami popełnia błędy, jeśli ludzie w filmie są niewielcy lub jeśli w tle jest wielu ludzi. Niemniej jednak, Zhu mówi: "Pokazaliśmy, że potrafimy wykryć większość potencjalnych regionów działania człowieka w sposób prawie w czasie rzeczywistym."

menu
menu