Google випустила набір відеоданих AVA для розпізнавання людських дій


Дізнайтесь більше про нові кар'єрні можливості в EchoUA. Цікаві проекти, ринкова оплата, гарний колектив. Надсилайте резюме та приєднуйтеся до нас.

Навчання машин визначенню дій людини на відео є фундаментальною проблемою в галузі комп’ютерного зору. Сфери застосування таких технологій безмежні – від пошуку людини на відео до аналізу спортивних подій.

Загальноприйнятий підхід до проблеми

Незважаючи на той факт, що в попередні роки були зроблені значні прориви в галузях класифікації і розпізнавання об’єктів на відео, визначення людських дій залишається великим викликом для вчених. Це пов’язано з тим, що дії за своєю природою менш чітко визначені, ніж окремі об’єкти на відеороликах. Тому так складно точно створити певний набір цих дій на відео.

Загальноприйнятий підхід до класифікації дій, використовуваний UCF101, ActivityNet і Kinetics від DeepMind, ґрунтується на схемі класифікації зображень і привласнює лише одну мітку кожному. На сьогодні немає наборів даних, що містять мітки для декількох людей, відзнятих на відео і які виконують різні дії.

Розробка AVA

Щоб полегшити подальші дослідження в галузі розпізнавання людських дій, Google випустила набір даних AVA (atomic visual actions, атомарні візуальні дії), який надає декілька міток дій для кожної людини у відеороликах.

AVA містить URL-адреси відео YouTube, які були анотовані набором із 80 окремих дій (наприклад, прогулянка, удар по об’єкту, рукостискання), і, в цілому, складається з майже 58 тис. відеофрагментів, 96 тис. людських дій і 210 тис. анотацій дій. Набір даних доступний на сайті проекту. Google також випустила у вільний доступ статтю, що описує дизайн і розробку AVA.

Ключові особливості AVA

  • Орієнтована на людину анотація. Кожна мітка дії пов’язана з людиною, а не з відеофрагментом. Отже, можна призначати різні ярлики декільком людям, які виконують різні дії в тій самій сцені.
  • Атомарні візуальні дії. Кожне позначення дій обмежене точними тимчасовими шкалами (3 сек.), де дії набувають фізичного характеру.
  • Реалістичні відеоматеріали. Як джерело даних в AVA використовуються реальні фільми, а не спеціально відзняті відеоматеріали. В результаті, дані мають широкий спектр людської поведінки.

Створення AVA

Для створення AVA команда розробників зібрала різноманітний набір контенту з YouTube із категорій “фільм” і “телебачення”, у яких беруть участь професійні актори різних національностей. Потім був проведений аналіз 15-хвилинних кліпів з кожного відео з подальшим рівномірним розподілом їх на 300 3-секундних сегментів, що не перетиналися.

Після цього була проведена ручна анотація дій одним із 80 певних класів. Усі дії були поділені на три групи: дії руху, взаємодія людини з об’єктом і взаємодія людини з людиною.

Цікава статистика AVA

Оскільки всі дії на відеороликах були помічені, учені змогли створити графік розподілу кожної з них.

Також учені змогли зібрати цікавішу статистику людських дій. Узявши вибірку, що складається з людей, які здійснюють не менше двох дій на відеофрагменті, можна отримати пари дій з їх оцінками збігів. Були визначені шаблони таких дій. Наприклад, люди часто “грають на музичних інструментах” під час “співу”; якщо “грають з дітьми”, то вірогідна друга дія – це “підйом на руки людини”. Дія “тримати лопату” часто супроводжується “копати”, а “обійми” – “цілунком”.

Оцінка якості AVA

Щоб оцінити ефективність систем розпізнавання людських дій у наборі даних AVA, була впроваджена чинна базова модель глибинного навчання, яка забезпечує високу продуктивність, використовуючи набагато менший набір даних JHMDB. Оцінювана модель показала відносно скромну продуктивність за правильної ідентифікації дій на AVA (18,4% mAP). Це говорить про те, що AVA буде корисним випробувальним полігоном для розробки та оцінки нової архітектури і алгоритмів розпізнавання дій.

Джерело: блог Google Research

Київ, Харків, Одеса, Дніпро, Запоріжжя, Кривий Ріг, Вінниця, Херсон, Черкаси, Житомир, Хмельницький, Чернівці, Рівне, Івано-Франківськ, Кременчук, Тернопіль, Луцьк, Ужгород, Кам'янець-Подільський, Стрий - за статистикою саме з цих міст програмісти найбільше переїжджають працювати до Львова. А Ви розглядаєте relocate?


Залишити відповідь

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *