Skip to content

Danila-Che/video-content-analysis

Repository files navigation

video-content-analysis

На видео мужчина тягает штангу с выпадом, находясь в спортивном зале.

source_video.gif

output_video.gif

Задание 1

Результаты применения модели vit-gpt2-image-captioning

существительные:

  • man
  • frisbee
  • shirt
  • gym
  • game
  • toy
  • woman
  • floor
  • top
  • room

глаголы:

  • is
  • playing
  • holding
  • standing

Мало слов, описывающих происходящее в кадре (есть лишь одно релевантное слово - gym). Имеются лишние слова.

Лишние слова:

  • фрисби
  • рубашка
  • игра
  • игрушка
  • женщина
  • играет

Результаты применения модели BLIP

существительные:

  • man
  • exercise
  • gym
  • weightlifting
  • squat
  • barbell
  • weight
  • woman

глаголы:

  • is
  • doing
  • squats
  • lifting

Почти все слова описали содержимое видео полностью. Слова связаны со спортом и тяжёлой атлетикой. Лишним оказалось лишь слово женщина.

Выводы

Модель BLIP явно лучше справилась с задачей описания, чем vit-gpt2-image-captioning.

Скорее всего модель vit-gpt2-image-captioning не понимает контекста и динамику действий. Для качественного распознавания нужно несколько кадров за определённый промежуток время. При этом модель BLIT улавливания глобальные пространственно-временные зависимости, что позволяет понимать контекст действий, а не только отдельные кадры.

Задание 2

Модель slowfast для целого видео предсказала clean and jerk (рывок и толчок), что описывает подходящее действие в кадре.

Для выделенного мужчины (использовались модели yolo и deepsort, настройки выбраны так, чтобы исключить посторонних людей из анализа) было предсказано:

  • vault
  • playing trumpet
  • gymnastics tumbling
  • situp
  • headbutting
  • playing keyboard
  • waxing legs
  • lunge
  • clean and jerk

Лучший результат по сравнению с vit-gpt2-image-captioning так как слова описывают спортивную деятельность, но при этом не описывают конкретно поднятие штанги. Близкие к контексту слова: lunge, clean and jerk. Имеются откровенно лишине слова: playing trumpet, headbutting, playing keyboard, waxing legs.

Очевидно, что для выяления действия нужно больше контекста, в данном случае штанга не попадает в анализируемую рамку.

В отличие от CNN, которые обрабатывают весь видеопоток с одинаковой частотой, SlowFast использует два параллельных потока (pathways), обрабатывающих видео с разной скоростью, что имитирует работу биологической зрительной системы. Медленный поток понимает, что происходит в кадре, а быстрый - как именно это происходит (в динамике). Данный подход подзволяет учитывать временную динамику, различать похожие позы, но разные действия.

Так как image capturing больше направленно на выявление объектов в кадре, а video recognition для анализа действий. Можно попробовать использовать video recognition для выявяления динамики, image capturing для анализа контекста объектов (окружения) в кадре.

Задача video capturing по сравнению с image capturing усложняется тем, что нужно имееть последовательность кадров, а не только один, в момент анализа. Поэтому нужно накопить достатоно кадров перед использованием модели, это в свою очередь требует соблюдения хронологии, дополнительных вычислительных ресурсов, и при этом, кадр может резко поменятся, в особенности, если видео было смонтированно.

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors