На видео мужчина тягает штангу с выпадом, находясь в спортивном зале.
Результаты применения модели vit-gpt2-image-captioning
существительные:
- man
- frisbee
- shirt
- gym
- game
- toy
- woman
- floor
- top
- room
глаголы:
- is
- playing
- holding
- standing
Мало слов, описывающих происходящее в кадре (есть лишь одно релевантное слово - gym). Имеются лишние слова.
Лишние слова:
- фрисби
- рубашка
- игра
- игрушка
- женщина
- играет
Результаты применения модели BLIP
существительные:
- man
- exercise
- gym
- weightlifting
- squat
- barbell
- weight
- woman
глаголы:
- is
- doing
- squats
- lifting
Почти все слова описали содержимое видео полностью. Слова связаны со спортом и тяжёлой атлетикой. Лишним оказалось лишь слово женщина.
Модель BLIP явно лучше справилась с задачей описания, чем vit-gpt2-image-captioning.
Скорее всего модель vit-gpt2-image-captioning не понимает контекста и динамику действий. Для качественного распознавания нужно несколько кадров за определённый промежуток время. При этом модель BLIT улавливания глобальные пространственно-временные зависимости, что позволяет понимать контекст действий, а не только отдельные кадры.
Модель slowfast для целого видео предсказала clean and jerk (рывок и толчок), что описывает подходящее действие в кадре.
Для выделенного мужчины (использовались модели yolo и deepsort, настройки выбраны так, чтобы исключить посторонних людей из анализа) было предсказано:
- vault
- playing trumpet
- gymnastics tumbling
- situp
- headbutting
- playing keyboard
- waxing legs
- lunge
- clean and jerk
Лучший результат по сравнению с vit-gpt2-image-captioning так как слова описывают спортивную деятельность, но при этом не описывают конкретно поднятие штанги. Близкие к контексту слова: lunge, clean and jerk. Имеются откровенно лишине слова: playing trumpet, headbutting, playing keyboard, waxing legs.
Очевидно, что для выяления действия нужно больше контекста, в данном случае штанга не попадает в анализируемую рамку.
В отличие от CNN, которые обрабатывают весь видеопоток с одинаковой частотой, SlowFast использует два параллельных потока (pathways), обрабатывающих видео с разной скоростью, что имитирует работу биологической зрительной системы. Медленный поток понимает, что происходит в кадре, а быстрый - как именно это происходит (в динамике). Данный подход подзволяет учитывать временную динамику, различать похожие позы, но разные действия.
Так как image capturing больше направленно на выявление объектов в кадре, а video recognition для анализа действий. Можно попробовать использовать video recognition для выявяления динамики, image capturing для анализа контекста объектов (окружения) в кадре.
Задача video capturing по сравнению с image capturing усложняется тем, что нужно имееть последовательность кадров, а не только один, в момент анализа. Поэтому нужно накопить достатоно кадров перед использованием модели, это в свою очередь требует соблюдения хронологии, дополнительных вычислительных ресурсов, и при этом, кадр может резко поменятся, в особенности, если видео было смонтированно.

