video-content-analysis

На видео мужчина тягает штангу с выпадом, находясь в спортивном зале.

Задание 1

Результаты применения модели vit-gpt2-image-captioning

существительные:

man
frisbee
shirt
gym
game
toy
woman
floor
top
room

глаголы:

is
playing
holding
standing

Мало слов, описывающих происходящее в кадре (есть лишь одно релевантное слово - gym). Имеются лишние слова.

Лишние слова:

фрисби
рубашка
игра
игрушка
женщина
играет

Результаты применения модели BLIP

существительные:

man
exercise
gym
weightlifting
squat
barbell
weight
woman

глаголы:

is
doing
squats
lifting

Почти все слова описали содержимое видео полностью. Слова связаны со спортом и тяжёлой атлетикой. Лишним оказалось лишь слово женщина.

Выводы

Модель BLIP явно лучше справилась с задачей описания, чем vit-gpt2-image-captioning.

Скорее всего модель vit-gpt2-image-captioning не понимает контекста и динамику действий. Для качественного распознавания нужно несколько кадров за определённый промежуток время. При этом модель BLIT улавливания глобальные пространственно-временные зависимости, что позволяет понимать контекст действий, а не только отдельные кадры.

Задание 2

Модель slowfast для целого видео предсказала clean and jerk (рывок и толчок), что описывает подходящее действие в кадре.

Для выделенного мужчины (использовались модели yolo и deepsort, настройки выбраны так, чтобы исключить посторонних людей из анализа) было предсказано:

vault
playing trumpet
gymnastics tumbling
situp
headbutting
playing keyboard
waxing legs
lunge
clean and jerk

Лучший результат по сравнению с vit-gpt2-image-captioning так как слова описывают спортивную деятельность, но при этом не описывают конкретно поднятие штанги. Близкие к контексту слова: lunge, clean and jerk. Имеются откровенно лишине слова: playing trumpet, headbutting, playing keyboard, waxing legs.

Очевидно, что для выяления действия нужно больше контекста, в данном случае штанга не попадает в анализируемую рамку.

В отличие от CNN, которые обрабатывают весь видеопоток с одинаковой частотой, SlowFast использует два параллельных потока (pathways), обрабатывающих видео с разной скоростью, что имитирует работу биологической зрительной системы. Медленный поток понимает, что происходит в кадре, а быстрый - как именно это происходит (в динамике). Данный подход подзволяет учитывать временную динамику, различать похожие позы, но разные действия.

Так как image capturing больше направленно на выявление объектов в кадре, а video recognition для анализа действий. Можно попробовать использовать video recognition для выявяления динамики, image capturing для анализа контекста объектов (окружения) в кадре.

Задача video capturing по сравнению с image capturing усложняется тем, что нужно имееть последовательность кадров, а не только один, в момент анализа. Поэтому нужно накопить достатоно кадров перед использованием модели, это в свою очередь требует соблюдения хронологии, дополнительных вычислительных ресурсов, и при этом, кадр может резко поменятся, в особенности, если видео было смонтированно.

Name		Name	Last commit message	Last commit date
Latest commit History 5 Commits
README.md		README.md
output_video.gif		output_video.gif
output_video.mp4		output_video.mp4
source_video.gif		source_video.gif
source_video.mp4		source_video.mp4
Анализ содержания видео.pdf		Анализ содержания видео.pdf
Анализ_Содержания_Видео_Часть_1.ipynb		Анализ_Содержания_Видео_Часть_1.ipynb
Анализ_Содержания_Видео_Часть_2.ipynb		Анализ_Содержания_Видео_Часть_2.ipynb

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

video-content-analysis

Задание 1

Результаты применения модели vit-gpt2-image-captioning

Результаты применения модели BLIP

Выводы

Задание 2

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

video-content-analysis

Задание 1

Результаты применения модели vit-gpt2-image-captioning

Результаты применения модели BLIP

Выводы

Задание 2

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages