|
В статье представлен новый подход к обнаружению аномалий на видеозаписях с камер видеонаблюдения с использованием иерархических нейронных сетей типа Transformer без использования сверточных нейронных сетей. Для извлечения векторных представлений из видеосегментов использована архитектура Video Vision Transformer (ViViT) в сочетании с подходом к обучению, называемым контрастным обучением. Для работы с видеозаписями переменной длины введена иерархическая архитектура сетей Transformer, которая получает представления как на уровне сегментов видео, так и на уровне событий. Обученный на наборе данных DCSASS, метод демонстрирует значительное улучшение в задачах классификации, кластеризации и обнаружения аномалий по сравнению с традиционными подходами. Результаты показывают, что предложенная модель может эффективно помочь операторам видеонаблюдения в обнаружении аномальных действий, тем самым повышая эффективность мер безопасности.
Ключевые слова:машинное обучение, искусственный интеллект, компьютерное зрение, нейронная сеть, трансформер, контрастное обучение, векторное представление, классификация, кластеризация, обнаружение аномалий.
|