Уланов Кирилл Анатольевич (аспирант, кафедра информационных систем
Московский государственный технологический университет «Станкин», РФ
)
|
Статья посвящена проблеме автоматического контроля качества «тёмных» потоков данных — Kafka‐топиков, для которых отсутствует эталонная разметка и заранее известная схема. Цель работы — разработать метод самообучаемого формирования метрики качества потоковых данных, способный в реальном времени оценивать достоверность неизученных событий без ручных правил. Предлагается потоковый алгоритм, в котором лёгкий онлайн-энкодер извлекает признаки, булева маска аугментаций создаёт позитивные и негативные примеры, а ранговая функция потерь обучается по принципу самообучающегося ранжирования. На открытом наборе NYC Taxi метод опередил rule-based тесты, Isolation Forest и Deep SVDD: P1000 выросла до 0,74, а задержка обнаружения ошибок сократилась до 32 с при загрузке 0,55 vCPU. Выводы подтверждают, что самообучающес ранжирование является эффективной и ресурсосберегающей основой для сквозного контроля качества данных в потоковых системах.
Ключевые слова:потоковая обработка данных, контроль качества данных, self-supervised learning, ранговое обучение, Apache Kafka, неизученные потоки
|
|
|
Читать полный текст статьи …
|
Ссылка для цитирования: Уланов К. А. САМООБУЧАЕМОЕ ФОРМИРОВАНИЕ МЕТРИК КАЧЕСТВА ДАННЫХ ДЛЯ НЕИЗУЧЕННЫХ ПОТОКОВ // Современная наука: актуальные проблемы теории и практики. Серия: Естественные и Технические Науки. -2025. -№06. -С. 241-245 DOI 10.37882/2223-2966.2025.06.46 |
|
|