Журнал «Современная Наука»

Russian (CIS)English (United Kingdom)
МОСКВА +7(495)-142-86-81

САМООБУЧАЕМОЕ ФОРМИРОВАНИЕ МЕТРИК КАЧЕСТВА ДАННЫХ ДЛЯ НЕИЗУЧЕННЫХ ПОТОКОВ

Уланов Кирилл Анатольевич  (аспирант, кафедра информационных систем Московский государственный технологический университет «Станкин», РФ )

Статья посвящена проблеме автоматического контроля качества «тёмных» потоков данных — Kafka‐топиков, для которых отсутствует эталонная разметка и заранее известная схема. Цель работы — разработать метод самообучаемого формирования метрики качества потоковых данных, способный в реальном времени оценивать достоверность неизученных событий без ручных правил. Предлагается потоковый алгоритм, в котором лёгкий онлайн-энкодер извлекает признаки, булева маска аугментаций создаёт позитивные и негативные примеры, а ранговая функция потерь обучается по принципу самообучающегося ранжирования. На открытом наборе NYC Taxi метод опередил rule-based тесты, Isolation Forest и Deep SVDD: P1000 выросла до 0,74, а задержка обнаружения ошибок сократилась до 32 с при загрузке 0,55 vCPU. Выводы подтверждают, что самообучающес ранжирование является эффективной и ресурсосберегающей основой для сквозного контроля качества данных в потоковых системах.

Ключевые слова:потоковая обработка данных, контроль качества данных, self-supervised learning, ранговое обучение, Apache Kafka, неизученные потоки

 

Читать полный текст статьи …



Ссылка для цитирования:
Уланов К. А. САМООБУЧАЕМОЕ ФОРМИРОВАНИЕ МЕТРИК КАЧЕСТВА ДАННЫХ ДЛЯ НЕИЗУЧЕННЫХ ПОТОКОВ // Современная наука: актуальные проблемы теории и практики. Серия: Естественные и Технические Науки. -2025. -№06. -С. 241-245 DOI 10.37882/2223-2966.2025.06.46
ПРАВОВАЯ ИНФОРМАЦИЯ:
Перепечатка материалов допускается только в некоммерческих целях со ссылкой на оригинал публикации. Охраняется законами РФ. Любые нарушения закона преследуются в судебном порядке.
© ООО "Научные технологии"