Журнал «Современная Наука»

Russian (CIS)English (United Kingdom)
МОСКВА +7(495)-142-86-81

СИСТЕМА СРАВНЕНИЯ ТЕКСТОВ: ЭТАПЫ ПРЕДОБРАБОТКИ И ОЦЕНКА ОРИГИНАЛЬНОСТИ ДОКУМЕНТОВ

Крез Карина Сергеевна  ( Аспирант, УО «Белорусский государственный университет информатики и радиоэлектроники», Минск, Беларусь )

Шнейдеров Евгений Николаевич  (канд.техн.наук, доцент, УО «Белорусский государственный университет информатики и радиоэлектроники», Минск, Беларусь )

Голушко Вадим Игоревич  (УО «Белорусский государственный университет информатики и радиоэлектроники», Минск, Беларусь)

В статье представлена методика автоматизированной оценки оригинальности текстовых документов, основанная на интеграции современных методов обработки естественного языка и классических алгоритмов сравнения текста. Предложенный подход включает трехэтапный алгоритм обработки данных: предварительную очистку и нормализацию документов, их семантическую векторизацию с использованием модели Sentence-BERT и последующую оценку степени сходства с помощью гибридного алгоритма. На этапе векторизации текст преобразуется в 384-мерные вложения, отражающие его семантическое содержание, что позволяет эффективно проводить семантический поиск потенциальных источников заимствований с использованием алгоритмов приближенного поиска ближайшего соседа (ИНС). Для точной количественной оценки степени совпадения используется метод шинлинга с хешированием, обеспечивающий детерминированное сравнение фрагментов текста. Разработанный алгоритм позволяет автоматизировать процесс проверки уникальности научно-учебных работ, снижая сложность ручной проверки и повышая надежность результатов. Предложенный гибридный подход сочетает в себе высокую эффективность семантического поиска с точностью классических методов сравнения и может эффективно применяться при работе с большими текстовыми базами данных.

Ключевые слова:векторизация документов, оценка оригинальности документов, выравнивание, встраивание, шингл.

 

Читать полный текст статьи …



Ссылка для цитирования:
Крез К. С., Шнейдеров Е. Н., Голушко В. И. СИСТЕМА СРАВНЕНИЯ ТЕКСТОВ: ЭТАПЫ ПРЕДОБРАБОТКИ И ОЦЕНКА ОРИГИНАЛЬНОСТИ ДОКУМЕНТОВ // Современная наука: актуальные проблемы теории и практики. Серия: Естественные и Технические Науки. -2026. -№03. -С. 116-121 DOI 10.37882/2223-2966.2026.03.19
ПРАВОВАЯ ИНФОРМАЦИЯ:
Перепечатка материалов допускается только в некоммерческих целях со ссылкой на оригинал публикации. Охраняется законами РФ. Любые нарушения закона преследуются в судебном порядке.
© ООО "Научные технологии"