Журнал «Современная Наука»

Russian (CIS)English (United Kingdom)
МОСКВА +7(495)-142-86-81

ИССЛЕДОВАНИЕ ТОЧНОСТИ РАБОТЫ АЛГОРИТМОВ КЛАСТЕРИЗАЦИИ ТЕКСТОВ НАПИСАННЫХ НА ЕСТЕСТВЕННЫХ ЯЗЫКАХ

Хайров Марат Русланович  (педагог ДО Российский университет дружбы народов им. Патриса Лумумбы (город Москва) )

Сабирова Динара Илхомовна  (лаборант МИРЭА - Российский технологический университет (город Москва) )

Новикова Дарья Сергеевна  (старший педагог ДО Российский университет дружбы народов им. Патриса Лумумбы (город Москва) )

данная работа посвящена исследованию проблемы оценки точности кластеризации текстов. Для проведения исследований был создан размеченный экспертами датасет из 1800 текстов, разделенных на три тематики: IT инновации, образование и политика, а также по размерам текстов. Исследование включало этапы обработки текстов, построения векторных моделей и применение различных алгоритмов кластеризации, таких как K-means, Affinity Propagation и DBScan. Результаты показали, что алгоритмы K-means и Affinity Propagation достигли хороших результатов в точности кластеризации текстов (соответственно 82% и 85%), в то время как DBScan демонстрировал низкую точность (52%) из-за особенностей данных. Кроме того, K-means превзошел другие алгоритмы по полноте кластеризации, показав 78%.

Ключевые слова:кластеризация текстов, векторные модели текстов, TF-IDF, K-means, Affinity Propagation, DBScan, точность кластеризации.

 

Читать полный текст статьи …



Ссылка для цитирования:
Хайров М. Р., Сабирова Д. И., Новикова Д. С. ИССЛЕДОВАНИЕ ТОЧНОСТИ РАБОТЫ АЛГОРИТМОВ КЛАСТЕРИЗАЦИИ ТЕКСТОВ НАПИСАННЫХ НА ЕСТЕСТВЕННЫХ ЯЗЫКАХ // Современная наука: актуальные проблемы теории и практики. Серия: Естественные и Технические Науки. -2024. -№07/2. -С. 190-195 DOI 10.37882/2223-2966.2024.7-2.37
ПРАВОВАЯ ИНФОРМАЦИЯ:
Перепечатка материалов допускается только в некоммерческих целях со ссылкой на оригинал публикации. Охраняется законами РФ. Любые нарушения закона преследуются в судебном порядке.
© ООО "Научные технологии"