Хайров Марат Русланович (педагог ДО
Российский университет дружбы народов
им. Патриса Лумумбы (город Москва)
)
Сабирова Динара Илхомовна (лаборант
МИРЭА - Российский технологический университет
(город Москва)
)
Новикова Дарья Сергеевна (старший педагог ДО
Российский университет дружбы народов
им. Патриса Лумумбы (город Москва)
)
|
данная работа посвящена исследованию проблемы оценки точности кластеризации текстов. Для проведения исследований был создан размеченный экспертами датасет из 1800 текстов, разделенных на три тематики: IT инновации, образование и политика, а также по размерам текстов.
Исследование включало этапы обработки текстов, построения векторных моделей и применение различных алгоритмов кластеризации, таких как K-means, Affinity Propagation и DBScan.
Результаты показали, что алгоритмы K-means и Affinity Propagation достигли хороших результатов в точности кластеризации текстов (соответственно 82% и 85%), в то время как DBScan демонстрировал низкую точность (52%) из-за особенностей данных. Кроме того, K-means превзошел другие алгоритмы по полноте кластеризации, показав 78%.
Ключевые слова:кластеризация текстов, векторные модели текстов, TF-IDF, K-means, Affinity Propagation, DBScan, точность кластеризации.
|
|
|
Читать полный текст статьи …
|
Ссылка для цитирования: Хайров М. Р., Сабирова Д. И., Новикова Д. С. ИССЛЕДОВАНИЕ ТОЧНОСТИ РАБОТЫ АЛГОРИТМОВ КЛАСТЕРИЗАЦИИ ТЕКСТОВ НАПИСАННЫХ НА ЕСТЕСТВЕННЫХ ЯЗЫКАХ // Современная наука: актуальные проблемы теории и практики. Серия: Естественные и Технические Науки. -2024. -№07/2. -С. 190-195 DOI 10.37882/2223-2966.2024.7-2.37 |
|
|