Потапова Ксения Александровна (старший преподаватель, МИРЭА – Российский технологический университет)
Исаева Ирина Андреевна (старший преподаватель, МИРЭА – Российский технологический университет)
Габриелян Гайк Ашотович (старший преподаватель, МИРЭА – Российский технологический университет)
|
В рамках исследования проведён анализ разных методов векторизации в задаче классификации. Выбраны два статистических метода для векторизации научных статей: мешок слов и TF-IDF, и одна нейросетевая модель word2vec. Проведён сравнительный анализ разных моделей кластеризации, после чего для эксперимента были выбраны две модели: модификация логистической регрессии и случайный лес. Для оценки влияния объёма входных данных на качество классификации использованы три сценария: использование только заголовков, использование заголовков и аннотаций, использование заголовков, аннотаций и текстов статей. Каждый сценарий тестировался на всех методах векторизации и выбранных моделях классификации, что позволило выявить зависимость между полнотой данных, типом векторизации и итоговыми метриками качества классификации.
Ключевые слова:векторизация, научные статьи, машинное обучение, классификация, семантический анализ
|
|
|
Читать полный текст статьи …
|
Ссылка для цитирования: Потапова К. А., Исаева И. А., Габриелян Г. А. ИССЛЕДОВАНИЕ МЕТОДОВ ВЕКТОРИЗАЦИИ НАУЧНЫХ ТЕКСТОВ ДЛЯ МНОГОЗАДАЧНОЙ КЛАССИФИКАЦИИ НА ОСНОВЕ РАЗЛИЧНОГО ОБЪЕМА ДАННЫХ // Современная наука: актуальные проблемы теории и практики. Серия: Естественные и Технические Науки. -2025. -№05/2. -С. 99-105 DOI 10.37882/2223-2966.2025.05-2.18 |
|
|