Журнал «Современная Наука»

Russian (CIS)English (United Kingdom)
МОСКВА +7(495)-142-86-81

ИССЛЕДОВАНИЕ МЕТОДОВ ВЕКТОРИЗАЦИИ НАУЧНЫХ ТЕКСТОВ ДЛЯ МНОГОЗАДАЧНОЙ КЛАССИФИКАЦИИ НА ОСНОВЕ РАЗЛИЧНОГО ОБЪЕМА ДАННЫХ

Потапова Ксения Александровна  (старший преподаватель, МИРЭА – Российский технологический университет)

Исаева Ирина Андреевна  (старший преподаватель, МИРЭА – Российский технологический университет)

Габриелян Гайк Ашотович  (старший преподаватель, МИРЭА – Российский технологический университет)

В рамках исследования проведён анализ разных методов векторизации в задаче классификации. Выбраны два статистических метода для векторизации научных статей: мешок слов и TF-IDF, и одна нейросетевая модель word2vec. Проведён сравнительный анализ разных моделей кластеризации, после чего для эксперимента были выбраны две модели: модификация логистической регрессии и случайный лес. Для оценки влияния объёма входных данных на качество классификации использованы три сценария: использование только заголовков, использование заголовков и аннотаций, использование заголовков, аннотаций и текстов статей. Каждый сценарий тестировался на всех методах векторизации и выбранных моделях классификации, что позволило выявить зависимость между полнотой данных, типом векторизации и итоговыми метриками качества классификации.

Ключевые слова:векторизация, научные статьи, машинное обучение, классификация, семантический анализ

 

Читать полный текст статьи …



Ссылка для цитирования:
Потапова К. А., Исаева И. А., Габриелян Г. А. ИССЛЕДОВАНИЕ МЕТОДОВ ВЕКТОРИЗАЦИИ НАУЧНЫХ ТЕКСТОВ ДЛЯ МНОГОЗАДАЧНОЙ КЛАССИФИКАЦИИ НА ОСНОВЕ РАЗЛИЧНОГО ОБЪЕМА ДАННЫХ // Современная наука: актуальные проблемы теории и практики. Серия: Естественные и Технические Науки. -2025. -№05/2. -С. 99-105 DOI 10.37882/2223-2966.2025.05-2.18
ПРАВОВАЯ ИНФОРМАЦИЯ:
Перепечатка материалов допускается только в некоммерческих целях со ссылкой на оригинал публикации. Охраняется законами РФ. Любые нарушения закона преследуются в судебном порядке.
© ООО "Научные технологии"