Журнал «Современная Наука»

Russian (CIS)English (United Kingdom)
МОСКВА +7(495)-142-86-81

МЕТОДЫ ТОКЕНИЗАЦИИ ТЕКСТА НА ТАДЖИКСКОМ ЯЗЫКЕ С ПОМОЩЬЮ ЯЗЫКА PYTHON

Истамкулов Хасанжон   (Студент PhD, Худжандский Государственный Университет имени академика Б.Гафурова Худжанд, Таджикистан )

Музафаров Дилшод   ( Декан факультета Математики, Худжандский Государственный Университет имени академика Б.Гафурова Худжанд, Таджикистан )

В данной научной статье рассматриваются методы токенизации текста на таджикском языке с использованием языка программирования Python. Авторы анализируют особенности алфавита и грамматики таджикского языка, а также типичные проблемы токенизации, связанные с его спецификой. Статья предлагает обзор основных библиотек и пакетов для обработки текста на Python, а также описывает подходы к токенизации на примере других языков. В работе приводятся результаты экспериментов с использованием морфологического, статистического и нейросетевого подходов к токенизации, а также предлагаются направления для будущих исследований в данной области.

Ключевые слова:токенизация, таджикский язык, язык программирования Python, морфологический подход, статистический подход, нейронные сети, глубокое обучение, обработка естественного языка, алфавит, грамматика.

 

Читать полный текст статьи …



Ссылка для цитирования:
Истамкулов Х. , Музафаров Д. МЕТОДЫ ТОКЕНИЗАЦИИ ТЕКСТА НА ТАДЖИКСКОМ ЯЗЫКЕ С ПОМОЩЬЮ ЯЗЫКА PYTHON // Современная наука: актуальные проблемы теории и практики. Серия: Естественные и Технические Науки. -2023. -№06/2. -С. 78-82 DOI 10.37882/2223-2966.2023.6-2.16
ПРАВОВАЯ ИНФОРМАЦИЯ:
Перепечатка материалов допускается только в некоммерческих целях со ссылкой на оригинал публикации. Охраняется законами РФ. Любые нарушения закона преследуются в судебном порядке.
© ООО "Научные технологии"