Истамкулов Хасанжон (Студент PhD, Худжандский
Государственный Университет
имени академика Б.Гафурова
Худжанд, Таджикистан
)
Музафаров Дилшод (
Декан факультета Математики, Худжандский
Государственный Университет
имени академика Б.Гафурова
Худжанд, Таджикистан
)
|
В данной научной статье рассматриваются методы токенизации текста на таджикском языке с использованием языка программирования Python. Авторы анализируют особенности алфавита и грамматики таджикского языка, а также типичные проблемы токенизации, связанные с его спецификой. Статья предлагает обзор основных библиотек и пакетов для обработки текста на Python, а также описывает подходы к токенизации на примере других языков. В работе приводятся результаты экспериментов с использованием морфологического, статистического и нейросетевого подходов к токенизации, а также предлагаются направления для будущих исследований в данной области.
Ключевые слова:токенизация, таджикский язык, язык программирования Python, морфологический подход, статистический подход, нейронные сети, глубокое обучение, обработка естественного языка, алфавит, грамматика.
|
|
|
Читать полный текст статьи …
|
Ссылка для цитирования: Истамкулов Х. , Музафаров Д. МЕТОДЫ ТОКЕНИЗАЦИИ ТЕКСТА НА ТАДЖИКСКОМ ЯЗЫКЕ С ПОМОЩЬЮ ЯЗЫКА PYTHON // Современная наука: актуальные проблемы теории и практики. Серия: Естественные и Технические Науки. -2023. -№06/2. -С. 78-82 DOI 10.37882/2223-2966.2023.6-2.16 |
|
|