O‘ZBEK TILIDA SO‘Z TURKUMLARINI AVTOMATIK ANIQLASH MUAMMOLARI VA ULARNING YECHIMLARI
Keywords:
Tabiiy tillarni qayta ishlash, so‘z turkumlari, Yashirin Morkov model, O‘tish ehtimollik, Emission ehtimollikAbstract
Ushbu maqolada o‘zbek tilida so‘z turkumlarini avtomatik aniqlash jarayonidagi asosiy muammolar va ularni bartaraf etish yo‘llari tahlil qilinadi. Tabiiy tilni qayta ishlash (Natural Language Processing — NLP) texnologiyalarining rivojlanishi o‘zbek tili uchun ham zamonaviy lingvistik resurslar va teglash tizimlarini yaratishni taqozo etmoqda. Tadqiqotda o‘zbek tilining agglutinativ (yopishqoq) tuzilishi, morfologik ko‘plik, sintaktik erkinlik kabi xususiyatlari avtomatik teglash jarayonida yuzaga keladigan murakkabliklarga sabab bo‘lishi aniqlanadi. Shuningdek, mavjud teg-tizimlar (masalan, Stanza, UDPipe) va ularning o‘zbek tiliga moslashuvi, shuningdek neyron tarmoqlar asosidagi yondashuvlar tahlil etiladi. Maqolada POS-teglashni takomillashtirish uchun qo‘llanilishi mumkin bo‘lgan yechimlar, jumladan, kengaytirilgan korpuslar yaratish, qo‘shma lug‘aviy bazalarni ishlab chiqish va mashinani o‘rganish algoritmlarini mahalliylashtirish bo‘yicha tavsiyalar beriladi.
Downloads
References
Michael Collins “Tagging with Hidden Markov Models” 2011.
Divya Godayal, An introduction to part-of-speech tagging and the Hidden Markov Model. 2018.
Кутузов А.Б. Корпусная лингвистика. − (Электрон ресурс): Лицензия Creative commons Attribution Share-Alike 3.0 Unported (Электрон ресурс)- // lab314.brsu.by/kmp-lite/kmp-video/CL/CorporeLingva.pdf; 4. Недошивина Е.В. Программы для работы с корпусами текстов: обзор основных корпусных менеджеров. Учебно-методическое пособие. – Санкт-Петербург. −2006. 26 с.;
Mengliyev B. va b. O‘zbek tilining milliy korpusi // Ma’rifat. – 26/04/2018.