Ляшко, Д. А. (2024) ПРОБЛЕМИ ОБРОБКИ ПРИРОДНОЇ МОВИ У МАЛОРЕСУРСНОМУ СЕРЕДОВИЩІ. АНАЛІЗ ПЕРСПЕКТИВНИХ МЕТОДІВ РІШЕННЯ. Вісник Національного університету водного господарства та природокористування (3(107)). с. 393-402.
![]() |
Text
Vt3202437.pdf Download(167kB) |
Анотація
Проблема технічних та архітектурних рішень для малоресурсних середовищ, хоча і є важливою для досліджень, проте зазвичай ігнорується більшістю науковців, які фокусуються на рішеннях для середовищ з великим ресурсом. У роботі проводиться аналіз сучасних методів обробки малоресурсних мов, зосереджуючись на проблемах і обмеженнях, пов’язаних із відсутністю якісних мовних ресурсів та інструментів. Визначено ключові виклики, як-от нестача даних, неможливість застосування стандартних методів для малоресурсних мов, проблеми оцінювання моделей та безпекові проблеми. Розглянуто сучасні підходи, які включають використання багатомовних, мономовних та великих мовних моделей, а також методів покращення навчання для цих мов, таких як міжмовні репрезентації, Task specific fine- tuning, розширення словника та інші. Розглядаються нові, перспективні архітектури нейромереж. Наприклад Mamba, у майбутньому має потенціал замінити стандартну модель трансформера. Мережі Колгоморова – Арнольда є принципово новим архітектурним рішенням класичної багатошарової мережі і може показувати непогану ефективність в порівнянні зі звичайними методами. За результатами роботи робиться висновок про неоднозначність кожної технології у ефективності виконання задач у малоресурсному середовищі. Спільною проблемою усіх представлених рішень є потреба у великій кількості даних. Мультимовні та великі мовні моделі дають кращі результати за відсутності адекватних даних, ніж мономовні, через можливість навчання на корпусах схожих мов. У свою чергу мономовні моделі є більш прозорими, передбачуваними та ефективними для вузької задачі. Висновком даної статті є рекомендація вибору технології виходячи з умов поставленої задачі, кількості даних та опираючись на емпіричний метод, оскільки жоден з методів не має абсолютної переваги над іншими і може давати неочікувані результати.
Title in English
PROBLEMS OF NATURAL LANGUAGE PROCESSING IN LOW-RESOURCE ENVIRONMENTS. ANALYSIS OF PROMISING SOLUTION METHODS
English abstract
The problem of technical and architectural solutions for low- resource environments, although important for research, is usually ignored by most scientists who focus on solutions for high-resource environments. The paper analyzes current methods of processing low-resource languages, focusing on the problems and limitations associated with the lack of high-quality language resources and tools. Key challenges such as lack of data, inability to apply standard methods for low-resource languages, model evaluation problems, and security issues are identified. Modern approaches are considered, including the use of Multilingual, Monolingual, and Big Language models, as well as methods for improving learning for these languages, such as cross-lingual representations, task-specific fine- tuning, vocabulary expansion, and others. New, promising Neural Network architectures are considered. For example, Mamba has the potential to replace the standard Transformer model in the future. Kolgomorov – Arnold networks are a fundamentally new architectural solution to the classical multilayer network and can show good efficiency compared to conventional methods. Based on the results of the work, it is concluded that each technology is ambiguous in terms of the efficiency of performing tasks in a low-resource environment. The common problem of all the presented solutions is the need for a large amount of data. Multilingual and Big Language models provide better results in the absence of adequate data than Monolingual models due to the possibility of training on corpora of similar languages. In turn, Monolingual models are more transparent, predictable and efficient for a narrow task. The conclusion of this article is a recommendation to choose a technology based on the conditions of the task, the amount of data, and the empirical method, since none of the methods has an absolute advantage over the others and may produce unexpected results.
Тип елементу : | Стаття |
---|---|
Ключові слова: | малоресурсна мова; модель; архітектура; мовна модель; метод; low-resource language; model; architecture; language model; method |
УДК: | 004.421 |
Бібліографічний опис: | Ляшко Д. А. Проблеми обробки природної мови у малоресурсному середовищі. Аналіз перспективних методів рішення / Д. А. Ляшко // Вісник НУВГП. Технічні науки : зб. наук. праць. - Рівне : НУВГП, 2024. - Вип. 3(107). - С. 393-402. |
Тематики: | Видання університету > Вісник НУВГП > серія "Технічні науки" > 2024 > Вісник 3 Видання університету > Вісник НУВГП > серія "Технічні науки" > 2024 Видання університету |
Користувач, що депонує: | С. Й. Гипчинська |
Дата внесення: | 25 Бер 2025 11:04 |
Останні зміни: | 25 Бер 2025 11:04 |
URI: | http://ep3.nuwm.edu.ua/id/eprint/33671 |
![]() |
Перегляд елементу |
Завантажень
Завантажень за місяць протягом останнього року