ЕФЕКТИВНІСТЬ АНСАМБЛЕВИХ МЕТОДІВ МАШИННОГО НАВЧАННЯ ДЛЯ ОБРОБКИ ВЕЛИКИХ ДАНИХ

Завантажень

Завантажень за місяць протягом останнього року

Зубик, Л. В. та Зубик, Я. Я. (2023) ЕФЕКТИВНІСТЬ АНСАМБЛЕВИХ МЕТОДІВ МАШИННОГО НАВЧАННЯ ДЛЯ ОБРОБКИ ВЕЛИКИХ ДАНИХ. Вісник Національного університету водного господарства та природокористування (2(102)). с. 449-462.

[img] Text
Vt10237 (1).pdf

Download(432kB)

Анотація

Ансамблеве навчання як добре відомий варіант машинного навчання традиційно вважається надійним й ефективним. У цих алгоритмах використовується більша кількість слабких учнів, наприклад, дерева рішень, об’єднаних для створення більш потужного сигналу. Варіантами ансамблевого навчання є випадкові ліси, інші беговані (бутстрап-агреговані) та бустингові (форсовані) класифікатори. Вони продукують ознаковий простір, який може бути підрізаний з метою скорочення переважання перепідгонки. Стаття спрямована на порівняння ефективності найбільш популярних ансамблевих методів машинного навчання та визначення специфіки їх використання у наукових дослідженнях.

Title in English

EFFICIENCY OF ASSEMBLE METHODS OF MACHINE LEARNING FOR BIG DATA PROCESSING

English abstract

Ensemble learning, as a well-known variant of machine learning, is traditionally considered reliable and effective. These algorithms use a larger number of weak learners, such as decision trees, combined to create a stronger signal. Variants of ensemble learning are random forests, other bootstrap-aggregated classifiers, and boosting (forced) classifiers. They produce a feature space that can be trimmed to reduce the prevalence of overfitting. The article is aimed at comparing the effectiveness of the most popular ensemble methods of machine learning and determining the specifics of their use in scientific research. Two most popular ensemble methods, such as bagging and boosting, are built independently for bagging, but boosting tries to add new models that do well where previous models was fail. Both mentioned ensemble methods generate several training data sets by random sampling, but only boosting determines weights for the data to tip the scales in benefit of the most difficult cases. Ensemble methods make the final decision by averaging the N learners, or taking the majority of them. And we use one of the options: an equally weighted average for bagging or a weighted average for boosting with more weight to those with better performance on training data. Both methods are good at reducing variance and provide higher stability, but only boosting tries to reduce bias. On the other side, bagging may solve the over-fitting problem, while boosting can increase it. Given that begging algorithms can be parallelized, it becomes possible to transform a large sequential task into a number of smaller ones that are executed simultaneously. Thus, the application of bagging allows obtaining faster estimates on large data sets.

Тип елементу : Стаття
Ключові слова: машинне навчання; ансамблеві методи; дерева рішень; випадковий ліс; бегінг; бустинг; machine learning; ensemble methods; decision trees; random forest; bagging; boosting
УДК: 004.8
Бібліографічний опис: Зубик Л. В. Ефективність ансамблевих методів машинного навчання для обробки великих даних / Л. В. Зубик, Я. Я. Зубик // Вісник НУВГП. Технічні науки : зб. наук. праць. - Рівне : НУВГП, 2023. - Вип. 2(102). - С. 449-462.
Тематики: Видання університету > Вісник НУВГП > серія "Технічні науки" > 2023 > Вісник 2
Видання університету > Вісник НУВГП > серія "Технічні науки" > 2023
Видання університету
Користувач, що депонує: С. Й. Гипчинська
Дата внесення: 19 Груд 2023 11:55
Останні зміни: 19 Груд 2023 11:55
URI: http://ep3.nuwm.edu.ua/id/eprint/28438
Перегляд елементу Перегляд елементу

Завантажень

Завантажень за місяць протягом останнього року