Зубик, Л. В. and Зубик, Я. Я. (2023) ЕФЕКТИВНІСТЬ АНСАМБЛЕВИХ МЕТОДІВ МАШИННОГО НАВЧАННЯ ДЛЯ ОБРОБКИ ВЕЛИКИХ ДАНИХ. Вісник Національного університету водного господарства та природокористування (2(102)). pp. 449-462.
Text
Vt10237 (1).pdf Download(432kB) |
Abstract
Ансамблеве навчання як добре відомий варіант машинного навчання традиційно вважається надійним й ефективним. У цих алгоритмах використовується більша кількість слабких учнів, наприклад, дерева рішень, об’єднаних для створення більш потужного сигналу. Варіантами ансамблевого навчання є випадкові ліси, інші беговані (бутстрап-агреговані) та бустингові (форсовані) класифікатори. Вони продукують ознаковий простір, який може бути підрізаний з метою скорочення переважання перепідгонки. Стаття спрямована на порівняння ефективності найбільш популярних ансамблевих методів машинного навчання та визначення специфіки їх використання у наукових дослідженнях.
Title in English
EFFICIENCY OF ASSEMBLE METHODS OF MACHINE LEARNING FOR BIG DATA PROCESSING
English abstract
Ensemble learning, as a well-known variant of machine learning, is traditionally considered reliable and effective. These algorithms use a larger number of weak learners, such as decision trees, combined to create a stronger signal. Variants of ensemble learning are random forests, other bootstrap-aggregated classifiers, and boosting (forced) classifiers. They produce a feature space that can be trimmed to reduce the prevalence of overfitting. The article is aimed at comparing the effectiveness of the most popular ensemble methods of machine learning and determining the specifics of their use in scientific research. Two most popular ensemble methods, such as bagging and boosting, are built independently for bagging, but boosting tries to add new models that do well where previous models was fail. Both mentioned ensemble methods generate several training data sets by random sampling, but only boosting determines weights for the data to tip the scales in benefit of the most difficult cases. Ensemble methods make the final decision by averaging the N learners, or taking the majority of them. And we use one of the options: an equally weighted average for bagging or a weighted average for boosting with more weight to those with better performance on training data. Both methods are good at reducing variance and provide higher stability, but only boosting tries to reduce bias. On the other side, bagging may solve the over-fitting problem, while boosting can increase it. Given that begging algorithms can be parallelized, it becomes possible to transform a large sequential task into a number of smaller ones that are executed simultaneously. Thus, the application of bagging allows obtaining faster estimates on large data sets.
Item Type: | Article |
---|---|
Uncontrolled Keywords: | машинне навчання; ансамблеві методи; дерева рішень; випадковий ліс; бегінг; бустинг; machine learning; ensemble methods; decision trees; random forest; bagging; boosting |
УДК: | 004.8 |
Бібліографічний опис: | Зубик Л. В. Ефективність ансамблевих методів машинного навчання для обробки великих даних / Л. В. Зубик, Я. Я. Зубик // Вісник НУВГП. Технічні науки : зб. наук. праць. - Рівне : НУВГП, 2023. - Вип. 2(102). - С. 449-462. |
Subjects: | Видання університету > Вісник НУВГП > серія "Технічні науки" > 2023 > Вісник 2 Видання університету > Вісник НУВГП > серія "Технічні науки" > 2023 Видання університету |
Depositing User: | С. Й. Гипчинська |
Date Deposited: | 19 Dec 2023 11:55 |
Last Modified: | 19 Dec 2023 11:55 |
URI: | http://ep3.nuwm.edu.ua/id/eprint/28438 |
Actions (login required)
View Item |
Downloads
Downloads per month over past year