Ero pakkaamisen ja satunnaisen metsän välillä

Vuosien mittaan useita luokittelujärjestelmiä, joita kutsutaan myös ryhmäjärjestelmiksi, ovat olleet suosittu tutkimusaihe, ja niiden huomio on kasvanut laskennallisen älykkyyden ja koneoppimisyhteisön sisällä. Se herätti useiden alojen tutkijoiden kiinnostuksen kohteita, kuten koneoppimisen, tilastotieteen, kuvioiden tunnistuksen ja tietokantojen tiedon löytämisen. Ajan myötä yhtyemenetelmät ovat osoittautuneet erittäin tehokkaiksi ja monipuolisiksi monilla ongelma-alueilla ja reaalimaailman sovelluksissa. Yhdistelmämenetelmiä, jotka on alun perin kehitetty vähentämään automatisoidun päätöksentekojärjestelmän variaatiota, on sittemmin käytetty moniin koneoppimisongelmiin. Esitämme yleiskatsauksen kahdesta näkyvimmistä ryhmäalgoritmeista - Bagging ja Random Forest - ja keskustelemme sitten näiden kahden välisistä eroista.

Monissa tapauksissa pussitusten, joissa käytetään bootstrap-näytteenottoa, luokittelupuristuksen on osoitettu olevan suurempi tarkkuus kuin yhden luokittelupuun. Pussitus on yksi vanhimmista ja yksinkertaisimmista ryhmäpohjaisista algoritmeista, joita voidaan soveltaa puupohjaisiin algoritmeihin ennusteiden tarkkuuden parantamiseksi. Pakkaamisesta on vielä yksi parannettu versio, nimeltään Random Forest -algoritmi, joka on olennaisesti päätöksentekopuiden kokonaisuus, joka on koulutettu pussitusmekanismin avulla. Katsotaan, miten satunnainen metsäalgoritmi toimii ja miten se eroaa muista kuin kokoonpanosta ryhmämalleissa.

pussitus

Bootstrap-aggregaatio, joka tunnetaan myös nimellä pussitus, on yksi varhaisimmista ja yksinkertaisimmista ryhmäpohjaisista algoritmeista, jotta päätöksentekopuut olisivat vankempia ja paremman suorituskyvyn saavuttamiseksi. Pussittamisen perusajatuksena on yhdistää useiden perusopiskelijoiden ennusteet tarkemman tuloksen luomiseksi. Leo Breiman esitteli pussitusalgoritmin vuonna 1994. Hän osoitti, että käynnistyslohkojen yhdistäminen voi tuoda toivottuja tuloksia epävakaisiin oppimisalgoritmeihin, joissa pienet muutokset harjoitustietoihin voivat aiheuttaa suuria variaatioita ennusteissa. Bootstrap on näyte tietokokonaisuudesta korvaamalla, ja jokainen näyte luodaan ottamalla näytteitä tasaisesti m-kokoinen harjoitusjoukko, kunnes saadaan uusi joukko m-esiintymää..

Satunnainen metsä

Satunnainen metsä on valvottu koneoppimisalgoritmi, joka perustuu ryhmäoppimiseen ja Breimanin alkuperäisen pussitusalgoritmin evoluutioon. Se on hieno parannus verrattuna pussitettuihin päätöksentekopuihin, jotta voidaan rakentaa useita päätöksentekopuita ja yhdistää ne saadaksesi tarkan tuloksen. Breiman lisäsi satunnaisen muunnoksen pakkausmenettelyyn luomalla suuremman monimuotoisuuden tuloksena olevissa malleissa. Satunnaiset metsät eroavat pussitetyistä puista pakottamalla puun käyttämään vain osaa käytettävissä olevista ennustajista jakautuakseen kasvuvaiheessa. Kaikki päätöksentekopuut, jotka muodostavat satunnaisen metsän, ovat erilaisia, koska jokainen puu on rakennettu erilaiselle satunnaiselle tietojoukolle. Koska se minimoi ylimääräisen asennuksen, se on yleensä tarkempi kuin yksi päätöksentekopuu.

Ero pakkaamisen ja satunnaisen metsän välillä

Perusasiat

- Sekä pussittaminen että satunnaiset metsät ovat ryhmäpohjaisia ​​algoritmeja, joiden tarkoituksena on vähentää harjoitustietojen ylittävien mallien monimutkaisuutta. Bootstrap-yhdistäminen, jota kutsutaan myös pussittamiseksi, on yksi vanhimmista ja tehokkaimmista yhdistelmämenetelmistä ylikuormituksen estämiseksi. Se on metatekniikka, joka käyttää useita luokittelijoita ennustamisen tarkkuuden parantamiseksi. Pussittaminen tarkoittaa yksinkertaisesti satunnaisten näytteiden vetämistä harjoitusnäytteestä vaihtamista varten, jotta saadaan erilaisia ​​malleja. Satunnainen metsä on valvottu koneoppimisalgoritmi, joka perustuu ryhmäoppimiseen ja Breimanin alkuperäisen pussitusalgoritmin kehitykseen.

Konsepti

- Bootstrap-näytteenoton (pussittamisen) tarkoituksena on kouluttaa joukko karsimattomia päätöksentekopuita koulutustietojen eri satunnaisjoukkoihin, näytteenotto korvaamalla, päätöksenpuiden varianssin vähentämiseksi. Ajatuksena on yhdistää useiden perusopiskelijoiden ennusteet tarkemman tuloksen luomiseksi. Satunnaismetsissä lisäys satunnainen variaatio lisätään pakkausmenetelmään suuremman monimuotoisuuden luomiseksi tuloksena olevissa malleissa. Satunnaisten metsien taustalla on rakentaa useita päätöksentekopuita ja koota ne saadakseen tarkka tulos.

Päämäärä

- Sekä pussitetut puut että satunnaiset metsät ovat yleisimpiä ryhmäoppimisvälineitä, joita käytetään käsittelemään erilaisia ​​koneoppimisongelmia. Bootstrap-näytteenotto on meta-algoritmi, joka on suunniteltu parantamaan koneoppimismallien tarkkuutta ja vakautta käyttämällä ryhmäoppimista ja vähentämään ylimääräisten mallien monimutkaisuutta. Satunnainen metsäalgoritmi on erittäin vankka ylikuormitusta vastaan ​​ja se on hyvä epätasapainoisen ja puuttuvan tiedon kanssa. Se on myös suositeltava algoritmin valinta ennustavien mallien rakentamiseksi. Tavoitteena on vähentää varianssia keskiarvottamalla useita syväpäätöksisiä puita, jotka on koulutettu datan eri näytteille.

Bagging vs. Random Forest: vertailukaavio

Yhteenveto

Sekä pussitetut puut että satunnaiset metsät ovat yleisimpiä ryhmäoppimisvälineitä, joita käytetään käsittelemään erilaisia ​​koneoppimisongelmia. Pussitus on yksi vanhimmista ja yksinkertaisimmista ryhmäpohjaisista algoritmeista, joita voidaan soveltaa puupohjaisiin algoritmeihin ennusteiden tarkkuuden parantamiseksi. Random Forests on sitä vastoin valvottu koneoppimisalgoritmi ja tehostettu versio käynnistyslohkon näytteenottomallista, jota käytetään sekä regressio- että luokitteluongelmiin. Satunnaisen metsän taustalla on rakentaa useita päätöksentekopuita ja koota ne saadakseen tarkka tulos. Satunnainen metsä on yleensä tarkempi kuin yksi päätöksentekopuu, koska se minimoi ylimääräisen asennuksen.