Hierarkkinen vs. osittainen ryhmittely
Klusterointi on koneoppimistekniikka tietojen analysoimiseksi ja jakamiseksi samanlaisten tietojen ryhmiin. Nämä ryhmät tai samankaltaisten datajoukkojen ryhmät tunnetaan klustereina. Ryhmäanalyysi tarkastelee klusterointialgoritmeja, jotka tunnistavat klusterit automaattisesti. Hierarkkinen ja osittainen ovat kaksi tällaista klusterointialgoritmien luokkaa. Hierarkkiset klusterointialgoritmit hajottavat tiedot klusterien hierarkiaan. Paritionaaliset algoritmit jakaa datajoukon keskenään hajautettuihin osioihin.
Mikä on hierarkkinen klusterointi?
Hierarkkiset klusterointialgoritmit toistavat vaiheen joko yhdistämällä pienemmät klusterit suurempiin tai jakamalla suuret klusterit pienempiin. Kummassakin tapauksessa se tuottaa klusterien hierarkian, jota kutsutaan dendogrammiksi. Agglomeratiivinen klusterointistrategia käyttää alhaalta ylöspäin suuntautuvaa lähestymistapaa yhdistämällä klusterit suuremmiksi, kun taas jakautuva klusterointistrategia käyttää ylhäältä alas suuntautuvaa lähestymistapaa jakautuessaan pienempiin. Tyypillisesti ahneta lähestymistapaa käytetään päätöksenteossa, mitä suurempia / pienempiä klustereita käytetään yhdistämiseen / jakamiseen. Euklidinen etäisyys, Manhattanin etäisyys ja kosinin samankaltaisuus ovat joitain yleisimmin käytettyjä numeeristen tietojen samankaltaisuusmittareita. Ei-numeerisiin tietoihin käytetään mittareita, kuten Hammingin etäisyys. On tärkeää huomata, että todellisia havaintoja (esiintymiä) ei tarvita hierarkkisessa klusteroinnissa, koska vain etäisyysmatriisi riittää. Dendogrammi on klustereiden visuaalinen esitys, joka näyttää hierarkian erittäin selvästi. Käyttäjä voi saada erilaisia klusterointeja sen mukaan, millä tasolla dendogrammi leikataan.
Mikä on osittainen klusterointi?
Osioitujen klusterointialgoritmien avulla luodaan erilaisia osioita ja arvioidaan sitten ne jollain kriteerillä. Niitä kutsutaan myös ei-hierarkkisiksi, koska kukin esiintymät on sijoitettu tarkalleen yhteen k: sta toisistaan poissulkevaa klusteria. Koska vain yksi klusterijoukko on tyypillisen osittaisten klusterointialgoritmien tuloste, käyttäjän on syötettävä haluttu joukko klustereita (yleensä nimeltään k). Yksi yleisimmin käytetyistä osittaisista ryhmittelyalgoritmeista on k-välineiden klusterointialgoritmi. Käyttäjän on ilmoitettava klustereiden lukumäärä (k) ennen käynnistämistä ja algoritmi aloittaa ensin k-osion keskukset (tai keskikohdat). Lyhyesti sanottuna, k-tarkoittaa klusterointialgoritmi osoittaa sitten jäsenet nykyisten keskusten perusteella ja arvioi uudelleen keskukset nykyisten jäsenten perusteella. Nämä kaksi vaihetta toistetaan, kunnes tietty klusterien sisäisen samankaltaisuuden tavoitefunktio ja klusterien välisen erilaisuuden tavoitetoiminto on optimoitu. Siksi keskusten järkevä alustaminen on erittäin tärkeä tekijä laatutulosten saamiseksi osioituista klusterointialgoritmeista.
Mikä on ero hierarkkisen ja osittaisryhmittelyn välillä??
Hierarkkisessa ja osittaisessa ryhmittelyssä on keskeisiä eroja juoksuajassa, oletuksissa, syöttöparametreissa ja niistä johtuvissa klusterissa. Tyypillisesti osioitu klusterointi on nopeampaa kuin hierarkkinen klusterointi. Hierarkkinen klusterointi vaatii vain samankaltaisuusmittauksen, kun taas osioitu klusterointi vaatii vahvempia oletuksia, kuten klusterien lukumäärää ja alkukeskuksia. Hierarkkinen klusterointi ei vaadi mitään syöttöparametreja, kun taas osittaiset klusterointialgoritmit vaativat klusterien määrän käynnistymisen. Hierarkkinen klusterointi palauttaa klusterien huomattavasti merkityksellisemmän ja subjektiivisemman jakautumisen, mutta osittainen klusterointi johtaa tarkalleen k klusteriin. Hierarkkiset klusterointialgoritmit ovat sopivampia kategorialliselle tiedolle, kunhan samankaltaisuusmitta voidaan määritellä vastaavasti.