Ero KDD n ja tiedon louhinnan välillä

KDD vs. tiedon louhinta

KDD (Knowledge Discovery in Databases) on tietotekniikan ala, joka sisältää työkalut ja teoriat auttaa ihmisiä hyödyntämään hyödyllistä ja aiemmin tuntematonta tietoa (ts. Tietoa) suurista digitoidun tiedon kokoelmista. KDD koostuu useista vaiheista, ja Data Mining on yksi niistä. Data Mining on tietyn algoritmin soveltaminen kuvioiden purkamiseksi datasta. Siitä huolimatta KDD: tä ja Data Mining -käyttöä käytetään keskenään.

Mikä on KDD?

Kuten edellä mainittiin, KDD on tietotekniikan ala, joka käsittelee aiemmin tuntemattoman ja mielenkiintoisen tiedon poimimista raa'asta tiedosta. KDD on koko prosessi, jolla yritetään ymmärtää tietoja järkevästi kehittämällä sopivia menetelmiä tai tekniikoita. Tämä prosessi käsittelee matalan tason tietojen kartoittamista muihin muotoihin, jotka ovat tiiviimpiä, abstrakteja ja hyödyllisiä. Tämä saavutetaan luomalla lyhyitä raportteja, mallinnuttamalla tietojen luontiprosessia ja kehittämällä ennustavia malleja, jotka voivat ennustaa tulevia tapauksia. Tietojen räjähdysmäisen kasvun takia, etenkin liiketoiminnan kaltaisilla aloilla, KDD: stä on tullut erittäin tärkeä prosessi muuntaa tämä suuri tietojoukko yritystietoksi, koska kuvioiden manuaalinen poimiminen on näyttänyt mahdottomalta viime vuosikymmeninä. Sitä käytetään nykyisin esimerkiksi erilaisiin sovelluksiin, kuten sosiaalisen verkoston analyysiin, petosten havaitsemiseen, tieteeseen, sijoittamiseen, valmistukseen, tietoliikenteeseen, tietojen puhdistukseen, urheiluun, tiedon hakuun ja pääosin markkinointiin. KDD: tä käytetään yleensä vastaamaan kysymyksiin, kuten mitkä ovat päätuotteita, jotka voivat auttaa saavuttamaan korkean voiton ensi vuonna Wal-Martissa ?. Tässä prosessissa on useita vaiheita. Se alkaa ymmärtämään sovellusalueen ja tavoitteen ymmärtämistä ja luomaan sitten kohdetiedot. Tätä seuraa tietojen puhdistaminen, esikäsittely, vähentäminen ja projisointi. Seuraava vaihe on Data Mining (selitetään alla) käyttäminen kuvion tunnistamiseen. Lopuksi löydetty tieto yhdistetään visualisoimalla ja / tai tulkitsemalla.

Mikä on tiedon louhinta?

Kuten edellä mainittiin, Data Mining on vain askel koko KDD-prosessissa. On olemassa kaksi pääasiallista tiedon louhinnan tavoitetta, jotka määritellään sovelluksen tavoitteessa, ja ne ovat todentaminen tai löytäminen. Vahvistamisella varmistetaan käyttäjän hypoteesi tiedoista, kun taas löytö löytää automaattisesti mielenkiintoisia malleja. Tietojen louhintatehtäviä on neljä: ryhmittely, luokittelu, regressio ja yhdistäminen (yhteenveto). Klusterointi on samanlaisten ryhmien tunnistaminen jäsentämättömästä tiedosta. Luokittelu on oppimissääntöjä, joita voidaan soveltaa uuteen tietoon. Regressio on sellaisten funktioiden löytäminen, joilla on mahdollisimman vähän virheitä datan mallintamiseen. Ja assosiaatio etsii suhteita muuttujien välillä. Sitten on valittava erityinen tiedon louhinnan algoritmi. Tavoitteesta riippuen voidaan valita erilaisia ​​algoritmeja, kuten lineaarinen regressio, logistinen regressio, päätöspuut ja Naïve Bayes. Sitten etsitään kiinnostavia malleja yhdessä tai useammassa esitysmuodossa. Lopuksi malleja arvioidaan joko ennustavan tarkkuuden tai ymmärrettävyyden avulla.

Mitä eroa on KDD: n ja datan louhinnan välillä??

Vaikka kahta termiä KDD ja Data Mining käytetään voimakkaasti keskenään, ne viittaavat kahteen toisiinsa liittyvään, mutta hieman erilaiseen käsitteeseen. KDD on kokonaisprosessi tietojen hankkimiseksi tiedoista, kun taas Data Mining on vaihe KDD-prosessin sisällä, joka käsittelee datan mallien tunnistamista. Toisin sanoen Data Mining on vain tietyn algoritmin soveltaminen, joka perustuu KDD-prosessin yleiseen tavoitteeseen.