Tiedon louhinta vs. tietojen varastointi
Tiedon louhinta ja tiedon varastointi ovat erittäin tehokkaita ja suosittuja tekniikoita datan analysoimiseksi. Tilastotieteeseen taipuvaiset käyttäjät käyttävät Data Mining -sovellusta. He hyödyntävät tilastollisia malleja etsien tietojen piilotettuja malleja. Tiedon louhijat ovat kiinnostuneita löytämään hyödyllisiä suhteita eri tietoelementtien välillä, mikä on viime kädessä kannattavaa yrityksille. Mutta toisaalta, data-asiantuntijat, jotka pystyvät analysoimaan suoraan liiketoiminnan ulottuvuuksia, yleensä käyttävät Data-varastoja.
Tiedon louhinta tunnetaan myös nimellä Tietojen löytäminen tiedoissa (KDD). Kuten edellä mainittiin, se on tietotekniikan ala, joka käsittelee aiemmin tuntemattoman ja mielenkiintoisen tiedon poimimista raa'asta tiedosta. Tietojen eksponentiaalisen kasvun takia, etenkin liiketoiminnan kaltaisilla aloilla, tiedonlouhinnasta on tullut erittäin tärkeä työkalu muuntaa tämä suuri tietojoukko yritystietoksi, koska kuvioiden manuaalinen poimiminen on näyttänyt mahdottomalta viime vuosikymmeninä. Sitä käytetään esimerkiksi nykyisin erilaisiin sovelluksiin, kuten sosiaalisen verkoston analyysiin, petosten havaitsemiseen ja markkinointiin. Tietojen louhinta käsittelee yleensä seuraavia neljää tehtävää: klusterointi, luokittelu, regressio ja yhdistäminen. Klusterointi on samanlaisten ryhmien tunnistaminen jäsentämättömästä tiedosta. Luokittelu on oppimissääntöjä, joita voidaan soveltaa uuteen tietoon, ja niihin sisältyy tyypillisesti seuraavat vaiheet: datan esikäsittely, mallinnuksen suunnittelu, oppiminen / ominaisuuden valinta ja arviointi / validointi. Regressio on sellaisten funktioiden löytäminen, joilla on mahdollisimman vähän virheitä datan mallintamiseen. Ja assosiaatio etsii suhteita muuttujien välillä. Tietojen louhintaa käytetään yleensä vastaamaan kysymyksiin, kuten mitkä ovat päätuotteita, jotka saattavat auttaa saamaan korkeaa voittoa ensi vuonna Wal-Martissa?
Kuten edellä mainittiin, tietovarastointia käytetään myös datan analysointiin, mutta eri käyttäjäjoukot ja mielessä hieman erilainen tavoite. Esimerkiksi, kun kyse on vähittäiskaupasta, tietovaraston käyttäjät ovat enemmän huolissaan siitä, millaiset ostot ovat suosittuja asiakkaiden keskuudessa, joten analyysitulokset voivat auttaa asiakasta parantamalla asiakaskokemusta. Mutta Data Minerit arvaavat ensin hypoteesin, jonka mukaan asiakkaat ostavat tietyn tyyppisen tuotteen ja analysoivat tietoja hypoteesin testaamiseksi. Tietovarastointia voisi hoitaa suuri vähittäiskauppias, joka aluksi varastoi myymälänsä samankokoisilla tuotteilla myöhemmin selville, että New Yorkin kaupat myyvät pienempiä varastoja paljon nopeammin kuin Chicagon myymälöissä. Joten tarkastelemalla tätä tulosta, jälleenmyyjä voi varastossa New York -myymälän pienemmissä kokoissa kuin Chicagon myymälöissä.
Joten, kuten voit selvästi nähdä, nämä kaksi analyysityyppiä näyttävät olevan samanlaisia paljaalla silmällä. Molemmat huolehtivat voittojen kasvattamisesta historiallisten tietojen perusteella. Mutta tietysti on keskeisiä eroja. Yksinkertaisesti sanottuna Data Mining ja Data Warehousing on omistettu erityyppisten analytiikkojen tarjoamiseen, mutta ehdottomasti erityyppisille käyttäjille. Toisin sanoen Data Mining etsii korrelaatioita, malleja tukemaan tilastollista hypoteesia. Mutta Data Warehousing vastaa suhteellisen laajempaan kysymykseen, ja se leikkaa ja pilkkoo tietoja siitä eteenpäin tunnistaakseen parantamistapoja tulevaisuudessa.