Sanadata tarkoittaa tietoja, jotka kerätään ja tallennetaan. Se voi olla numeroiden, sanojen, mittausten ja paljon muuta.
Tietoja on kahta tyyppiä, ja nämä ovat laadullisia ja kvantitatiivisia tietoja. Ero näiden kahden tyyppisten tietojen välillä on se, että numeerista tietoa kuvataan kvantitatiivisella tiedolla. Esimerkiksi lämpötilan mittaus kuuluisi tällaiseen tietoon.
Toisaalta laadullista tietoa käytetään kuvaamaan tietoa sanoin. Tietojen keräämisen jälkeen se on järjestettävä, joten on tarpeen erottaa ryhmitetyt tiedot ryhmittelemättömistä tiedoista. Molemmat ovat hyödyllisiä tietomuotoja, mutta ero niiden välillä on siinä, että ryhmittelemätön data on raakatietoa. Tämä tarkoittaa, että se on juuri kerätty, mutta sitä ei ole lajiteltu mihinkään ryhmään tai luokkaan. Toisaalta ryhmitetty data on dataa, joka on järjestetty ryhmiin raakatiedoista.
Kuten edellä mainittiin, ryhmitetty data on tietotyyppi, joka luokitellaan ryhmiin keräyksen jälkeen. Raakadata luokitellaan eri ryhmiin ja luodaan taulukko. Taulukon ensisijainen tarkoitus on näyttää kussakin ryhmässä esiintyvät datapisteet. Esimerkiksi, kun testi suoritetaan, tulokset ovat tämän skenaarion tietoja ja on monia tapoja ryhmitellä nämä tiedot. Esimerkiksi kunkin 20 pisteen yläpuolelle pisteytysten lukumäärä voidaan kirjata.
Vaihtoehtoisesti laatuja voidaan käyttää. Esimerkiksi 90-100 aina F 0-59: een kullakin luokalla osoittaen kuinka monta opiskelijaa kussakin luokassa on. Histogrammeja ja taajuustaulua käytetään parhaiten ryhmitellyn datan näyttämiseen ja tulkintaan. Tässä on esimerkki
Tietojen ryhmittelyllä on seuraavat edut:
Ryhmittämätön tieto, jota kutsutaan myös raakatiedoksi, on tietoa, jota ei ole sijoitettu mihinkään ryhmään tai luokkaan keräyksen jälkeen. Tiedot luokitellaan numeroiksi tai ominaisuuksiksi, joten tiedot, joita ei ole sijoitettu mihinkään luokkaan, on ryhmitetty. Esimerkiksi suorittamalla väestölaskentaa ja haluat analysoida, kuinka monta yli 45-vuotiasta naista on tietyllä alueella, sinun on ensin tiedettävä, kuinka monta ihmistä asuu tällä alueella.
Alueella asuvien henkilöiden lukumäärä on ryhmittelemätöntä tai raakatietoa, koska mitään ei ole luokiteltu. Siksi voimme päätellä, että ryhmittelemätön tieto on tietoa, jota käytetään näytteen tai otoksen yksittäisen jäsenen tietojen näyttämiseen.
Joitakin ryhmittelemättömän tiedon etuja ovat seuraavat;
Ryhmitetty tieto on tietoa, joka on järjestetty luokkiin sen analysoinnin jälkeen. Esimerkkeinä voidaan mainita, kuinka monta sadekauden aikana kerättyä maissipussia oli huonoa. Toisaalta ryhmittelemätön data on tietoa, joka ei kuulu mihinkään ryhmään. Se on edelleen raakatietoja.
Tietoja kerättäessä ryhmitetyt tiedot ovat parempia, koska tiedot ovat edelleen alkuperäisessä muodossaan. Sitä ei ole muutettu luokituksella tai alajaolla. Analysoitaessa sitä ja kuvaajia piirtämällä on kuitenkin ensisijainen ryhmitetty data, koska sen tulkinta on helppoa.
Ryhmitetyn ja ryhmittelemättömän tiedon keskiarvoja laskettaessa tulee esiin variaatio. Ryhmitetyn datan keskiarvo on edullinen, koska se on tarkempi verrattuna ryhmittelemättömän tiedon keskiarvoon. Ryhmittelemättömän tiedon keskiarvo voi johtaa mediaanin väärään käsittelyyn, joten sitä pidetään useimmissa tapauksissa tehottomana.
Taajuustaulukoita käytetään ryhmitetyn datan näyttämiseen, kun taas ryhmittelemättömien tietojen tapauksessa tiedot näyttävät suurelta numerolistalta. Tämä johtuu siitä, että tiedot ovat edelleen raakoja.
Ryhmitetty data on dataa, joka on järjestetty taajuusjakaumaan, kun taas ryhmittelemättömään tietoon ei ole tehty mitään yhteenvetoa.