Tilastotietojen kerääminen ja laskeminen keskiarvon hankkimiseksi on usein pitkä ja työläs prosessi. T-testi ja yksisuuntainen varianssianalyysi (ANOVA) ovat kaksi yleisintä testiä, joita käytetään tähän tarkoitukseen.
T-testi on tilastollinen hypoteesitesti, jossa testitilasto seuraa opiskelijan t-jakaumaa, jos nollahypoteesi tukee. Tätä testiä käytetään, kun testitilastot seuraavat normaalia jakaumaa ja skaalaustermin arvo testitilastossa tiedetään. Jos skaalaustermi on tuntematon, se korvataan sitten käytettävissä oleviin tietoihin perustuvalla arviolla. Testitilastot seuraavat opiskelijan t-jakaumaa.
William Sealy Gosset esitteli t-tilastotiedot vuonna 1908. Gosset oli kemisti Guinnessin panimolle Dublinissa, Irlannissa. Guinnessin panimon toimintaperiaatteena oli rekrytoida parhaat tutkinnon suorittaneet Oxfordista ja Cambridgestä valitsemalla niistä, jotka voisivat tarjota biokemian ja tilastojen sovelluksia yrityksen vakiintuneisiin teollisiin prosesseihin. William Sealy Gosset oli sellainen valmistunut. Prosessissa William Sealy Gosset suunnitteli t-testin, joka oli alun perin suunniteltu tapaksi seurata paksun (panimon tuottama tumma olut) laatua kustannustehokkaalla tavalla. Gosset julkaisi testin kynänimellä 'Opiskelija' Biometrikassa, noin vuonna 1908. Syynä kynän nimeen oli Guinnessin vaatimus, koska yritys halusi pitää politiikkansa tilastojen hyödyntämisessä osana heidän liikesalaisuuksiaan..
T-testitilastot seuraavat yleensä muotoa T = Z / s, missä Z ja s ovat datan funktiot. Z-muuttuja on suunniteltu olemaan herkkä vaihtoehtoiselle hypoteesille; käytännössä Z-muuttujan suuruus on suurempi, kun vaihtoehtoinen hypoteesi on totta. Sillä välin 's' on skaalausparametri, joka mahdollistaa T: n jakauman määrittämisen. T-testin taustalla olevat oletukset ovat seuraavat: a) Z noudattaa normaalia normaalijakaumaa nollahypoteesin alla; b) ps2 seuraa Ï ‡ 2-jakaumaa p vapausasteella nollahypoteesin alla (missä p on positiivinen vakio); ja c) Z-arvo ja s-arvo ovat riippumattomia. Tietyn tyyppisessä t-testissä nämä olosuhteet ovat tutkittavan populaation seurauksia, samoin kuin tapa, jolla tiedoista otetaan näytteitä.
Toisaalta varianssianalyysi (ANOVA) on kokoelma tilastollisia malleja. Vaikka tutkijat ja tilastotieteilijät ovat käyttäneet ANOVA-periaatteita jo pitkään, vasta vuonna 1918 Sir Ronald Fisher teki ehdotuksen varianssianalyysin virallistamisesta artikkelissa, jonka otsikko on "Mendelian periytymisen olettamus sukulaisten välillä". . Sittemmin ANOVA on laajentunut sen soveltamisalaan ja soveltamisalaan. ANOVA on oikeastaan harhaanjohtava, koska se ei johdu varianssien eroista, vaan pikemminkin ryhmien keskiarvojen eroista. Se sisältää niihin liittyvät menettelyt, joissa tietyssä muuttujassa havaittu varianssi jaetaan osiin, jotka johtuvat erilaisista variaatiolähteistä.
Pohjimmiltaan ANOVA tarjoaa tilastollisen testin sen määrittämiseksi, ovatko useiden ryhmien keskiarvot yhtä suuret, ja sen seurauksena yleistää t-testi useampaan kuin kahteen ryhmään. ANOVA voi olla hyödyllisempi kuin kahden näytteen t-testi, koska sillä on vähemmän mahdollisuuksia tehdä tyypin I virhe. Esimerkiksi, jos sinulla on useita kahden näytteen t-testejä, olisi suurempi mahdollisuus tehdä virhe kuin samojen mukana olevien muuttujien ANOVA keskiarvon saamiseksi. Malli on sama ja testitilastot ovat F-suhde. Yksinkertaisemmin sanottuna, t-testit ovat vain ANOVA: n erityistapaus: ANOVA: n tekemisellä on sama tulos monien t-testien kanssa. ANOVA-malleja on kolme luokkaa: a) Kiinteät vaikutukset sisältävät mallit, joissa oletetaan, että tiedot ovat peräisin normaaleista populaatioista ja eroavat vain toisistaan; b) Satunnaisvaikutusmallit, joissa oletetaan datan kuvaavan hierarkiaa erilaisille populaatioille, joiden eroja hierarkia rajoittaa; ja c) Sekoitetut mallit, joissa esiintyy sekä kiinteitä että satunnaisia vaikutuksia.