7 Todennäköisyysjakaumat R:ssä
Monille yleisimmistä tilastollisista jakaumista eli todennäköisyysjakaumista on valmiita funktiota R:ssä. Funktioita on neljää eri tyyppiä, jotka merkitään funktion nimen ensimmäisellä kirjaimella.
- d: Tiheysfunktio: mikä on tiheysfunktion arvo pisteessä \(x\)?
- p: Kertymäfunktio: millä todennäköisyydellä jakaumasta poimittu arvo on pienempi/suurempi kuin \(q\)?
- q: Käänteinen kertymäfunktio (eli kvantiilifunktio): mille arvolle kertymäfunktio palauttaa todennäköisyyden \(p\)?
- r: satunnaislukugeneraattori: arvo eli simuloi satunnaisia havaintoja jakaumasta.
Alla ovat kuvaajat ensimmäisestä kolmesta funktiosta standardinormaalijakaumalle (pääte norm
):
7.1 Esimerkki: normaalijakauma
Otetaan muutama käytännön esimerkki. Oletetaan, että suomalaisten miesten suolan saanti on normaalijakautunut odotusarvolla 10 grammaa päivässä ja keskihajonta on 4 grammaa päivässä (odotusarvo on totta, keskihajonta allekirjoittaneen hihasta). Piirretään ensin kuva jakaumasta välillä \([0, 20]\) grammaa päivässä. Jakauman muoto saadaan funktiolla dnorm
, eli yllä olevan ohjeen mukaan d-alkuinen funktio antaa tiheysfunktion, ja norm-pääte viittaa normaalijakaumaan. Normaalijakauman funktiolle tulee kertoa jakauman odotusarvo (mean
) ja keskihajonta (sd
).
# Sequential vector of salt consumption
<- seq(0, 20, by = 0.1)
salt # Density function
<- dnorm(salt, mean = 10, sd = 4)
density # Line plot
plot(salt, density, type = "l",
xlab = "Suolan saanti", ylab = "Tiheysfunktio",
main = "Suomalaisten miesten suolan saanti")
Aikuisten saantisuositus on enintään 5 grammaa suolaa päivässä. Kuinka moni suomalainen mies syö tämän jakauman mukaan sopivasti suolaa? Vastaus saadaan kertymäfunktiosta (\(P(X \leq 5)\)) pnorm
-funktion avulla.
pnorm(5, mean = 10, sd = 4)
## [1] 0.1056498
Tämän jakauman mukaan vain noin 11 % suomalaisista miehistä syö suolaa sopivasti!
Suomalaisten naiset syövät keskimäärin 7 grammaa suolaa päivässä. Kuinka moni mies syö tätä enemmän suolaa? pnorm
antaa oletuksena arvon \(P(X \leq 7)\). Nyt halutaan kuitenkin tietää \(P(X > 7)\), joka saadaan asettamalla lower.tail = FALSE
:
pnorm(7, mean = 10, sd = 4, lower.tail = FALSE)
## [1] 0.7733726
Noin 77 % miehistä syö suolaa keskimääräistä naista enemmän.
Entä jos halutaan tietää, kuinka paljon suolaa eniten syövä 10 % vähintään saa? Tähän voidaan vastata funktiolla qnorm
, joka on jakauman käänteinen kertymäfunktio, eli funktion pnorm
käänteisfunktio. Samoin kuin pnorm
, qnorm
-funktion oletus on, että todennäköisyydet lasketaan jakauman vasemmasta hännästä alkaen. Vastaus tähän kysymykseen selviää siis näillä kahdella tavalla:
qnorm(0.1, mean = 10, sd = 4, lower.tail = FALSE)
## [1] 15.12621
# OR
qnorm(0.9, mean = 10, sd = 4)
## [1] 15.12621
Eli tämän jakauman mukaan eniten suolaa saava 10 % miehistä syö yli kolminkertaisen määrän suolaa suositukseen verrattuna.