Pidevad tunnused ja faktorid. Regressioonanalüüs.
Taolist tüüpi tunnuste analüüs on üks tuntumaid, seetõttu sagedamini tehtud ja tahetud. Kõik teavad joonist tüüpi-"täpid tähistamas vaatlusi ja trendijoon sinna peale joonistatud". Paraku on just selle analüüsi eeldused küllaltki ranged - tunnused peaksid olema normaaljaotusele lähedased. Jaotust saab parandada nii tunnust kui ka faktorit teisendades (enamkasutatud teisendused on logaritmimine ja ruutjuurimine), mis aitab muuta paremale poole "pika sabaga" tunnuseid sümmeetrilisemaks. Teisiti öeldes, kui meil on andmetes üksikuid suuri väärtusi, siis teisendamine aitab neid rohkem keskväärtusele lähendada ning seose testimine muutub korrektsemaks, eriti mis puudutab tulemuste üldistamist.
Regressioonanalüüs algabki tavaliselt tunnuse jaotuse uurimisega, vajadusel teisendamisega. Siis hinnatakse regressioonvõrrandi abil seos, kus ühe tunnuse väärtus on arvutatav teise kaudu. Seose tugevust saab hinnata kas korrelatsioonikordaja või determinatsioonikordaja abil. Kui andmed olid enne analüüsi teisendatud, siis tavaliselt on vajalik seos kirjutada välja nii, et kordajad on algskaalasse tagasi teisendatud.
Regressioonanalüüs on erijuht laiema statistilise arsenali - lineaarsed mudelid- hulgas.
Valim: peipsi_zpl.csv Peipsi järve klorofüll a ja üldfosfori andmed, kogutud augustikuus 19 aasta jooksul.
H0: seos vee klorofülli ja üldfosfori vahel puudub
H1: seos vee klorofülli ja üldfosfori vahel on oluline, üldfosfori kontsentratsioon tõuseb koos klorofülli väärtuste suurenemisega.
Lahendamise etapid:
1. andmete jaotuse vaatamine, hist(PTOT) . Kui jaotused on väga ebasümmeetrilised, siis tuleks teisendada.
Kui jaotuse kuju jääb ka pärast teisendamist väga ebasümmeetriliseks, ei ole regressioonanalüüs õige valik. Vaata lineaarsete mudelite kasutamise osa või mitteparameetrilisi teste.
2. Kui me tahame testida ainult seose tugevust , siis piisab korrelatsiooni arvutamisest ja testimisest. Võib proovida nii Pearsoni, Spearmani kui ka Kendalli korrelatsioone. Regressioonanalüüsi seisukohast on vajalik, et Pearsoni korrelatsioon on oluline.
Regressioonanalüüs algabki tavaliselt tunnuse jaotuse uurimisega, vajadusel teisendamisega. Siis hinnatakse regressioonvõrrandi abil seos, kus ühe tunnuse väärtus on arvutatav teise kaudu. Seose tugevust saab hinnata kas korrelatsioonikordaja või determinatsioonikordaja abil. Kui andmed olid enne analüüsi teisendatud, siis tavaliselt on vajalik seos kirjutada välja nii, et kordajad on algskaalasse tagasi teisendatud.
Regressioonanalüüs on erijuht laiema statistilise arsenali - lineaarsed mudelid- hulgas.
Valim: peipsi_zpl.csv Peipsi järve klorofüll a ja üldfosfori andmed, kogutud augustikuus 19 aasta jooksul.
H0: seos vee klorofülli ja üldfosfori vahel puudub
H1: seos vee klorofülli ja üldfosfori vahel on oluline, üldfosfori kontsentratsioon tõuseb koos klorofülli väärtuste suurenemisega.
Lahendamise etapid:
1. andmete jaotuse vaatamine, hist(PTOT) . Kui jaotused on väga ebasümmeetrilised, siis tuleks teisendada.
Kui jaotuse kuju jääb ka pärast teisendamist väga ebasümmeetriliseks, ei ole regressioonanalüüs õige valik. Vaata lineaarsete mudelite kasutamise osa või mitteparameetrilisi teste.
2. Kui me tahame testida ainult seose tugevust , siis piisab korrelatsiooni arvutamisest ja testimisest. Võib proovida nii Pearsoni, Spearmani kui ka Kendalli korrelatsioone. Regressioonanalüüsi seisukohast on vajalik, et Pearsoni korrelatsioon on oluline.
cor.test(PTOT,CHLAJH, method="pearson")
Pearson's product-moment correlation data: PTOT and CHLAJH t = 7.6665, df = 36, p-value = 4.475e-09 alternative hypothesis: true correlation is not equal to 0 95 percent confidence interval: 0.6252105 0.8845064 sample estimates: cor 0.7874973 summary(lm(PTOT~CHLAJH)) Residuals: Min 1Q Median 3Q Max -50.584 -15.844 -3.543 16.885 49.398 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 25.366 7.317 3.467 0.00138 ** CHLAJH 1.426 0.186 7.666 4.47e-09 *** Residual standard error: 22.84 on 36 degrees of freedom Multiple R-squared: 0.6202, Adjusted R-squared: 0.6096 F-statistic: 58.77 on 1 and 36 DF, p-value: 4.475e-09 Iseseisev töö! Kirjuta välja seos PTOT ja CHLAJH vahel, kasutades seosekordajaid. Tee joonis!
|
Korrelatsioon on oluline, positiivne ja tugev (0.79). Seost tunnuste vahel on mõttekas uurida. Test esitab üle alternatiivset hüpoteesi, kui sul endal meelest on läinud Siin on korrelatsioonikordaja Tellime regressioonmudeli hindamise Jääkide jaoks on parem teha histogramm Kordajad (ümardan siinkohal) . Vabaliige on 25 (fosfori hinnang, kui klorofüll on 0) tõus on 1.4 , mis erineb oluliselt nullist , st seda, et kui klorofüll suureneb ühe ühiku võrra, siis üldfosforile lisandub 1,4 ühikut. R-ruut ehk determminatsioonikorgaja 0.6 näitab, et klorofülli abil on meie andmete põhjal võimalik kirjeldada 60% fosfori hajuvusest |