Før du bruker statistiske tester er det viktig å sjekke om dataene dine er normalfordelte da mange tester antar at data følger en normalfordeling
Mange statistiske metoder som korrelasjon, regresjon, t-tester og variansanalyse forutsetter at dataene følger en normalfordeling. Når vi har 100 eller flere observasjoner i et utvalg, er ikke brudd på antakelsen om normalfordeling et stort problem (Altman & Bland, 1995). Likevel bør vi alltid sjekke om antakelsen om normalfordeling holder uansett størrelsen på utvalget. Hvis kontinuerlige data følger en normalfordeling, presenterer vi ofte disse dataene med en gjennomsnittsverdi. Denne gjennomsnittsverdien brukes deretter til å sammenligne verdier mellom grupper for å beregne signifikansnivået (p-verdien). Hvis dataene våre ikke er normalfordelt, vil ikke gjennomsnittet være en representativ verdi for datasettet. Å velge feil representasjonsverdi for et datasett og deretter beregne signifikansnivået med denne verdien kan gi feil tolkning. Derfor tester vi først normaliteten til dataene og bestemmer deretter om gjennomsnittet er en passende representasjonsverdi for dataene eller ikke. Hvis det er passende, sammenlignes gjennomsnittene med parametriske tester; hvis ikke analyseres dataene med ikke-parametriske metoder (Mishra et al., 2019).
Figur 1: Normalfordelt data vist i histogram
Det finnes to hovedmåter å undersøke normalfordelingen i et datasett på; statistiske tester og visuelle metoder
Statistiske tester gir et objektivt svar på om dataene dine er normalfordelte. Likevel kan de noen ganger gi feil svar hvis du har veldig få eller veldig mange datapunkter. Vanlige tester inkluderer Shapiro-Wilk-testen for små datasett (under 50 deltakere eller datasett) og Kolmogorov-Smirnov-testen for større datasett (50 eller mer). Visuelle metoder som å se på grafene, ofte histogrammer eller Q-Q-plots, lar deg bruke din egen dømmekraft for å avgjøre normalfordeling. Dette krever noe erfaring og kjennskap til datasettet for å unngå feiltolkninger. Selv om det er viktig å sjekke for normalfordeling, er det verdt å merke seg at dette ikke alltid er nødvendig for alle typer analyser, og noen ganger kan din egen vurdering være nødvendig.
Hva betyr resultatene?
Hovedutfallet av en statistisk normalfordelingstest er en p-verdi. Dine data anses som normalfordelte dersom p-verdien er høyere enn 0.05. Dataene kan altså sies å ikke være signifikant u-normalfordelte. Histogram gir en visuell representasjon av dataenes fordeling. En klokkeformet kurve antyder normalfordeling, mens skjevheter mot en av sidene vil indikere ikke-normalfordelte data. Et eksempel på et normalfordelt datasett finner du i Figur 1 (Bhandari, 2023). Q-Q-Plot sammenligner dine data mot en perfekt normalfordeling. En rett linje indikerer normalfordelte data, som vist i Figur 2 (Mishra et al., 2019). Husk at ingen metode er perfekt og en kombinasjonen av flere tilnærmingene kan ofte gi den beste vurderingen av dine data.
Figur 2: Normalfordelt Q-Q-plot
Hvordan gjennomføre tester for normalfordeling i SPSS
Referanser:
Altman, D. G., & Bland, J. M. (1995). Statistics notes: the normal distribution. BMJ, 310(6975), s. 298.
Bhandari, P. (2023). Example of normal distribution. Scribbr. https://www.scribbr.co.uk/stats/the-normal-distribution/
Mishra, P., Pandey, C. M., Singh, U., Gupta, A., Sahu, C., Keshri, A. (2019). Descriptive statistics and normality tests for statistical data. Annals of cardiac anaesthesia, 22(1), s. 67–72.