Korrelasjon er et statistisk mål som beskriver retningen og styrken på forholdet mellom to variabler
Når vi tester for korrelasjon, undersøker vi hvordan en variabel beveger seg i forhold til en annen - om de beveger seg sammen i samme retning, motsatt retning, eller om det ikke er noe tydelig mønster i det hele tatt. Kjernen i korrelasjonsanalyser er konseptet om samvarians som måler hvordan to variabler varierer sammen. Hvis en økning i den ene variabelen systematisk sammenfaller med en økning i den andre, sier vi at det er en positiv samvarians. På samme måte, hvis en økning i den ene variabelen faller sammen med en nedgang i den andre, er samvariansen negativ.
Både kovarians og korrelasjon er mål som brukes for å forstå forholdet og avhengigheten mellom to variabler. Kovarians gir en indikasjon på retningen til det lineære forholdet mellom variablene, men sier ikke noe om styrken av dette forholdet. Korrelasjon, derimot, måler både styrken og retningen av det lineære forholdet mellom to variabler. En viktig forskjell mellom disse to målene er at korrelasjonsverdier er standardiserte, noe som gjør det enklere å forstå og sammenligne styrken av forholdet mellom ulike variabelpar. I motsetning er ikke kovariansverdier standardiserte, noe som kan gjøre dem vanskeligere å tolke direkte, spesielt når man sammenligner forholdet mellom ulike datasett.
Det finnes flere typer korrelasjonsanalyser, og valget av metode avhenger ofte av datatypen og fordelingen
Pearsons r er den mest kjente metoden og brukes for å måle styrken og retningen av den lineære forholdet mellom to kontinuerlige variabler (les mer om datatyper her). Pearsons korrelasjonskoeffisient, r, varierer mellom -1 og 1, der -1 indikerer en perfekt negativ lineær korrelasjon, 0 ingen korrelasjon, og 1 en perfekt positiv lineær korrelasjon.
Spearmans rho er en ikke-parametrisk test som brukes når minst en av variablene er nominal eller ordinal, eller når forutsetningene for Pearsons korrelasjon ikke er oppfylt (normalfordeling). Denne metoden vurderer hvor godt forholdet mellom to variabler kan beskrives ved en monoton funksjon.
Kendalls tau er en annen ikke-parametrisk metode for å måle styrken og retningen av sammenhengen mellom to variabler som er spesielt nyttig når datasettet er lite.
Vurdering av korrelasjonsstyrken gjøres etter at man har gjort analysene. Denne rapporterer man for å fortelle leseren hvor sterk sammenheng det er mellom variablene du har analyser. Styrken av en korrelasjon vurderes som regel ved å se på korrelasjonskoeffisientens absoluttverdi. Det finnes ulike anbefalinger for forskjellige fagfelt, men en generell anbefaling kan være å klassifisere r-verdier under 0.3 som svak korrelasjon, 0.31-0.70 som moderat korrelasjon, og over 0.71 som sterk korrelasjon. På denne siden kan du legge inn dine egne data for å lage en visuell fremstilling av hvordan to variabler korrelerer i en scatter plot.
Det er viktig å merke seg at selv en sterk korrelasjon ikke indikerer en årsakssammenheng. To variabler kan korrelere på grunn av tilfeldigheter, en tredje underliggende variabel (konfunderende faktor), eller en direkte årsakssammenheng. For å identifisere årsakssammenhenger (kausale forhold) trenger man eksperimentelle design og analyser som direkte viser at én variabel påvirker en eventuell endring i en annen.
Korrelasjonsanalyse er et viktig verktøy for statistiske undersøkeler og hypotesetesting i mange fagfelt, fra økonomi og medisin til samfunnsvitenskap. Det hjelper forskere å identifisere nye trender, forstå variablers innbyrdes forhold, og legge grunnlaget for videre analyser, som for eksempel regresjonsanalyser. Når man utfører korrelasjonsanalyser er det viktig å være oppmerksom på dataenes natur, potensielle skjevheter, og begrensningene ved korrelasjonskoeffisienter. En grundig forståelse av disse konseptene sikrer at analyseresultatene er pålitelige og nyttige for videre forskning.