Statistikk

Statistikk kan defineres som et verktøy som lar oss analysere kvantifiserbare data, altså tall

Statistikk kan for eksempel brukes til å evaluere markedsdata for en bedrift, lage oversiktlig helsestatistikk eller analysere resultater fra en spørreundersøkelse, samt i mange flere sammenhenger. Det første mange tenker når de hører dette er at man må være god i matematikk for å mestre statistikk. Det er nok en fordel, men på ingen måte et krav. Statistikk handler ikke bare om utregninger og formler, men er et verktøy som hjelper oss å navigere systematisk gjennom tallfestet informasjonen på leting etter mønster, sammenhenger, effekter og forskjeller. Her skal vi utforske noen grunnleggende prinsipper bak statistikk og gå gjennom noen sentrale begrep du trenger for å ta de første skrittene inn i statistikkens verden.

Hvorfor trenger vi statistikk?

Etter å ha gjennomført kvantitative spørreundersøkelser eller målinger og satt sammen i informasjonsrike datasett, finner studenter seg ofte i en situasjon hvor de ønsker å trekke konklusjoner basert på deskriptive analyser. Ta for eksempel en student som har målt trivsel blant elever i kroppsøvingsfaget. Etter å ha beregnet gjennomsnittsskåren fra 0 til 10 for to elevgrupper, A (5.5) og B (4.7), er det fristende å konkludere at elevgruppe A trives bedre enn gruppe B. Likevel står de overfor en utfordring – å avgjøre om denne tilsynelatende forskjellen er statistisk signifikant eller om den kan tilskrives tilfeldigheter i dataene.

Her blir statistikk løsningen. Å hevde at elevgruppe A trives bedre enn gruppe B krever en grundigere analyse. Ved å bruke enkle statistiske metoder kan vi undersøke om den observerte forskjellen sannsynligvis er reell eller om den kunne ha oppstått ved tilfeldighet. Å forstå betydningen av statistisk signifikans er essensielt for å gi mening til tallene vi arbeider med. En grundig statistisk analyse gir ikke bare et mer nyansert bilde av resultatene, men bidrar også til å styrke troverdigheten og validiteten av konklusjonene som trekkes. Uten statistiske analyser ville det være utfordrende å skille mellom ekte mønstre og tilfeldige variasjoner i data. Statistikk gir oss dermed verktøyene til å gjøre informerte beslutninger, teste hypoteser og bidra til objektivitet og nøyaktighet i forskning.

Statistiske begreper

ANOVA

ANOVA (analyse av varians) er en statistisk metode som brukes for å sammenligne gjennomsnittene av tre eller flere grupper (eller måletidspunkt) for å undersøke om det er minst én signifikant forskjell mellom gruppene. Den bryter ned variasjonen i dataene i komponenter som skyldes ulike kilder og sammenligner variansen mellom gruppene med variansen innen grupper. For å identifisere hvor de signifikante forskjellene ligger (mellom hvilke grupper eller måletidspunkt), er det vanlig å gå videre med post-hoc analyser.

Avhengige og uavhengige variabler

I en eksperimentell eller observasjonell studie er den uavhengige variabelen den som forskeren manipulerer eller fokuserer på, mens den avhengige variabelen er utfallet, effekten eller responsen som måles. Den avhengige variabelen antas å avhenge av eller bli påvirket av den uavhengige variabelen slik at en endring i X korrelerer med eller påvirker endringen i Y.

Deskriptiv statistikk

Deskriptiv statistikk involverer metoder for å organisere, oppsummere og presentere data gjennom tall, tabeller og grafiske representasjoner. Dette inkluderer beregning av gjennomsnitt, standardavvik, median, modus, og grafiske fremstillinger som histogrammer og boksplott. Dette er den enkleste formen for analyser og gir oss bare beskrivende data som videre kan utforskes med mer avanserte tester. Du kan lese mer om deskriptiv statistikk her.

Effektstørrelse

Effektstørrelse er et mål på styrken av en effekt eller forskjell i en statistisk analyse, uavhengig av prøvestørrelsen. Det hjelper forskere å forstå den praktiske betydningen av studieresultater og er et nyttig tilskudd til p-verdier og relative endringer. Vanlige mål inkluderer Cohen's d og Hedge's g. Du finner mer informasjon og enkle kalkulatorer for disse på denne siden.

Gjennomsnitt

Gjennomsnittet, eller aritmetisk middel, er en måte å finne sentraltendensen i et datasett på. Det regnes ut ved å summere alle verdiene i datasettet og deretter dele summen på antall verdier. Gjennomsnittet brukes ofte for å representere den typiske verdien i en datagruppe og er et vanlig deskriptivt utfallsmål. Du kan lese mer om gjennomsnitt under Deskriptiv statistikk og regne ut gjennomsnitt og standardavvik av dine egne data på denne siden.

Kausalitet

Kausalitet beskriver et årsak-virkningsforhold der endringer i en uavhengig variabel (årsaken) direkte fører til endringer i en annen, avhengig variabel (virkningen). Å fastslå kausalitet krever streng metodologi, ofte gjennom eksperimentelle design, for å utelukke at observasjonene skyldes tilfeldigheter eller eksterne faktorer.

Korrelasjon

Korrelasjon måler styrken og retningen av en lineær relasjon mellom to kvantitative variabler. Korrelasjonskoeffisienten, ofte representert ved Pearson's r eller Spearman's rho, kan variere fra -1 til 1, hvor 1 indikerer perfekt positiv korrelasjon, -1 indikerer perfekt negativ korrelasjon, og 0 indikerer ingen lineær sammenheng. Det er viktig å huske at korrelasjon (sammenheng) ikke er det samme som kausalitet (årsak-virkning).

Median

Medianen er den midterste verdien i et datasett som er sortert i stigende eller synkende rekkefølge. Hvis datasettet har et partall av observasjoner, er medianen gjennomsnittet av de to midterste verdiene. Medianen brukes til å representere datasettets sentrale tendens, spesielt når dataene er skjevfordelte.

Modus

Modus er den verdien som forekommer hyppigst i et datasett. Et datasett kan ha én modus, flere modi (bimodal eller multimodal), eller ingen modus hvis alle verdier kun forekommer én gang. Modus brukes ofte i beskrivende statistikk for å identifisere den mest typiske verdien i datasettet.

Normalfordeling

Normalfordeling, også kjent som Gaussisk fordeling, er en symmetrisk, bjelleformet kurve der de fleste observasjoner klynger seg rundt et sentralt gjennomsnitt med verdier som avtar jevnt i begge retninger. Det høyeste punktet i kurven viser den mest vanlige verdien, med lavere punkter representerer verdier som forekommer sjeldnere. Normalfordelingen er grunnleggende i statistikk og brukes i mange statistiske tester.

P-verdi

P-verdien indikerer sannsynligheten (probability) for at utfallet av en statistisk test er tilfeldige. En lav p-verdi (vanligvis under 0.05) indikerer at det er mindre enn 5% sannsynlighet for at observasjonene er uforenlige med nullhypotesen, og dermed er resultatet statistisk signifikant.

Parametriske og ikke-parametriske tester

Parametriske tester antar at dataene følger en bestemt fordeling, vanligvis normalfordelingen, og bruker parametere som gjennomsnitt og standardavvik. De krever altså et normalfordelt datasett for å fungere optimalt. Ikke-parametriske tester krever ikke slike antagelser og er nyttige når fordelingsantagelsene ikke er oppfylt.

Post-hoc tester

I en eksperimentell eller observasjonell studie er den uavhengige variabelen den som forskeren manipulerer, mens den avhengige variabelen er utfallet eller responsen som måles. Den avhengige variabelen antas å avhenge av eller bli påvirket av den uavhengige variabelen.

Poweranalyser

Målet med a-priori (før) poweranalyser er å avgjøre utvalgsstørrelsen som er nødvendig for å kunne identifisere en gitt effekt ved et ønsket nivå av statistisk power. Definisjonen av en meningsfull effektstørrelse kan være forskjellig mellom fagfelt og emner. Derfor benytter man ofte tidligere rapporterte effektstørrelser i powerutregningen slik at man forholder seg til realistiske utfall. Desto svakere effekter man forventer å finne, jo flere deltakere vil man trenge for å kunne identifisere effektene. I motsetning vil en forventning om store endringer eller forskjeller gjøre at det kreves færre deltakere for å kunne finne effektene. Om du har behov for å gjøre en poweranalyse kan du benytte våre forenklede modeller under kalkulatorer.

Regresjon

Regresjonsanalyse er en statistisk metode som brukes for å modellere relasjonen mellom en avhengig variabel og en eller flere uavhengige variabler. Målet er å forutsi verdien av den avhengige variabelen basert på verdiene av de uavhengige variablene. Med andre ord; hvor mye endrer y seg for hver enhet av endring i x. Lineær regresjon, hvor relasjonen antas å være lineær, er den mest grunnleggende formen for regresjonsanalyse.

Standardavvik

Standardavviket måler spredningen av verdier i et datasett rundt gjennomsnittet og forteller oss hvor mye dataene varierer fra gjennomsnittet. Et lavt standardavvik indikerer at datapunktene ligger nær gjennomsnittet, mens et høyt standardavvik indikerer større variasjon. Standardavviket regnes ut ved å finne kvadratroten av variansen. Standardavvik oppgis som regel etter gjennomsnittet på denne måten: gjennomsnitt ± standardavvik (f.eks. 15.3 ± 2.4). Du kan lese mer om standardavvik under Deskriptiv statistikk og regne ut gjennomsnitt og standardavvik av dine egne data på denne siden.

Standardfeil

Standardfeilen måler hvor nøyaktig gjennomsnittet av et utvalg estimerer populasjonsgjennomsnittet. Den gir et estimat på spredningen av prøvegjennomsnittet rundt populasjonsgjennomsnittet og regnes ut ved å dele standardavviket på kvadratroten av utvalgsstørrelsen.

Statistisk power

Statistisk power er sannsynligheten for at en test korrekt avviser nullhypotesen når den fatktisk er falsk. Høy statistisk power reduserer risikoen for type II-feil (feilaktig aksept av nullhypotesen). Power påvirkes av effektstørrelse, utvalgsstørrelse og signifikansnivå.

T-test

En t-test er en statistisk test som brukes for å sammenligne gjennomsnittene av to grupper (eller en gruppes gjennomsnitt på to ulike tidspunkt) og avgjøre om de er statistisk signifikant forskjellige fra hverandre. T-testen regner ut en t-verdi verdi som deretter kan brukes til å finne en p-verdi. T-testen er nyttig for å teste hypoteser om små prøvestørrelser eller når populasjonsvariansen er ukjent. T-testen kan bare sammenligne to gjennomsnitt, så hvis man sammenligner 3 eller flere grupper (eller måletidspunkt) bør man bruke andre tester (som for eksempel ANOVA).

Type I- og type II-feil

Type I-feil er en feilaktig forkastelse av en sann nullhypotese, mens type II-feil er å la være å forkaste en usann nullhypotese. Med andre ord; type I-feil kan være at man finner en sammenhengs som egentlig ikke eksisterer (falsk positiv), mens en type 2-feil er at man ikke finner en sammenheng selv om den i realiteten eksisterer (falsk negativ).

Varians

Varians er et statistisk mål på spredningen mellom tall i et datasett. Den måler hvor langt hvert nummer er fra gjennomsnittet. Man vil ofte se varians henvist til som "σ2".

Z-Score

Z-score, eller standard score, er et mål på hvor mange standardavvik en observasjon ligger fra gjennomsnittet. Den brukes til å standardisere scores fra forskjellige distribusjoner og til å identifisere og sammenligne individuelle scores innenfor en fordeling.

Datatyper

Forståelse av grunnleggende datatyper er essensielt for å velge riktig statistisk analysemetode. Valget av analyser avhenger i stor grad av typen data du arbeider med, da ulike tester og analyser er utformet for å håndtere spesifikke datatyper. Ved å identifisere datatypen din nøye, kan du sikre at du trekker gyldige og pålitelige konklusjoner fra dine analyser.

Nominelle (kategoriske) data

Nominelle data, også kjent som kategoriske data, representerer kategorier eller grupper som ikke har noen naturlig elelr hierarkisk rekkefølge. Denne datatypen brukes til å beskrive kvalitative attributter eller egenskaper som ikke kan måles, men som kan identifiseres og kategoriseres. Eksempler på nominelle data kan være øyenfarge (blå, grønn, brun), kjønn (mann, kvinne), eller type bosted (leilighet, rekkehus, enebolig). Det viktige å merke seg med nominelle data er at selv om vi kan telle antall observasjoner i hver kategori, kan vi ikke matematisk rangere eller sortere disse kategoriene på en meningsfull måte. Med andre ord, brune øyne er ikke bedre eller verre enn blå øyne, men vi kan bruke informasjonen til å kategorisere dataene våre.

Ordinale data

Ordinale data er en type kategoriske data som har en naturlig rekkefølge eller rangering, men hvor avstanden mellom kategoriene ikke nødvendigvis er kjent eller meningsfull. Denne datatypen brukes ofte til å rangere opplevelser eller vurderinger, som for eksempel tilfredshet (veldig misfornøyd, misfornøyd, nøytral, fornøyd, veldig fornøyd) eller utdanningsnivå (grunnskole, videregående skole, bachelorgrad, mastergrad, doktorgrad). Her vil videregående skole være "bedre" enn grunnskole, men intervallene vil variere da grunnskole varer i 10 år og videregående i bare 3. Et annet eksempel kan være resultatene av et løp, hvor plasseringen (1., 2., 3., osv.) indikerer rekkefølgen deltakerne fullførte, men ikke hvor mye raskere en løper var enn de andre.

Kontinuerlige data (scale)

Kontinuerlige data, eller intervall- og forholdstall-data, refererer til data som kan måles på en kontinuerlig skala og hvor både rekkefølgen og den eksakte verdien er meningsfull. Disse dataene kan deles inn i mindre deler og fortsatt ha en mening, noe som tillater mer detaljerte og nyanserte analyser. Eksempler på kontinuerlige data inkluderer høyde, vekt, temperatur, og tid. For eksempel kan en persons høyde måles i meter med flere desimaler (f.eks., 1,75 m), eller tiden det tar å fullføre en oppgave kan måles i timer, minutter, og sekunder. Det som skiller kontinuerlige data fra andre typer data, er muligheten til å utføre matematiske operasjoner som addisjon og subtraksjon, samt å beregne gjennomsnitt og standardavvik.

Stien, N. (2024, 14. februar). Statistikk. Metodeguiden. https://www.metodeguiden.xyz/statistikk.

Page updated

Google Sites

Report abuse

Statistikk

Hvorfor trenger vi statistikk?

Statistiske begreper

Datatyper

ExCel

SPSS

Maler