På scb.se använder vi kakor (cookies) för att webbplatsen ska fungera på ett bra sätt för dig. Genom att surfa vidare godkänner du att vi använder kakor. Vad är kakor?

Publicerad: 2012-05-24
Nr 2012:5

Författare

Martin Ribe

är metod­statistiker på SCB.

010-479 48 54

martin.ribe@scb.se

Statistikskolan:

Kontrollera för det som annars stör

Ofta vill man studera olika samband i statistiken. Det kan vara till exempel samband mellan bostads­orten och risken att vara arbets­lös, eller mellan yrke och sjuk­lighet. Då kan bilden lätt störas av att så mycket annat också inverkar. Det problemet hanteras effektivt med statistiska analys­metoder som ”kontrollerar för” eller ”konstant­håller” de faktorer som kan störa. På så sätt kan det intressanta sam­bandet renodlas.

Tematisk karta över Sverige som visar befolkningstäthet i regioner

Ta som exempel att man vill visa hur risken att vara arbetslös skiljer sig mellan olika delar av landet.

I den vanliga statistikredovisningen kan man läsa ut hur många procent av arbetskraften som är arbetslösa i olika regioner. De talen är helt naturligt påverkade av att arbetskraften i olika regioner kan ha olika sammansättning i fråga om ålder, utbildning och annat.

Men den intressanta frågan kan vara en annan: Hur stora skillnader i arbetslösheten mellan olika regioner kan bero på skillnader i klimatet på arbetsmarknaden? Man vill då jämföra olika regioner under lika förutsättningar i fråga om personernas ålder, utbildning och sådant. Det perspektivet kan också vara naturligt sett från en individ med givna förutsättningar.

En tanke som kan ligga nära till är att ta fram mera detaljerade statistiktabeller med långtgående uppdelningar. Jämförelsen av arbetslösheten mellan regioner skulle man då kunna göra separat för olika kombinationer av ålder, utbildning med mera.

Detta är i sig inte någon så dålig idé, men i praktiken kan det bli svårhanterligt. Det blir svårt att få effektiv överblick och urskilja de övergripande dragen. Det kan bli bara enstaka personer på många ställen i de stora tabellerna, och på de ställena ser man mest bara slumpens verkan.

Modellbaserad analys är i regel ett effektivare sätt att hantera problemet. Idén är här att man ställer upp en matematisk modell för hur risken att vara arbetslös beror av olika faktorer. Med risken att vara arbetslös menar vi då sannolikheten för att en person i arbetskraften är arbetslös. De faktorer som risken beror av i modellen skulle kunna vara:

  • Ålder
  • Kön
  • Sammanboende
  • Region (bostadsort)
  • Födelseland
  • Utbildning.

De här faktorerna kallar vi förklarande variabler, eller oberoende variabler i analysmodellen. Egenskapen att vara arbetslös är på motsvarande sätt utfallsvariabeln, eller den beroende variabeln. Modellen anger hur vi antar att utfallsvariabeln beror matematiskt av de förklarande variablerna. Modellen rymmer också en inverkan av slumpmässiga tillfälligheter.

Resultaten som vi får fram ur analysen är tal som visar hur starkt utfallsvariabeln beror av de olika förklarande variablerna. Själva uträkningen utgår från modellen och görs med hjälp av statistisk analysprogramvara för dator.

Relativ risk är ett mått som resultaten kan uttryckas i. Relativa risken är här kvoten mellan risken att vara arbetslös i en region och risken att vara det i en annan. Om relativa risken är lika med 1 så betyder det alltså att risken att vara arbetslös är densamma i båda regionerna. Är den större eller mindre än 1, så betyder det överrisk respektive underrisk i den första regionen jämfört med den andra.

Det fina med den här analysen är att vi har kontrollerat för, konstanthållit, de övriga förklarande variablerna i modellen. Det betyder att relativa risken jämför de två regionerna som om de hade lika sammansätting i fråga om de övriga förklarande variablerna.

Analysen gör att resultaten kan tolkas mera meningsfullt. Resultaten visar renodlat vad just regionstillhörigheten betyder för arbetslösheten. Analysen har släckt ut störningarna av ovidkommande faktorer, att arbetskraften har olika sammansättning i de jämförda regionerna.

Oddskvot är ett alternativt mått som starkt liknar relativ risk. Ofta är det i form av oddskvoter resultaten av analysen presenteras. Även här tyder värden över respektive under 1 på överrisk respektive underrisk. Den exakta innebörden är dock aningen annorlunda. Se Lästips för mera förklaring.

Felmarginaler får man också ut. De ger en vink om osäkerheten i relativa risker och oddskvoter. Det handlar om den osäkerhet i siffrorna som kommer sig av slumpmässiga tillfälligheter, genom att observationsmaterialet är av begränsad storlek.

Idén att kontrollera för sådant som kan störa är mångsidigt användbar. En vanlig typ av tillämpning gäller risker för olika sjukdomar. I epidemiologiska studier vill man se hur risken att få, eller risken att ha, en viss sjukdom beror av exempelvis en viss företeelse i miljön.

I sådana studier behandlas normalt kvinnor och män var för sig. Åldern måste man här alltid kontrollera för, med tanke på att sjukligheten allmänt är starkt relaterad till åldern. Numera försöker man också kontrollera för om personen röker och annat i personens ”livsstil” med mera som kan inverka på hälsan. Med en modellbaserad analys klarar man att kontrollera för flera sådana faktorer på en gång. Man får då grepp på hur risken för den studerade sjukdomen är relaterad till just den studerade miljöfaktorn.

Att tänka på… Som alltid finns förstås en del att tänka på, även när man tar hjälp av modellbaserade analyser. Det finns en viss osäkerhet i att man kanske inte känner till allt man borde ha kontrollerat för. De datakällor som står till buds kanske inte innehåller alla variabler man skulle vilja kontrollera för.

Å andra sidan kan det finnas en motsatt fara, att man oriktigt råkar konstanthålla en variabel som inte är ovidkommande utan naturligt spelar med bakom och bygger upp det intressanta sambandet. Vidare utgår modellen från vissa antaganden som förenklar verkligheten, bland annat antaganden om hur de förklarande variablerna verkar tillsammans.

En analys som kontrollerar för störande faktorer kan alltså ge en riktigare bild av ett samband. När resultaten presenteras ska det anges tydligt vilka faktorer man har kontrollerat för, så att siffrorna och slutsatserna kan uppfattas rätt.

Etiketter