På scb.se använder vi kakor (cookies) för att webbplatsen ska fungera på ett bra sätt för dig. Genom att surfa vidare godkänner du att vi använder kakor. Vad är kakor?

Publicerad: 2012-05-24
Nr 2012:3

Författare

Martin Ribe

är metod­statistiker på SCB.

010-479 48 54

martin.ribe@scb.se

Statistikskolan:

Koll på risk för bias

En oönskad tendens till under- eller överskattning kallar man med ett engelskt ord ofta för bias. Olika risker för bias kan förekomma, och det gäller att ha koll på dessa risker i statistikproduktionen och även när man använder statistiken.

Närbild på hand som håller en cigarett vid munnen

Ta som exempel en statistik­siffra på hur många procent av den vuxna befolkningen som röker dagligen. Den finns i Statistik­databasen på SCB:s webbplats och kommer från under­sökningen av levnads­förhållanden (ULF). Den siffran är ganska tillförlitlig i stort sett, men noga taget berörs den dock av olika slags osäkerhet.

Ett slags osäkerhet i siffran är urvalsosäkerheten, som kommer sig av att man har frågat bara ett urval av personer och inte alla i befolkningen. Vidare inverkar också en bortfallsosäkerhet, genom att inte alla i urvalet svarade i under­sökningen utan det blev ett visst svarsbortfall. En ytterligare form av osäkerhet i siffran är vad vi kallar mätosäkerhet, och den innebär att de som svarade i under­sökningen kan ha tagit miste ibland och gett ett annat svar än det rätta.

De här osäkerhetskällorna ger två olika typer av osäkerhet i statistik­siffran. Den ena typen är slump­mässig osäkerhet, som inte drar åt något visst håll utan kan ge under­skattning eller över­skattning lite hipp som happ. Den andra typen däremot drar åt samma håll hela tiden, antingen under­skattning eller över­skattning genomgående på en viss statistik­siffra. Den typen av osäkerhet kallas bias.

Bias är ett engelskt ord men ganska behändigt också på svenska. Det över­sätts ibland med systematisk avvikelse eller skevhet, men det senare ordet kan vara lite otydligt och lätt förväxlas med annat.

Risker för bias kan finnas mer eller mindre i olika statistik­siffror, och i statistik­produktionen gäller det att minimera dessa risker. För många frågor i statistiska under­sökningar, även frågan om daglig rökning, har man troligen lyckats ganska bra med det. Men som oftast har man knappast något givet ”facit”.

Citat: Bias översätts ibland med systematisk avvikelse eller skevhet.

Urvalsosäkerheten som nämndes är rent slump­mässig och in­nehåller inte någon bias. Urvalsosäkerheten kan slå nedåt eller uppåt på siffran lite hur som helst, och i långa loppet blir det ungefär lika mycket nedåt som uppåt. Detta förutsätter att under­sökningen är statistiskt korrekt utförd med ett i princip slump­draget urval.

Annorlunda är det med frågor på webb­platser, där de som vill får svara och procent­tal visas på svars­alternativens andelar av svaren hittills. De procent­talen gäller bara för just gruppen av personer som har råkat gå in på webbplatsen, sett frågan och svarat på den.

Det kan möjligen vara frestande att ändå se dessa procent­siffror som i någon mån uttryck för folk i allmänhet. Men då måste man befara en selektionsbias, som man säger. För gruppen som svarade valde ut sig själv, och då kan det mycket väl tänkas dra åt ett visst håll i svaren. Det gör att siffrorna kanske stämmer dåligt på befolkningen som helhet.

Bortfallet i statistiska under­sökningar bidrar till både slump­mässig osäkerhet och risk för bias. Bortfallet minskar antalet svar, och det ökar på den slump­mässiga urvalsosäkerheten. Men värre är att bortfallet också ger en svårbedömd risk för bias. För de svar man får kanske drar åt ett visst håll i förhållande till vad man hade fått om alla i urvalet hade svarat.

Man kan till exempel inte utesluta att låginkomsttagare oftare än andra kan vara svåra få tag i, när man samlar in uppgifter till statistik om levnads­förhållanden. Det kan leda till att man ofta inte får svar från låg­inkomst­tagare och att man då riskerar att få över­skattning i indikatorer på materiell standard. Det är därför viktigt att förebygga biasrisken, genom att dels försöka få in svaren så fullständigt som möjligt, dels kompensera för den med olika metoder när man räknar fram statistiken.

Mätosäkerhet kan också uppträda både i form av slump­mässig osäkerhet och i form av bias. Här är det osäkerhet i de insamlade svaren som ligger bakom, genom till exempel att svarande ibland inte uppfattar frågan klart eller svarar utan att hinna tänka efter. Sådana effekter kan till stor del vara av slump­mässig karaktär och slå på måfå, men de kan även ha en del som drar genomgående nedåt eller uppåt och ger bias.

Viktiga förebyggande åtgärder är att se till att frågorna i under­sökningen är väl utformade och testade i förväg så att de kan uppfattas klart. Detta kan väntas minimera både slump­mässig mätosäkerhet och mätbias.

Att se en bias mera direkt kan vara möjligt när det finns någon alternativ datakälla att jämföra med. Ett exempel är statistik över hushållens utgifter för olika slags varor och tjänster, baserad på att ett urval av hushåll får föra kassabok över allt de köper under några veckor. Där kan man delvis jämföra resultaten med statistik över detalj­handelns försäljning.

Alkoholdrycker och tobaksvaror visar då ofta en markant lägre konsumtion enligt hushållens uppgifter än enligt handelns. Detta är en generell tendens som är känd från många länder. En förklaring verkar ganska tydligt vara att folk tenderar att inte rapportera alla sina inköp av dessa varor, vilket ger en mätbias nedåt. Detta är något man får ta hänsyn till när man läser statistiken.

Register­baserad statistik kan ha en form av mätbias genom att registrets definitioner och begrepp ofta inte är helt av­passade efter användningen till statistik. Information om sådant ska följa med statistiken, så att man kan läsa den rätt.

Andra exempel på bias i register­baserad statistik är under­skattningar i statistik över antalet brott och antalet olyckor av olika slag. Den kommer sig av att inte alla sådana händelser rapporteras och registreras, vilket ger under­täckning i registren och täcknings­osäkerhet i statistiken. Här kan man få mått på under­skattningen genom att jämföra med andra källor, såsom frågeunder­sökningar om offer för brott och olyckor.

Etiketter