På scb.se använder vi kakor (cookies) för att webbplatsen ska fungera på ett bra sätt för dig. Genom att surfa vidare godkänner du att vi använder kakor. Vad är kakor?

Publicerad: 2012-05-24
Nr 2012:1

Författare

Martin Ribe

är metod­statistiker på SCB.

010-479 48 54

martin.ribe@scb.se

Statistikskolan:

”Totalfelet” – ett önskemått på osäkerhet

Hur mycket är en statistikuppgift påverkad av olika slags osäker­het till­sammans? Det är ytterst vad man skulle vilja veta om osäker­heten när man ska använda statistiken. En bestämd siffra på detta går ganska sällan att ge, men det kan vara bra att veta vad man skulle vilja veta.

Vita pusselbitar huller om buller med citatet "Detta total­fel går naturligt­vis inte att räkna ut praktiskt, eftersom man inte har någon ideal under­sökning att jämföra med."

Osäkerheten i en statistiksiffra består av olika pussel­bitar. Låt oss börja med lite om några av de viktigaste bitarna, innan vi till slut kan försöka pussla ihop helheten.

En pusselbit är urvals­osäkerheten, som inverkar när statistiken bygger på ett urval. Den delen är slump­mässig och kommer sig av att statistiken är grundad på svar från ett slumpat urval och inte från hela befolk­ningen.

En annan pusselbit är mätosäkerheten, som beror på osäkerhet i de svar som upp­gifts­lämnarna ger. En ytterligare bit är bort­falls­­osäker­heten, genom att man inte får svar från alla som man frågar i under­sökningen.

Slump och bias

Två typer av osäkerhet talade vi om i förra avsnittet av Statistik­skolan, nummer 1/2012. Den ena typen är slump­mässig osäkerhet och den andra är bias, eller syste­matisk avvikelse. Den slump­mässiga osäker­heten slår uppåt eller nedåt hur som helst. Till biasen däremot bidrar sådant som går åt samma håll hela tiden, under­skatt­ning eller över­skatt­ning genom­gående.

Ta som exempel en statistiksiffra på hur stora utgifter för livs­medel som samman­boende med två barn har, i kronor per hushåll och år. Sådana upp­gifter finns i statistik över Hushållens utgifter (HUT), i Statistik­data­basen på SCB:s webbplats. Under­laget samlas in genom att hushållen för kassa­bok över sina utgifter under en mät­period på två veckor eller så. Där inverkar osäkerhet av flera slag, såsom urvals­osäker­het, mät­osäker­het och bort­falls­osäker­het.

Mätosäkerheten kan ha både en slumpmässig del och en del som bias. I exemplet med livs­medels­utgifter finns mät­osäker­het genom att upp­gifts­lämnarna kan ha svårt att vara full­komligt noggranna i noter­ingarna av in­köpen. Detta kan delvis slå slump­mässigt. Osäkerhet som drar åt ett visst håll kan till exempel bestå i att ett eller annat kiosk­­in­köp glöms bort.

Felmarginalens budskap

Felmarginaler eller osäkerhetstal finns som regel siffror på i statistik som bygger på urval. Fel­margi­nalen syftar främst till att visa urvals­osäker­heten, men i praktiken täcker den mera. För den innehåller normalt all den slump­mässiga osäker­heten. Det kan vara bra att komma ihåg.

Felmarginalen innehåller alltså även den slump­mässiga delen av mät­osäker­heten. Vidare ingår en slump­mässig del av osäker­heten i kodningen, när man klassi­ficerar svaren om till exempel vilka varor som har köpts.

För att få mått i siffror på osäkerheten är vi ett stycke på väg med fel­margi­nalen, som visar den slump­mässiga typen av osäker­het. Värre är det med den andra typen av osäker­het, nämligen biasen.

Biasen får man i regel inte mått på, i löpande statistiska under­sökningar. På sätt och vis ligger det i sakens natur att det är så. För om man hade känt till säkert hur stor biasen är och åt vilket håll den går, så kunde man ha räknat bort den från statistik­resultaten.

Siffror på en bias

Att skatta mätbiasen finns det ändå vissa möjligheter till med särskilda studier. Ett sätt är att åter­komma till upp­gifts­lämnarna någon vecka eller så efter att de svarade, och då ställer man samma frågor en gång till.

Om då en upp­giftslämnare ger samma svar båda gångerna på en fråga, så anser man att svaret är ”sant” och visar det verkliga förhåll­andet. Om däremot­ svaret inte blir det­samma båda gångerna, så frågar man en tredje gång och försöker reda ut det sanna svaret. Så får man för varje svarande ett svar som kan anses vara sant. Detta betyder sant i en teknisk mening, att man har blivit så säker på svaret som det går med en måttlig arbets­insats.

Sedan kan man räkna statistik på två sätt parallellt, nämligen dels med de först insamlade svaren, dels med de sanna svaren. Skill­naden mellan de två resultaten blir ett skattat mått på mät­biasen. Den här metoden är dyr och besvärar upp­gifts­lämnarna genom den dubbla insamlingen, så därför används den ganska begränsat.

Flerindikatormodeller är en annan ansats att komma åt mät­osäker­heten och mät­biasen. Ta som exempel en undersökning med ett flertal frågor om arbetsmiljön. Med en analys­modell kan man räkna fram mått på ett mindre antal under­liggande faktorer om arbets­miljön, rensat från mät­osäker­heten genom att svaren på liknande frågor utnyttjas till­sammans i beräk­ningen.

Vad är då totalfelet?

Osäkerheten totalt i en statistiksiffra, vad skulle man mena med det? Total­felet är ett begrepp som avser att fånga detta. Det är i regel inget som går att räkna ut i siffror, men begreppet är ändå nyttigt som idé.

Något man kan tänka sig teoretiskt men inte göra är en ideal statistisk under­sökning. Det skulle vara en under­sökning som är perfekt planerad och fungerar utan några osäker­hets­moment, helt enligt planen. Där skulle man fråga alla som unders­ökningen avser, man skulle få svar från alla, och de svarande skulle fatta frågorna precis så som är meningen.

Totalfelet i en statistiksiffra kan man då upp­fatta som skillnaden mellan den siffran och den mot­svarande siffran från en sådan här ideal under­sökning. Detta total­fel går naturligt­vis inte att räkna ut praktiskt, eftersom man inte har någon ideal under­sökning att jämföra med.

Medelkvadratavvikelsen är däremot något man ibland kan skatta i siffror, om man har lyckats få tag i siffror på biasen genom särskilda mätningar. Medel­kvadrat­avvik­elsen samman­fattar mått på den slump­mässiga osäker­heten och på biasen.

Ett intressant tal är kvadrat­roten ur medel­kvadrat­avvik­elsen, för det talet ger ett mått på hur stort total­felet kan väntas vara. Där ska i princip all osäkerhet ingå, både slump­mässig och ­systematisk (bias).

Mera regelmässigt i statistik­presentationen går detta mått på osäker­heten inte att redovisa, för då skulle man behöva använda mått på biasen som oftast saknas. Det är ändå bra att tänka på att fel­margi­nal­erna som redovisas inte fångar all osäker­het.

Etiketter