På scb.se använder vi kakor (cookies) för att webbplatsen ska fungera på ett bra sätt för dig. Genom att surfa vidare godkänner du att vi använder kakor. Vad är kakor?

Publicerad: 2012-05-24
Nr 2012:4

Författare

Martin Ribe

är metod­statistiker på SCB.

010-479 48 54

martin.ribe@scb.se

Statistikskolan:

Koll på risken att röja

Statistik handlar om hur det förhåller sig för grupper i samhället. Den ska inte röja något om förhållanden för enskilda personer eller företag. När man framställer och presenterar statistik är det nödvändigt att hålla kontroll på risken att statistiken ändå kunde råka röja enskilda. För detta står olika metoder till buds.

En man kikar över kanten av ett stort papper

De som svarar på frågor i statistiska undersökningar måste kunna lita på att deras svar är skyddade och behandlas konfidentiellt. Detsamma gäller alla som lämnar uppgifter till statistik på något annat sätt, som via deklarationen för skatten. Uppgifterna skyddas med olika medel mot insyn, både genom sekretess­regler i lag och genom arbets­sätten för att ta fram statistik.

För statistikens kvalitet är det viktigt att uppgifts­lämnarna kan lita på att deras uppgifter skyddas och inte kan röjas. Det förtroendet är nämligen avgörande för att för att folk ska vilja delta i statistiska under­sökningar. Att de svarande känner förtroende kan också vara en förut­sättning för att svaren ska bli uppriktiga och göra statistiken rätt­visande.

I underlaget till statistiken ingår uppgifter som är direkt kopplade till enskilda. Uppgifter av det slaget på myndigheter med särskild statistik­verksamhet skyddar lagen med absolut sekretess. Det innebär att dessa uppgifter får statistik­producenten inte släppa ut, oavsett om det kan visas att några berörda skulle få nackdelar ifall så skedde. Undantag är att uppgifterna i vissa fall kan få lämnas till en forskare eller myndighet, där de också skyddas av sekretessen, och det måste då även stå klart att berörda inte kan lida skada.

En annan sak är risken att enskilda röjs i den statistik som publiceras eller levereras till kunder. Den frågan ska den här artikeln titta på.

Statistik handlar om grupper i samhället och förhållanden på kollektiv nivå. Resultaten presenteras i form av statistik­tabeller, diagram och ibland kartor. Statistiken handlar inte om enskilda personer eller företag.

Ändå skulle det potentiellt kunna finnas risk att statistiken oavsiktligt råkar röja information om enskilda personer eller företag. Statistiken kan vara mer eller mindre detaljerad. Särskilt i mera detaljerad statistik kan det potentiellt finnas risk att enskilda personer eller företag sticker ut och gör identifierbara avtryck i statistikens siffror. Sådant röjande gäller det att förebygga, för det är som sagt inte meningen och inte tillåtet att statistiken ska skvallra om enskilda.

Ett fiktivt exempel kan belysa problemet. Anta att det i en statistik­tabell skulle framgå att i staden X arbetar en man i åldern 40–49 år som läkare, och att han har stora underskotts­avdrag i deklarationen. Då skulle statistiken oacceptabelt ”hänga ut” den personen. Folk skulle kunna fatta vem han är och få del av känsliga fakta om hans privata ekonomi och handlande.

Detta exempel var något tillspetsat, men situationer åt det hållet är långt ifrån ovanliga. Ett enkelt exempel är en tabell över antal personer efter inkomst­skikt och ålders­grupp. Tabellen innehåller siffror på antalet personer som har olika kombinationer av inkomst och ålder. Då skulle det mycket väl kunna hända att det ibland blir bara en eller två personer bakom vissa av tabellens tal. För det är kanske bara en eller två som har vissa kombinationer av inkomst­skikt och ålders­grupp, till exempel hög inkomst och låg ålder.

Tabellen skulle alltså riskera att visa förhållanden för enskilda, och det är inte meningen. Det kan behöva förebyggas när det rör sig om mer eller mindre känsliga saker, som privat ekonomi.

Särskilt i regional statistik kan risken vara tydlig, om tabellen avser till exempel en enskild kommun. För då är det ett begränsat antal personer som ska fördelas över tabellen, och på sina håll kan det lätt bli få personer.

Inte bara personer behöver skyddas från att bli röjda. Företag skulle lätt kunna löpa risk att bli röjda i statistiken om inget gjordes åt saken. Detta gäller särskilt före­tag som är så stora att de dominerar i sin bransch. Till exempel, tänk tanken att göra ett prisindex för pris­utvecklingen på telefon­abonnemang med fast uppkoppling (inte mobil­telefon). Resultatet skulle till största del spegla det dominerande företaget i branschen.

Olika möjligheter står till buds för röjande­kontroll som vi säger. Röjande­kontrollen går ut på att förebygga risken att röja enskilda personer eller företag i statistiken. Att göra detta på något sätt är nödvändigt när man producerar och presenterar statistiken.

Ett sätt att förebygga röjande är att utelämna de tal som grundas på alltför få personer eller företag. Man bestämmer då en regel för vilka tal som ska få visas, till exempel att antalet personer som talet grundas på ska nå över en viss lägsta nivå. De siffror som inte uppfyller kravet för att få visas ersätter man i tabellen med prickar, som markerar att uppgifterna utelämnas av sekretes­skäl.

Ett annat sätt är att avrunda siffrorna. Till exempel, i en tabell över antal personer i olika grupper kan man redovisa femtal eller tiotal personer, istället för exakta antal. Då säger siffrorna inget direkt om enskilda. Alternativt kan man ändra siffrorna genom att avsiktligt lägga på små fel. Ett ytterligare sätt är att slå ihop små tal nära varandra och redovisa dem i klump.

Dessa metoder kan verka enkla att tillämpa, men det finns fallgropar. Alla sätten att skydda mot röjande har sina sidor. En del information i statistiken går onekligen förlorad i tabellen, när man utelämnar eller ändrar siffror. Därtill kommer att det är en ganska intrikat uppgift att utesluta riskerna för röjande.

Ett scenario man inte helt kan bortse från är att någon ”där ute” skulle försöka läsa ut information om enskilda ur statistik­tabellerna. Detta trots att tabellerna är skyddade. Någon med den ambitionen kunde försöka lägga pussel med de publicerade eller levererade tabellerna för att bryta skyddet. En utelämnad siffra kunde denne någon försöka räkna ut bakvägen, till exempel genom att dra bort andra tal från en total­summa.

När man gör tabellen och utelämnar siffror för att skydda dem, kan man därför behöva tänka ett steg längre. Man kan få vara beredd att utelämna ytterligare siffror, för att hindra åtminstone de mest uppenbara sätten att räkna ut de skyddade talen bakvägen.

Sedan en del år har det internationellt bedrivits forskning om röjande­risker och röjande­kontroll. En slutsats är att det i allmänhet inte är möjligt att fullkomligt säkert eliminera varje teoretisk risk för röjande.

Röjandeskyddet blir därför en avvägning. Det gäller å ena sidan att få tillräckligt säkert skydd mot röjande av enskilda, och å andra sidan att inte onödigtvis tumma på statistikens informations­värde.

För att säkra att man i statistik­produktionen uppfyller lagens krav behöver man göra vad som juridiskt kallas skadeprövning av statistik­tabellerna. Skade­prövningen består av två delar. Den ena delen är att bedöma risken att röjande ska ske och vilka uppgifter som röjs. Den andra delen är att bedöma vad röjande kan medföra i form av ”skada eller men” för berörda personer eller företag.

Uttrycket ”skada” betyder i det sammanhanget ekonomisk skada, till exempel genom att affärs­hemligheter på ett företag blir kända för konkurrenter. Uttrycket ”men” däremot syftar på att få olägenheter för sin person, som att bli utsatt för andras missaktning om personliga förhållanden blir kända.

Den praktiska hanteringen av röjande­kontrollen är datoriserad. Internationellt har man tagit fram särskilda program­varor för röjande­kontroll av statistik­tabeller. Programmen kan ställas in så att de behandlar tabellerna enligt kraven från en skade­prövning som man har gjort för tabell­materialet i fråga.

Etiketter