På scb.se använder vi kakor (cookies) för att webbplatsen ska fungera på ett bra sätt för dig. Genom att surfa vidare godkänner du att vi använder kakor. Vad är kakor?

Publicerad: 2017-03-06
Nr 2017:16

Författare

Lilli Japec

arbetar som vetenskaplig rådgivare på SCB.

010-479 47 94

lilli.japec@scb.se

Så kan vi göra statistik av big data

Big data, en stor mängd obehandlad data, sägs kunna ge oss mängder av värdefull information om vårt samhälle. Men vad är big data egentligen och vad har det för betydelse för statistikbyråer världen över? Välfärds statistikskola tittar närmare på begreppet.

Karta

Den vänstra kartan visar den totala grönytan i Lunds tätort. Genom att kombinera informationen från satellitbilder med register om fastighets­taxeringar kan vi visa den grönyta som är allmänt tillgänglig, den högra kartan.

Teknologiutvecklingen har i alla tider drivit på utvecklingen i samhället. För tio år sedan var smarta telefoner något nytt. Idag är de en del av vår vardag och många av oss är ständigt uppkopplade. Vi är dessutom omgivna av kameror och sensorer som övervakar och mäter det mesta, till exempel väder och trafik. Den nya teknologin genererar data automatiskt och med hög hastighet. Vi talar om stora mängder data, big data, där formatet varierar från bilder och filmer till värden av olika slag. Tillgången till data och kunskapen om hur man tar fram information ur den enorma datamängden ses som en stor möjlighet för att få mer och bättre kunskap om vårt samhälle. Den stora frågan som statistikbyråer världen över ställer sig just nu är – Hur kan big data användas i statistikproduktionen?

Det finns ingen exakt definition av big data mer än att det handlar om stora mängder data som genereras snabbt och kan ha olika format. UNECE, FN:s ekonomiska kommission för Europa, har identifierat tre olika typer av källor till big data:

  • sociala nätverk som till exempel Facebook, Twitter, bloggar, foton, videofilmer, Youtube och internetsökningar
  • traditionella företagssystem, till exempel transaktioner, kund­register, kreditkortsdata och medicinska register
  • Internet of Things, olika typer av sensordata, till exempel väder, trafik, övervakning, mobiltelefoner och satellitbilder.

Den första typen av data, från sociala nätverk, kan vara svåra att använda i produktionen av officiell statistik då stora utmaningar kvarstår att lösa, till exempel representativitet och integritet. Det är lättare att föreställa sig att de andra två typerna av data kan användas för att producera officiell statistik både billigare och med bättre kvalitet än vad vi gör idag. Men även där kvarstår en del utmaningar, till exempel juridiska och metodologiska.

Många av de nya datakällorna som inkluderas i begreppet big data kommer från specifika källor och innehåller endast några få variabler. Dessa behöver oftast kombineras med andra datakällor för att de ska ge intressant och ny information. Ett exempel på detta är SCB:s arbete med att ta fram statistik om grönområden i tätorter där man kombinerar information från satellitbilder med register om fastigheter och befolkning. Tillsammans gör dessa datakällor att man inte bara kan se hur mycket grönområden som finns i en tätort utan även hur mycket av grönytan som är tillgänglig för allmänheten.

Ett exempel på hur big data används i produktion av officiell statistik är datainsamling till Konsumentprisindex, KPI. Många länder inom EU har ersatt en del av datainsamlingen för att beräkna KPI, som är ett mått på prisutvecklingen för privat konsumtion, med uppgifter från butikskedjors kassasystem. Även SCB har sedan ett par år tillbaka ersatt en del av den traditionella datainsamlingen, där intervjuare besöker olika butiker och gör prismätningar, med data direkt från dagligvaruhandeln. Detta har både rationaliserat insamlingen av prisuppgifter och höjt kvaliteten i KPI.

Ett annat exempel är ett pågående EU-samarbete där vi studerar alternativa datakällor för produktion av officiell statistik. Ett exempel är att det, genom information från navigationssystem inom sjötrafiken, går att följa olika fartyg i världen i realtid och för varje fartyg går det att få mer information om till exempel vilket fartyg det är och var det varit. Inom projektet undersöker vi om och hur den här typen av data kan användas i produktion av officiell statistik för att skatta utsläpp och för att identifiera farleder med tung trafik.

Nya datakällor öppnar upp för nya aktörer som tar fram stati­stik på områden där statistikbyråer traditionellt haft ett monopol. University of Michigan har exempelvis publicerat ekonomiska indikatorer som bygger på data från sociala media. De har använt data från Twitter för att prediktera antalet ansökningar om arbetslöshetsersättning. Det har sedan jämförts med officiell statistik från USA:s arbetsmarknadsdepartement som grundar sig på faktiska ansökningar om arbetslöshetsersättning. Inledningsvis visade Twitterdata på en liknande utveckling som den officiella statistiken men efter ett par år slutade de båda tidsserierna följa varandra. Data från Twitter fångade inte en sjunkande trend av faktiska ansökningar om arbetslöshetsersättning utan visade på ett högre och oförändrat antal ansökningar. Detta visar på ett av problemen med att helt förlita sig på big data för att producera statistik. Det krävs fortfarande betydligt mer arbete och studier innan det är möjligt att ersätta traditionella data. Men redan nu finns det möjlighet att använda big data som ett komplement till traditionella datakällor.

Med ny teknologi följer även nya vanor, beteenden och fenomen. Vi kommunicerar numera åsikter och känslor via sociala medier. Vi lägger ut foton och filmer på sociala medier utan att tänka på att information om var och när de är tagna automatiskt följer med. Dessa data används sedan av företag vilket medför en minskad integritet. Utvecklingen innebär också nya möjligheter. De digitala spår som vi lämnar efter oss, bland annat genom applikationer i mobiltelefonen, gör att det blir möjligt att mäta företeelser och samband som vi tidigare inte kunnat mäta.

Nya fenomen utmanar även den traditionella statistikproduktionen på andra sätt. Vi har sett hur nya plattformar börjar komplettera traditionella näringar, exempel på detta är Uber (en tjänst för taxi- och samåkningsresor) och taxibranschen, Airbnb (en tjänst för uthyrning och bokning av privat boende) och hotellnäringen samt digitala tidningar och universitetskurser som erbjuds gratis på nätet. En utmaning för en statistikbyrå är hur dessa nya företeelser ska mätas så att statistiken ger en relevant bild av samhällsutvecklingen. Hur ska vi exempelvis mäta den ökande globala internethandeln i ett mått som KPI?

Statistikproduktionen kommer att förändras och i framtiden kommer vi att se fler exempel där vi kombinerar olika datakällor. Big data kommer vara en av dessa källor.

Etiketter