Tänk Big Data

Christian Johansson är lektor i statistik vid Svenska handelshögskolan i Vasa.

Data var under långa tider något som starkt förknippades med officiell statistik. Naturligtvis har det alltid funnits andra datakällor, men i stor utsträckning har officiella institutioner samlat in, bearbetat och presenterat data.
Nu är situationen en helt annan. Som vi kunde läsa i senaste Forum är vi mitt uppe i en datarevolution, det är Big Data som gäller och då handlar det om stora nätbaserade företag som Google eller Facebook.
Genom att snabbt samla in och bearbeta enorma mängder information kan bolagen erbjuda kundupplevelser utöver det vanliga.
Till exempel har Amazon nyligen fått patent på en metod för så kallad anticipatory shipping: beställningar ska börja levereras innan de ens har blivit gjorda!

Gränsen för trovärdighet? Samtidigt brottas den officiella statistiken med sin datainsamling. Mycket görs via enkät- och intervjuundersökningar, undersökningsformer där det blir allt svårare att uppnå en respektabel svarsprocent.
En snabb titt på Statistikcentralens hemsida visar till exempel att konsumenternas förtroendeindikator senast beräknades utgående från ett bruttourval omfattande 2350 personer.
Av dessa var det dock bara 1336 som ville eller kunde ställa upp på intervju, ett bortfall på över 44 procent. Hur lågt kan svarsprocenten sjunka för att dylika mått fortsättningsvis ska anses som trovärdiga? Och vore det möjligt att utnyttja Big Data för att komma runt problem av det här slaget? Kanske!
Vissa lovande försök har gjorts. För några år sedan visade Google hur de kunde estimera spridningen av influensa i USA. Genom att använda sökmotordata kunde bolaget avgöra var i landet sjukdomen just då härjade.
Då officiella hälsodata så småningom droppade in visade det sig att Googles prognoser var förvånansvärt korrekta – dessutom kunde de utföras väldigt snabbt.
I Nederländerna har man gjort intressanta experiment med ovan nämnda förtroendeindikator.
I vanliga fall får personer i ett stickprov ange om de ser positivt, neutralt eller negativt på framtiden, och utgående från dessa svar beräknas indikatorn. Nu samlade man i stället in alla meddelanden på sociala medier som skrivits på holländska.
Via textanalys kategoriserades sedan budskapen som positiva, neutrala eller negativa – och vips kunde man räkna ut en ny förtroendeindikator, som stämde mycket väl överens med den officiella versionen.

Möjligheter och risker. Som exemplen visar finns det oanade möjligheter till nya tillämpningar – men glöm inte att det också finns en hel del risker.
En kritik som riktas mot Big Data är att man ofta söker samband utan att bry sig så mycket om vad som egentligen påverkar vad. Det kan vara lätt att förstå var samband finns, men svårare att förutse under vilka förutsättningar sambanden försvagas eller helt försvinner.
Det är naturligt att börja googla på influensasymptom då man känner sig förkyld, och visst kan personers framtidsutsikter avspeglas i deras aktiviteter på sociala medier. Men finns det situationer där det här inte gäller?
Googles influensatrender fungerade väldigt väl ända tills förrförra vintern, då bolaget plötsligt grovt överestimerade förekomsten av influensa. Kanske gjorde alla alarmerande influensanyheter att folk googlade oberoende av om de var förkylda eller inte?
Förtroendeindikatorn baserad på sociala medier fungerar för det mesta, men kring årsskiftet blir det för mycket Vrolijk Kerstfeest och Gelukkig Nieuwjaar (god jul och gott nytt år), och indikatorn visar allt för positiva värden.
Det finns all anledning att ta emot Big Data med öppna armar, rätt använt är det något som kan förändra världen till det bättre.
Samtidigt ska vi vara lite försiktiga och inte kasta ut barnet med badvattnet. Låt inte datarevolutionen spola bort all mödosamt accumulerad statistisk metodlära!