I dagens värld med smarta applikationer, artificiell intelligens och big data är det lätt att tro att vi alltid har tillgång till all nödvändig information. Genom att samla in och analysera stora mängder data kan vi i princip lösa vilket problem som helst. Det här är förstås en alltför optimistisk föreställning, det är nog mera regel än undantag att vi saknar relevant information.
USA:s tidigare försvarsminister Donald Rumsfeld sade i tiderna (fritt översatt) att det finns kända okända, det vill säga saker som vi vet att vi inte vet, men det finns också okända okända, saker som vi inte vet att vi inte vet. Rumsfeld fick utstå en hel del spott och spe för sitt något kryptiska uttalande, men åtminstone när det gäller dataanalys träffar han helt mitt i prick. Ibland ser man uttrycket mörka data (dark data). Uttrycket ska föra tankarna till mörk materia, det vill säga materia som vi inte kan observera men som vi ändå, under vissa förutsättningar, förstår att måste finnas. Mörka data är alltså den information vi inte har.
Det kända okända. Ta till exempel de partiunderstödsgallupar som presenteras med jämna mellanrum. I dessa undersökningar är det inte ovanligt att en tredjedel av de tillfrågade inte vill uppge vilket parti de stöder. Att förutspå valutgången utifrån gallupar är därför förenat med vissa risker. Det här är ett exempel på kända okända, vi vet att vi inte vet vad de här personerna kommer att göra. De kan ju vara sådana som inte alls tänker rösta, i så fall utgör de egentligen inget problem för prognostiseringen. Men de kan också vara sådana som bestämmer sig först på valdagen, eller som av någon anledning inte vill uppge sina partipreferenser. I de senare fallen är risken stor att vi drar slutsatser som inte motsvarar verkligheten. Är de som inte vill besvara gallupfrågorna annorlunda än de övriga? Kanske, kanske inte. På en punkt är de åtminstone annorlunda, de har valt att inte svara. Kända okända utgör helt klart ett problem, men vetskapen att vi inte har all information gör att vi åtminstone kan anta vissa försiktighetsåtgärder.
Ett intressant exempel på smarta AI-applikationer, och ofullständig information, är appen Street Bump som användes i Boston under första halvan av 10-talet. I Boston hade man problem med gropiga gator och Street Bump utvecklades för att kunna lokalisera de värsta problemområdena. Man startar appen då man ska köra bil och med hjälp av gps noteras position och hastighet. Kraftiga inbromsningar tolkas som att bilen tvingats bromsa för ojämnheter i vägen, och då är det bara för staden att skicka ut sina vägarbetare.
Det okända okända
Genialiskt kan man tycka, men upplägget var ändå inte helt optimalt. Det som utvecklarna inte tänkte på var att användningen av smarttelefoner, och bilar också för den delen, varierar mellan olika socialklasser. Det är mycket möjligt att applikationen effektiverade vägunderhållet i rika och välbärgade områden, medan mera utsatta områden fick nöja sig med betydligt mindre uppmärksamhet. Här handlar det om okända okända, utvecklarna förstod inte att de inte samlar in all information. Den här typen av informationsbrist är extra problematisk i och med att vi inte vet att något saknas, och då förstår vi inte heller vad som kan gå fel.
Man bör också inse att data, även i de fall där vi tycks ha tillgång till all relevant information, bara representerar den värld vi lever i. Vi kan sällan i någon större utsträckning undersöka vad som hade hänt om vi hanterat en situation på ett annat sätt. Då man köper något i en affär skannas streckkoden i kassan och köpet registreras. Data sparas för precis alla kunder och precis alla inköp, inga luckor finns i datamaterialet. Utifrån informationen kan man göra värdefulla analyser angående köpbeteende, men analyserna berättar ändå bara om det som varit under de givna förutsättningarna. Vad hade hänt om affären hade flyttat godishyllorna längre bort från kassorna, eller om de vegetariska alternativen placerats bredvid köttdisken? En bra analys ska ge information om hur vi bör agera i framtiden, problemet är att förutsättningarna kan ändras med tiden. Ibland ändras de snabbare än vi kan ana. Inte ens den bästa datadrivna modellen kunde på förhand ha förutspått att affärerna borde bunkra upp med munskydd och handsprit i början av år 2020.
Ett gott råd vid dataanalys är att alltid utgå från att di- na data är ofullständiga och innehåller felaktigheter. Var misstänksam. Att utföra relevanta och ändamålsenliga analyser är förstås av yttersta vikt, men många gånger kan det vara lika viktigt att fördjupa sig i den information vi inte har tillgång till. Vad är det som saknas och vilka effekter kan det ha på våra slutsatser?
Christian Johansson
Skribenten är lektor i statistik vid Svenska handelshögskolan i Vasa.