7/2021

Vad vi inte vet

29 september 2021

I dagens värld med smarta applikationer, artificiell intelligens och big data är det lätt att tro att vi alltid har tillgång till all nödvändig information. Genom att samla in och analysera stora mängder data kan vi i princip lösa vilket problem som helst. Det här är förstås en alltför optimistisk föreställning, det är nog mera regel än undantag att vi saknar relevant information.

USA:s tidigare försvarsminister Donald Rumsfeld sade i tiderna (fritt översatt) att det finns kända okända, det vill säga saker som vi vet att vi inte vet, men det finns också okända okända, saker som vi inte vet att vi inte vet. Rumsfeld fick utstå en hel del spott och spe för sitt något kryptiska uttalande, men åtminstone när det gäller dataanalys träffar han helt mitt i prick. Ibland ser man uttrycket mörka data (dark data). Uttrycket ska föra tankarna till mörk materia, det vill säga materia som vi inte kan observera men som vi ändå, under vissa förutsättningar, förstår att måste finnas. Mörka data är alltså den information vi inte har.

Det kända okända. Ta till exempel de partiunderstödsgallupar som presenteras med jämna mellanrum. I dessa undersökningar är det inte ovanligt att en tredjedel av de tillfrågade inte vill uppge vilket parti de stöder. Att förutspå valutgången utifrån gallupar är därför förenat med vissa risker. Det här är ett exempel på kända okända, vi vet att vi inte vet vad de här personerna kommer att göra. De kan ju vara sådana som inte alls tänker rösta, i så fall utgör de egentligen inget problem för prognostiseringen. Men de kan också vara sådana som bestämmer sig först på valdagen, eller som av någon anledning inte vill uppge sina partipreferenser. I de senare fallen är risken stor att vi drar slutsatser som inte motsvarar verkligheten. Är de som inte vill besvara gallupfrågorna annorlunda än de övriga? Kanske, kanske inte. På en punkt är de åtminstone annorlunda, de har valt att inte svara. Kända okända utgör helt klart ett problem, men vetskapen att vi inte har all information gör att vi åtminstone kan anta vissa försiktighetsåtgärder.

Ett intressant exempel på smarta AI-applikationer, och ofullständig information, är appen Street Bump som användes i Boston under första halvan av 10-talet. I Boston hade man problem med gropiga gator och Street Bump utvecklades för att kunna lokalisera de värsta problemområdena. Man startar appen då man ska köra bil och med hjälp av gps noteras position och hastighet. Kraftiga inbromsningar tolkas som att bilen tvingats bromsa för ojämnheter i vägen, och då är det bara för staden att skicka ut sina vägarbetare.

Det okända okända

Genialiskt kan man tycka, men upplägget var ändå inte helt optimalt. Det som utvecklarna inte tänkte på var att användningen av smarttelefoner, och bilar också för den delen, varierar mellan olika socialklasser. Det är mycket möjligt att applikationen effektiverade vägunderhållet i rika och välbärgade områden, medan mera utsatta områden fick nöja sig med betydligt mindre uppmärksamhet. Här handlar det om okända okända, utvecklarna förstod inte att de inte samlar in all information. Den här typen av informationsbrist är extra problematisk i och med att vi inte vet att något saknas, och då förstår vi inte heller vad som kan gå fel.

Man bör också inse att data, även i de fall där vi tycks ha tillgång till all relevant information, bara representerar den värld vi lever i. Vi kan sällan i någon större utsträckning undersöka vad som hade hänt om vi hanterat en situation på ett annat sätt. Då man köper något i en affär skannas streckkoden i kassan och köpet registreras. Data sparas för precis alla kunder och precis alla inköp, inga luckor finns i datamaterialet. Utifrån informationen kan man göra värdefulla analyser angående köpbeteende, men analyserna berättar ändå bara om det som varit under de givna förutsättningarna. Vad hade hänt om affären hade flyttat godishyllorna längre bort från kassorna, eller om de vegetariska alternativen placerats bredvid köttdisken? En bra analys ska ge information om hur vi bör agera i framtiden, problemet är att förutsättningarna kan ändras med tiden. Ibland ändras de snabbare än vi kan ana. Inte ens den bästa datadrivna modellen kunde på förhand ha förutspått att affärerna borde bunkra upp med munskydd och handsprit i början av år 2020.

Ett gott råd vid dataanalys är att alltid utgå från att di- na data är ofullständiga och innehåller felaktigheter. Var misstänksam. Att utföra relevanta och ändamålsenliga analyser är förstås av yttersta vikt, men många gånger kan det vara lika viktigt att fördjupa sig i den information vi inte har tillgång till. Vad är det som saknas och vilka effekter kan det ha på våra slutsatser?

Christian Johansson

Skribenten är lektor i statistik vid Svenska handelshögskolan i Vasa.

Affärsmagasinet Forum läggs ned

Den stora illusionen

Vad vi inte vet

Hård armbrytning om cementen

Vad vi inte vet

Senaste nytt

Affärsmagasinet Forum läggs ned

Den stora illusionen

Vad vi inte vet

Hård armbrytning om cementen

Ett öppet sinne gnuggar geniknölarna

Bankjättar golvas av sin egen tyngd

Excellent health service in Helsinki