Trump. En waarom Big Data zo vaak faalt

Trump wordt de volgende president van de VS. Een rampzalig scenario ontvouwde zich gedurende een doorwaakte nacht. Nu begint het puinruimen. Een van de eerste duidelijke slachtoffers van de overwinning van Trump is – opnieuw – hardnekkige fictie dat de mens te doorgronden is door naar data te kijken. De opiniepeilers zaten er collectief naast. En dat moet consequenties hebben voor de manier waarop beleidsmakers naar de samenleving kijken.

Marktonderzoekers – ik weet dat, ik was er ooit een – hebben een speciaal plekje in hun hart voor verkiezingen. Het is de allerbeste gelegenheid om hun methoden te ijken, want de uitslag is onbekend, tot hij op een vooraf vastgesteld moment in detail bekend wordt gemaakt. Je kunt dus een voorspelling doen voordat de uitslag bekend is en dan kan iedereen zien hoe knap je was. En het is dus ook de allerbeste manier om je reputatie aan gort te peilen. Want als je ernaast zat, is dat heel zichtbaar.

Er zijn heel wat reputaties gebouwd op het goed voorspellen van verkiezingsuitslagen – en soms lukt dat ook heel behoorlijk. Dat wordt nog versterkt als er zoveel peilingen zijn dat je onderzoek kunt gaan doen naar die peilingen. Nate Silver slaagde er in 2008 en 2012 in om de overwinningen van Obama voor iedere staat bijna perfect te voorspellen, zonder zelf vragenlijsten uit te zetten. Dat geeft de indruk dat opiniepeilers hun vak hebben geperfectioneerd en nauwelijks nog fouten maken. Ik trapte er zelf ook weer in. Silver's concurrent Sam Wang was zelfs 99% zeker van de overwinning van Clinton… De beheersbaarheid van de in gegevens verpakte wereld is uitermate verleidelijk.

Het doet pijn als je zekerheden worden vertrapt. Ik voorzie veel waardevolle – en dus weerloze – zekerheden sneuvelen de komende tijd. Deze hoort daar niet bij. De gegevens waarop onze informatiesamenleving in toenemende mate rust zijn onbetrouwbaar gebleken – en dat is winst. Het is een illusie dat we de wereld werkelijk kunnen begrijpen door haar in cijfers te vatten. We kunnen haar soms misschien benaderen en beschrijven, maar niet doorgronden. Het is als online porno: best leuk om naar te kijken, maar je blijft toch een toeschouwer – geen deelnemer. Je creëert met je data afstand tot je onderwerp.

Big data gaat de hype niet waarmaken. De mens is te complex en onvoorspelbaar. Net als het weer is menselijk gedrag – op individueel niveau net zo goed al bij groepen – de uitkomst van een chaotisch proces. We kunnen het weer steeds beter voorspellen – maar de voorspellingen blijven tegelijk ook falen. De kennis is onkenbaar. En daar komt nog bij dat we helemaal niet zo goed met gegevens zijn als we zelf graag pretenderen. Data-onderzoek is ongelofelijk ingewikkeld en de verzamelde gegevens zijn vaak helemaal niet zo geschikt voor de analyses waar we ze voor gebruiken. Er komen dus heel veel halfbakken, uit hun verband gerukte en onware conclusies uit die vervolgens tot waarheid worden verklaard, omdat er bij de meeste onderzoeken nou eenmaal geen verkiezingen zijn om de resultaten aan te ijken.

En er valt een hoop te verdienen met die halve waarheden. Voor bedrijven maakt het vaak niet zoveel uit als er fouten in de voorspellingen zitten. Een iets hogere conversie is al snel een concurrentieel voordeel. Maar voor overheden ligt dat toch anders. Die moeten hun burgers van dienst zijn, maar doen dat gebaseerd op een in cijfers vertaald beeld van die burger. En hoe meer gegevens er zijn, hoe meer de burger gaat lijken op een optelsom.

Dat is een probleem, want de processen en besluiten die we op die cijfers bouwen bevatten vaak zonder dat we het merken onze eigen vooroordelen en versterken deze. Ze zijn veel minder rationeel en 'waar' als we denken dat ze zijn. Cijfers zullen als ze gemarteld worden bijna alles gaan bekennen. En bij de meeste cijfermatige onderbouwingen wordt een aspect vaak gemist: wat weten we niet? Waarover ontbreken de cijfers?

Die valse, verleidelijke waarheden hebben gevaarlijke kantjes. Ze zullen de negatieve uitkomsten van allerlei beslissingen in toenemende mate neerleggen bij de mensen die het toch al moeilijker hebben. Daarmee versterken deze beslissingen de status quo en maken ze het moeilijker om te sturen op eerlijke uitkomsten. Want de beslissingen zijn toch rationeel genomen op basis van statistiek? Bovendien maakt al die beschikbare informatie over wie we zijn en wat we doen ons wel degelijk kwetsbaarder voor de bedrijven en instellingen waar we mee te maken hebben. We worden controleerbaarder, makkelijker te bestraffen of te belonen en dus te manipuleren. De macht van het individu neemt af, die van de bedrijven en overheden neemt toe. Net wat we nodig hadden.

Dus ik ben er niet rouwig om dat de verkiezing van Trump aantoont dat cijfers en statistiek echt veel minder precies zijn dan we graag pretenderen. Er is al genoeg om rouwig over te zijn.