Anonieme gegevens bestaan niet. Wat doen we daarmee?

Wetten in Nederland en de EU zijn erop gericht om te zorgen dat bedrijven en instellingen op een nette manier omgaan met persoonsgegevens. Maar wat er met anonieme gegevens gebeurt, daar zijn veel minder regels voor. Terecht natuurlijk, want als je toch niet weet over wie het gaat, dan kun je de gegevens prima gebruiken om allerlei interessant onderzoek te doen. Maar het veronderstelt wel dat de gegevens ook anoniem blijven en niet weer kunnen worden geïdentificeerd. Dat blijkt in de praktijk echter steeds toch te kunnen.

Er zijn verschillende manieren waarop het misgaat. In de eerste plaats zijn er gegevens die gewoon niet goed geanonimiseerd zijn. Door regelrechte fouten in de manier waarop ze zijn geanonomiseerd, of doordat er in de details van de gegevens nog sporen zijn terug te vinden. Een voorbeeld daarvan is de onthulling gisteren door de Duitse TV-zender NDR. Die wisten een bestand met 3 miljoen Duitsers te bemachtigen - een anoniem bestand dat gegevens over het surfgedrag bevatte. Anoniem, maar het gedrag van iedere aparte persoon was wel met elkaar te linken. En soms stond er identificeerbare informatie in, een naam of een gebruikersaccount. Iets dat te herleiden was. De reden dat de NDR zo eenvoudig de gegevens kon herleiden was dat niemand echt de moeite had genomen om de gegevens goed te anonimiseren.

Een andere manier om anonieme gegevens te herleiden naar personen is ingewikkelder, maar misschien wel waardevoller en beter te automatiseren. Het gaat dan om gegevens die wel goed zijn geanonimiseerd, maar die gecombineerd kunnen worden met andere gegevens en zo alsnog aan een persoon kunnen worden gelinkt. Een voorbeeld daarvan is het Netflix-onderzoek van een aantal jaar geleden, waarbij de onderzoekers erin slaagden gebruikers van Netflix te identificeren op basis van hun beoordelingen van films en zelfs hun politieke voorkeuren konden reconstrueren. In dat geval gaat het om gegevens die goed zijn geanonimiseerd, maar die zo fijnmazig zijn dat ze toch gecombineerd kunnen worden met andere bronnen, waarna veel mensen toch kunnen worden herkend.

De laatste vorm is misschien nog wel de lastigste om mee om te gaan. Het gaat dan om gegevens die oorspronkelijk niet eens over mensen gaan. Je kunt je voorstellen dat uit gedetailleerde gegevens over watergebruik in een stad afgeleid kan worden wie wanneer onder de douche staat of afwast. En uit historische gegevens is dan toch nog veel af te leiden over het leven van de mensen die het betreft.

Hoe meer data we verzamelen met zijn allen, hoe makkelijker het wordt om gegevens over individuen te verzamelen. Hoe meer gegevens een partij in handen heeft, hoe effectiever het voor hem wordt om die gegevens te gebruiken om individuen te manipuleren. Dat lijkt mij een problematische ontwikkeling.

Als data in feite niet meer is te zien als anoniem, moeten we beter nadenken over hoe we ermee om kunnen gaan. Moeten we betere analyses maken over hoe ze verkeerd gebruikt kunnen worden. De gegevens van de NDR kunnen heel concreet leiden tot chantage of andere ernstige inbreuken op de privacy van mensen die zich onbespied waanden. Wat zijn daarvan de gevolgen op lange termijn? Hoe zorgen we ervoor dat dit niet uit de hand loopt? Er zijn nog veel vragen onbeantwoord. Wie het weet, mag het zeggen.