Večino ljudi je možno identificirati iz anonimiziranih podatkov

Urban Škudnik

11. sep 2009 ob 08:07:05

Anonimiziranje podatkov, ki ga zelo rada izvajajo podjetja v želji kasnejšega izvajanja tako komercialnih kot tudi akademskih raziskav, se izkazuje za vse manj zanesljivo in za vpletene osebe (katerih podatki so seveda dani prostovoljo) vse manj zasebno.

Že v sredini devetdesetih let je Latanyi Sweeney tako uspelo, da je po izdaji anonimiziranih zdravniških kartonov državnih uslužbencev, ki so vključevali vsak bolnišnični obisk le-teh, samo s pomočjo poštne številke, spola in datuma rojstva ugotoviti celotno zdravstveno zgodovino guvernerja zvezne države Massachusetts.

Ne samo to, uspelo ji je tudi dokazati, da je možno z poznavanjem poštne številke, dneva rojstva in spolom identificirati 87 odstotkov američanov, s krajem, dnevom rojstva in spolom približno polovico, z okrožjem, dnevom rojstva in spolom pa približno 18 odstotkov američanov.

Da anonimizacija v resnici ni anonimizacija, ko podatke združite z drugimi podatkovnimi bazami, se na žalost vse pogosteje izkazuje tudi v resničnem življenju in ne samo na akademskem parketu na univerzah.

AOL je tako pri objavi zgodovine iskalnih nizov sicer nadomestil IP naslove in uporabniške ID številke z novimi unikatnimi številkami, a so hkrati vključili tako podrobne podatke, da so lahko raziskovalci s pomočjo unikatnih številk povezali različne nize in iz le-teh razbrali, kaj je določen uporabnik iskal in kdo ta uporabnik sploh je.

Raziskovalci, ki so opravili te preiskave so se med tem premaknili na Twitter in uspeli tretjino anonimih uporabnikov identificirati s primerjanjem podatkov s Flickr-jem - tudi če je bila uporabniška mreža na Twitterju popolnoma anonimna.

Ko je Netflix leta 2007 izdal sto milijonov anonimiziranih podatkov o glasovanju, sta ista raziskovalca uspela pokazati, da je z poznavanjem osmih glasovanj in datumov glasovanj (z dvotedenskim približkom le-teh) možno razkriti celotno zgodovino glasovanj katerega koli uporabnika.

Ker podjetja vse raje prodajajo svoje podatke oglaševalcem, raziskovalcem in vladnim agencijam predvsem v anonimizirano obliki, so ti trendi še toliko bolj alarmantni, saj lahko s kombiniranjem s katero drugo bazo hitro ugotovijo točno identito oseb. Iluzija je torej pričakovati, da bi bili v svetu, kjer Google sicer anonimizira podatke po osemnajstih mesecih, le-ti dejansko bili anonimizirani do te mere, da vas ne bi bilo možno povezati s čudnimi iskalnimi nizi iz vaših najstniških let.

V svoji raziskavi tako Paul Ohm ugotavlja, da računalniški raziskovalci z vedno večjo natančnostjo de-anonimizirajo podatke, kar spravlja uporabnike v zelo nehvaležen položaj, saj smo prišli v razvoju tehnologije tako daleč, da lahko z dovolj natančnim prekopavanjem podatkov hitro pridemo do podatkov ne samo določene osebe, ampak tudi vaše družine in njenih skrivnosti.

Ker večina zakonodaje zaostaja za resničnim svetom in ker si pred desetimi leti, ko so se zakoni pisali, nihče ni mogel zamisliti prekopavanja gore podatkov s topologijo, marsikatero dejanje sploh ni kaznivo, saj zakonodaja načeloma predvideva samo zakrivanje osebno identificirajočih podatkov. Če so pred desetimi leti za to veljali samo ime, priimek in EMŠO, lahko z nekaj matematične magije to postane marsikateri drugi oziroma skoraj katerikoli podatek.

Hkrati pa lahko hitro vidimo tudi, da preveč omejujoča zakonodaja in anonimiziranje podatkov razbije celotno vrednost neke podatkovne zbirke za raziskovalce, kar pa tudi ni točka, v kateri bi si želeli biti, saj lahko iz takšnih baz podatkov pridemo do marsikaterih zanimivih zaključkov, ki jih ne moremo narediti z nobenim drugim nizom podatkov.