» »

Večino ljudi je možno identificirati iz anonimiziranih podatkov

Večino ljudi je možno identificirati iz anonimiziranih podatkov

Ars Technica - Anonimiziranje podatkov, ki ga zelo rada izvajajo podjetja v želji kasnejšega izvajanja tako komercialnih kot tudi akademskih raziskav, se izkazuje za vse manj zanesljivo in za vpletene osebe (katerih podatki so seveda dani prostovoljo) vse manj zasebno.

Že v sredini devetdesetih let je Latanyi Sweeney tako uspelo, da je po izdaji anonimiziranih zdravniških kartonov državnih uslužbencev, ki so vključevali vsak bolnišnični obisk le-teh, samo s pomočjo poštne številke, spola in datuma rojstva ugotoviti celotno zdravstveno zgodovino guvernerja zvezne države Massachusetts.

Ne samo to, uspelo ji je tudi dokazati, da je možno z poznavanjem poštne številke, dneva rojstva in spolom identificirati 87 odstotkov američanov, s krajem, dnevom rojstva in spolom približno polovico, z okrožjem, dnevom rojstva in spolom pa približno 18 odstotkov američanov.

Da anonimizacija v resnici ni anonimizacija, ko podatke združite z drugimi podatkovnimi bazami, se na žalost vse pogosteje izkazuje tudi v resničnem življenju in ne samo na akademskem parketu na univerzah.

AOL je tako pri objavi zgodovine iskalnih nizov sicer nadomestil IP naslove in uporabniške ID številke z novimi unikatnimi številkami, a so hkrati vključili tako podrobne podatke, da so lahko raziskovalci s pomočjo unikatnih številk povezali različne nize in iz le-teh razbrali, kaj je določen uporabnik iskal in kdo ta uporabnik sploh je.

Raziskovalci, ki so opravili te preiskave so se med tem premaknili na Twitter in uspeli tretjino anonimih uporabnikov identificirati s primerjanjem podatkov s Flickr-jem - tudi če je bila uporabniška mreža na Twitterju popolnoma anonimna.

Ko je Netflix leta 2007 izdal sto milijonov anonimiziranih podatkov o glasovanju, sta ista raziskovalca uspela pokazati, da je z poznavanjem osmih glasovanj in datumov glasovanj (z dvotedenskim približkom le-teh) možno razkriti celotno zgodovino glasovanj katerega koli uporabnika.

Ker podjetja vse raje prodajajo svoje podatke oglaševalcem, raziskovalcem in vladnim agencijam predvsem v anonimizirano obliki, so ti trendi še toliko bolj alarmantni, saj lahko s kombiniranjem s katero drugo bazo hitro ugotovijo točno identito oseb. Iluzija je torej pričakovati, da bi bili v svetu, kjer Google sicer anonimizira podatke po osemnajstih mesecih, le-ti dejansko bili anonimizirani do te mere, da vas ne bi bilo možno povezati s čudnimi iskalnimi nizi iz vaših najstniških let.

V svoji raziskavi tako Paul Ohm ugotavlja, da računalniški raziskovalci z vedno večjo natančnostjo de-anonimizirajo podatke, kar spravlja uporabnike v zelo nehvaležen položaj, saj smo prišli v razvoju tehnologije tako daleč, da lahko z dovolj natančnim prekopavanjem podatkov hitro pridemo do podatkov ne samo določene osebe, ampak tudi vaše družine in njenih skrivnosti.

Ker večina zakonodaje zaostaja za resničnim svetom in ker si pred desetimi leti, ko so se zakoni pisali, nihče ni mogel zamisliti prekopavanja gore podatkov s topologijo, marsikatero dejanje sploh ni kaznivo, saj zakonodaja načeloma predvideva samo zakrivanje osebno identificirajočih podatkov. Če so pred desetimi leti za to veljali samo ime, priimek in EMŠO, lahko z nekaj matematične magije to postane marsikateri drugi oziroma skoraj katerikoli podatek.

Hkrati pa lahko hitro vidimo tudi, da preveč omejujoča zakonodaja in anonimiziranje podatkov razbije celotno vrednost neke podatkovne zbirke za raziskovalce, kar pa tudi ni točka, v kateri bi si želeli biti, saj lahko iz takšnih baz podatkov pridemo do marsikaterih zanimivih zaključkov, ki jih ne moremo narediti z nobenim drugim nizom podatkov.

19 komentarjev

Pyr0Beast ::

Družine nimajo skrivnosti. So samo podatki ki jih lahko ali uporabiš ali pa zlorabiš.
Some nanoparticles are more equal than others

Good work: Any notion of sanity and critical thought is off-topic in this place

BaToCarx ::

Topla voda...
Anonimnosti že dolgo ni več.

Sploh pa kaj je že bilo tisto v šolah pri matematiki, ko maš več neznanih številk pa več formul. Pa si izračunal. Isto je tukaj.

Mr.B ::

Informacijska pooblaščenka, je spet dobila protiargument, ki jo je označil za nepotrebno tvorbo politike, ki s pretvezo varovanja osebnih podatkov, izrablja svoj položaj za skrivanje kraje, ki jo izvajajo taki in drugačni gospodje.
France Rejects Genocide Accusations Against Israel in Gaza,
To accuse the Jewish state of genocide is to cross a moral threshold

NiggerBob ::

"guvernerja zvezdne države...."
"z poznavanjem poštne številke, dneva rojstva in spolom..."

manjkajo vejice, napačna raba s/z, cel kup drugih napak. Spakedranščina za kozlat :'(
"Hrabri umrejo samo enkrat, strahopetci umirajo tisočkrat"

gruntfürmich ::

v sloveniji se kaj takega ne more zgoditi, ker naš inštitut je najboljši na svetu!:))
"Namreč, da gre ta družba počasi v norost in da je vse, kar mi gledamo,
visoko organizirana bebavost, do podrobnosti izdelana idiotija."
Psiholog HUBERT POŽARNIK, v Oni, o smiselnosti moderne družbe...

snezak ::

naši so precej notr v data miningu

butl4d ::

Izjavo o ne-anonimnosti ste podpisali, ko ste si naročili internetni dostop. Oh ffs cry me a river

BlueRunner ::

Če so pred desetimi leti za to veljali samo ime, priimek in EMŠO, lahko z nekaj matematične magije to postane marsikateri drugi oziroma skoraj katerikoli podatek.


Kar je bilo v Sloveniji tudi razpoznano, zato je v Zakonu o varstvu osebnih podatkov definicija izraza takšna, da zajema vse tiste podatke - enostavne ali pa sestavljene - ki omogočajo določanje osebe, če to ne povzroča velikih stroškov, nesorazmerno velikega napora ali zahteva veliko časa.

Tisti trenutek torej, ko dobiš odgovor v nekaj urah ali dnevih, obdelava podatkov pa te stane toliko, kolikor porabiš elektrike, postane varovanje zasebnosti precejšen izziv.

Hkrati pa lahko hitro vidimo tudi, da preveč omejujoča zakonodaja in anonimiziranje podatkov razbije celotno vrednost neke podatkovne zbirke za raziskovalce, kar pa tudi ni točka, v kateri bi si želeli biti, saj lahko iz takšnih baz podatkov pridemo do marsikaterih zanimivih zaključkov, ki jih ne moremo narediti z nobenim drugim nizom podatkov.


Kar je zanimivo zame, zate morda ni in obratno. Nekaj kar nekomu predstavlja vdor v zasebnost, nekomu drugemu morda ne. Obseg obdelave podatkov mora biti vedno v sorazmerju s tem kar se želi doseči. Splošno družbeno dobro (npr. iskanje zdravila za rak) lahko tako uravnoteži veliko večji poseg v zasebnost, kot pa želja nekega komercialnega subjekta (npr. proučevanje tvojih nakupovalnih navad za bolj učinkovito oglaševanje).

Končen zaključek pa je še vedno enak: če je anonimizacija dobro opravljena, potem podatkov za večino želja več ni možno uporabiti. Če pa jih je možno uporabiti, potem pa obstaja tudi možnost njihove deanonimizacije.

Pyr0Beast ::

Anonimizacija je IMO opravljena, ko se podatkov na nobeden način ne smatra, da jih je možno deanomizirati.

Uravnoteženje nima velikega pomena tukaj saj gre za neetično delovanje ene izmed strani, pa naj si bo to za boj proti raku (že prevečkat slišano in zlorabljeno) ali pa proti terorizmu.

Pravzaprav možnost identifikacije pozameznika iz anonimiziranih podatkov daje večji občutek 'varnosti' in 'sigurnosti' uporabniku kot pa direktno zbiranje podatkov.
Some nanoparticles are more equal than others

Good work: Any notion of sanity and critical thought is off-topic in this place

BlueRunner ::

Uravnoteženje je pomembno iz smisla tega koliko in kaj se lahko od tebe zahteva. Banka tako npr. nima veliko možnosti, da od tebe zahteva podatke o zdravstvenem stanju, saj s tem zahteva osebne podatke, ki jih za nudenje storitve ne potrebuje. To v nadaljevanju pomeni, da banka ne more odkloniti podpisa pogodbe samo zato, ker teh podatkov ne želiš izdati, oziroma ti ne more pogojevati podpisa z vnosom takšnih podatkov.

Tako se ne gre za neetično ravnanje, temveč predvsem za zagotovilo, da se zme za nekatere splošno koristne namene zbirati in obdelovati več podatkov, kot pa za strogo komercialne. V nobenem primeru pa se tega ne sme početi brez predhodnega strinjanja ali pa s pridobivanjem strinjanja pod prisilo z okoriščanjem osebnih okoliščin. Tako je prošnja banke lahko samo nespodobno in nezakonito povabilo, prošnja zdravnika pa ne nujno. Noben pa ti ne sme in ne more pogojevati storitve (še posebej ne zdravnik) samo zato, ker se ne strinjaš z dodatno obdelavo osebnih podatkov.

Zanimiv članek je na današnji 14. strani Mladine, kjer je razmislek o temu kako in koliko osebnih podatkov se s pomočjo Urbane zbira v LPP. Na žalost pa je uslužbenka pri IP-RS izjavila, da so ti podatki iz vidika varovanja osebnih podatkov pomembni, hkrati pa meni, da bo "potrebno doseči dogovor koliko časa se ti podatki hranijo". Mislim, da se je tukaj predstavnici IP-RS zgodil kiks, kajti brez Urbane vožnja več ne bo možna, zaradi česar bodo uporabniki storitve postavljeni pred dejstvo nakupa. Hkrati pa obdobje hranjenja ne vidim kot stvar "dogovora", temveč kot stvar jasne omejitve koliko časa lahko LPP tovrstne podatke sploh obdrži - tudi v luči zbiranja za določen namen in ne samo "na rezervo".

Pyr0Beast ::

Pravzaprav to ni uravnoteženje. To je samo minimalna količina podatkov, ki jih potrebujejo za poslovanje, kar je več je IMO že zloraba moči.
Some nanoparticles are more equal than others

Good work: Any notion of sanity and critical thought is off-topic in this place

Zgodovina sprememb…

BlueRunner ::

V zakonu se je to zapisalo kot "sorazmernost", jaz sem temu rekel "uravnoteženost". Različne besede, ampak mislim, da misliva isto - kdor pretirava izkorišča svojo moč in potencialno krši zakon.

Ugotavljanje kdaj je šlo kaj čez mejo, še posebej na sivih območjih, pa je prepuščeno IP-RS in sodiščem.

MrStein ::

butl4d:
Izjavo o ne-anonimnosti ste podpisali,

Show me the paper! ;)

(ej, samo vzdevke pa imate eni res, tak , "informativne" ;)
pa ne mislim samo tebe)
Motiti se je človeško.
Motiti se pogosto je neumno.
Vztrajati pri zmoti je... oh, pozdravljen!

Zgodovina sprememb…

  • spremenil: MrStein ()

Mr.B ::

Trgovina ima vse tvoje podatke. Iz teh podatkov se lahko ugotovi tudi okvirno zdravstveno stane danes, in v prihodnosti.

Podatki ki so jasni v trgovini so : bančna kartica, podatki tipa pika kartica, vsebina nakupa, verjetno ste kje tudi davčno vpisali, pa verjetno številke verjetno tudi dveh bančnih kartic, oziroma če ste recimo plačali s kartico od punce/žene vejo tudi da si poročen, in lahko na račun kartice, tu ne mislim pika, sledijo obema, in vejo kakšne so vaše nakupovalne navade, itd...

Me zanima papir, ki ga je podpisalo kakšno trgovsko podjetje, kjer bi pisalo da takih podatkov : ne zbirajo , obdelujejo, kaj še le vršijo ciljno oglaševanje, in še kaj.

PS : Vse finančne podatke o vas zbirajo s pretvezo skladnosti z davčno zakonodajo, itd...
France Rejects Genocide Accusations Against Israel in Gaza,
To accuse the Jewish state of genocide is to cross a moral threshold

francek1 ::

Zato pa že 5 let plačujem izključno z gotovino.
Kdor se je že rodil učen se lahko reži...

Mr.B ::

francek1, mobitela nimaš ?
France Rejects Genocide Accusations Against Israel in Gaza,
To accuse the Jewish state of genocide is to cross a moral threshold

BlueRunner ::

... in dostop do ineta preko odprtega brezžičnega omrežja z zamenjanim MAC naslovom sredi temne ulice, kjer si preveril, da ni niti bankomata s kamero?

jype ::

BlueRunner> ... in dostop do ineta preko odprtega brezžičnega omrežja z zamenjanim MAC naslovom sredi temne ulice, kjer si preveril, da ni niti bankomata s kamero?

Kadar rabi net gre na T50 in injicira pakete, za vsak stream iz drugega IPja, ki se routa tam skozi, v interface enega core routerja.

BlueRunner ::

Na glavi pa ima kapo iz alu folije. Tega nikakor ne sme pozabiti. :D


Vredno ogleda ...

TemaSporočilaOglediZadnje sporočilo
TemaSporočilaOglediZadnje sporočilo
»

Množica iOS aplikacij zbira in prodaja podatke o uporabnikih

Oddelek: Novice / Zasebnost
267544 (6265) Unknown_001
»

ECJ: iskalniki so nevarna stvar

Oddelek: Novice / Zasebnost
2711461 (9377) Poldi112
»

LPP s kartico Urbana ne sme zbirati lokacijskih podatkov (strani: 1 2 3 4 )

Oddelek: Novice / Zasebnost
17138660 (35203) noraguta
»

Večino ljudi je možno identificirati iz anonimiziranih podatkov

Oddelek: Novice / Zasebnost
195347 (3908) BlueRunner

Več podobnih tem