O identifikaciji internetnih piscev

Mandi

9. jan 2013 ob 14:48:58

Še ena z lanskega 29CCC: raziskovalna skupina ameriških univerz Drexel (Pennsylvania) and George Mason (Virginia) je predstavila zaključke svoje študije metod za identifikacijo anonimnih piscev na bolj ali manj nezakonitih spletnih forumih, posebej takih, kjer se združujejo hekerji, kradljivci kreditnih kartic in druga manj slavna imena internetnega podzemlja. Avtorici (na sliki) pravita, da lahko s pomočjo lingvistične analize identificirata 80% avtorjev, jim sledita od foruma do foruma (če uporabljajo različne vzdevke); vse celo če pišejo v tujem jeziku.

Za zanesljivost analize je ključna količina besedila, ki ga mora biti vsaj 5000 besed (še raje 6500 besed), nakar je mogoče dokaj enostavno izluščiti uporabnikov stil, redke a značilne besede, tipično dolžino stavkov, značilna priredja in podredja, ter še številne druge značilnosti, ki se le počasi in redko spreminjajo in jih je precej težko, zoprno in zamudno izpremeniti. Ko to enkrat je (en daljši post), je te značilnosti mogoče dokaj hitro najti tudi v predhodnih oz. sledečih krajših zapisih. Svojo analizo sta s pomočjo orodij Anonymouth in JStylo (machine learning verzija prvega) pognali na objavah na forumih thebadhackerz.com, blackhatpalace.com, carders.cc, free-hack.com, hackel1te.info, hack-sector.forumh.net, rootwarez.org, L33tcrew.org ter antichat.ru, ter hitro identificirali približno 300 ponavljajočih tem istih avtorjev. Sledenje od foruma je mogoče še dopolniti s primerjanjem časov objav, uporabniških imen ter IP številk. Uporaba tujega jezika ni problematična, saj naj bi tako Google Translate kot tudi Bing Translate ohranila ključne stilne značilnosti, zato pa toliko več preglavic delata internetni sleng (leetspeak in kratice nasploh) oz. kratkost besedil nasploh.

Avtorici si želita proces povsem avtomatizirati, ter ne izključujeta sodelovanja s pravosodnimi organi (kako lepo). Tehnike, ki jih uporabljata, sicer niso nujno nove, je pa zato praktični učinek toliko večji.

Slaba novica za nas, ki pišemo pod psevdonimom, torej :).