» »

O identifikaciji internetnih piscev

O identifikaciji internetnih piscev

Aylin Caliskan Islam in Sadia Afroz

vir: SC Magazine
SC Magazine - Še ena z lanskega 29CCC: raziskovalna skupina ameriških univerz Drexel (Pennsylvania) and George Mason (Virginia) je predstavila zaključke svoje študije metod za identifikacijo anonimnih piscev na bolj ali manj nezakonitih spletnih forumih, posebej takih, kjer se združujejo hekerji, kradljivci kreditnih kartic in druga manj slavna imena internetnega podzemlja. Avtorici (na sliki) pravita, da lahko s pomočjo lingvistične analize identificirata 80% avtorjev, jim sledita od foruma do foruma (če uporabljajo različne vzdevke); vse celo če pišejo v tujem jeziku.

Za zanesljivost analize je ključna količina besedila, ki ga mora biti vsaj 5000 besed (še raje 6500 besed), nakar je mogoče dokaj enostavno izluščiti uporabnikov stil, redke a značilne besede, tipično dolžino stavkov, značilna priredja in podredja, ter še številne druge značilnosti, ki se le počasi in redko spreminjajo in jih je precej težko, zoprno in zamudno izpremeniti. Ko to enkrat je (en daljši post), je te značilnosti mogoče dokaj hitro najti tudi v predhodnih oz. sledečih krajših zapisih. Svojo analizo sta s pomočjo orodij Anonymouth in JStylo (machine learning verzija prvega) pognali na objavah na forumih thebadhackerz.com, blackhatpalace.com, carders.cc, free-hack.com, hackel1te.info, hack-sector.forumh.net, rootwarez.org, L33tcrew.org ter antichat.ru, ter hitro identificirali približno 300 ponavljajočih tem istih avtorjev. Sledenje od foruma je mogoče še dopolniti s primerjanjem časov objav, uporabniških imen ter IP številk. Uporaba tujega jezika ni problematična, saj naj bi tako Google Translate kot tudi Bing Translate ohranila ključne stilne značilnosti, zato pa toliko več preglavic delata internetni sleng (leetspeak in kratice nasploh) oz. kratkost besedil nasploh.

Avtorici si želita proces povsem avtomatizirati, ter ne izključujeta sodelovanja s pravosodnimi organi (kako lepo). Tehnike, ki jih uporabljata, sicer niso nujno nove, je pa zato praktični učinek toliko večji.

Slaba novica za nas, ki pišemo pod psevdonimom, torej :).

27 komentarjev

Gregor P ::

Drži, novo to res ni. Tako so raziskovali že različna dela neimenovanih pisateljev iz daljnih stoletij ter jih primerjali z znanimi, da bi morda tako ugotovili avtorstvo še neznanih del ... no pa tudi forumaši že leta izvajajo podobno metodo "ugibanja" na kolegih soforumaših:D.
The main failure in computers is usually located between keyboard and chair.
You read what you believe and you believe what you read ...
Nisam čit'o, ali osudjujem (nisem bral, a obsojam).

Zgodovina sprememb…

  • spremenil: Gregor P ()

enadvatri ::

Res je, tudi na tem forumu se v nekaterih temah na oko ocenjuje razne podobnosti med različnimi avtorji.

Si bomo pa izmislili nov anonimen slog, več ljudi, kot ga bo uporabljalo, bolj bomo anonimni. 8-)

Zgodovina sprememb…

jype ::

Veliko bolje je, če imaš vsaj 100 uporabniških imen in naključno izbereš enega za objavo (in seveda skriješ ostale podatke, na podlagi katerih se lahko uporabniška imena združi).

enadvatri ::

jype je izjavil:

Veliko bolje je, če imaš vsaj 100 uporabniških imen in naključno izbereš enega za objavo (in seveda skriješ ostale podatke, na podlagi katerih se lahko uporabniška imena združi).


Ne bo držalo. Uporabniška imena in podatki profilov niso nikjer omenjeni. Gre za analizo sloga pisanja (ki se pojavlja pod različnimi psevdonimi in uporabniškimi imeni), na podlagi katere potem identificirajo pisca.

sandmat ::

enadvatri je izjavil:

Res je, tudi na tem forumu se v nekaterih temah na oko ocenjuje razne podobnosti med različnimi avtorji.


Tudi pri dveh specifičnih piscih novic čudne uporabe besed hitro pokukajo na plano. Že kakšno leto se s kolegi igramo "ugani avtorja s-t članka". :D

enadvatri ::

Skoraj vsak malenkost nadpovprečno pismen, kaj šele nadarjen, človek je sposoben načrtno precej spodobno anonimizirati svoje besedilo. (Ustrezno) zamenjevanje sloga ni umetnost, še zlasti, če veš, kaj se običajno analizira.

Čisto po Prešernu, uporabiš eno pesniško obliko (sonet npr.), se poslužuješ slovarja, namerno uporabljaš slogovno zaznamovane besede, kratice, popaziš na rime in si na hudiču. Bomo pa vsi pesniki, kur'c! :|

stb ::

Kaj pa naključne verige strojnih prevodov?
slovenščina -> nemščina -> angleščina -> japonščina -> nemščina -> slovenščina
naključno se izbere dolžina (npr 2-5), jeziki (npr nabor bolje podprtih) in prevajalnik za vsak korak (bing, google...)
Tega niti avtor sam ne bi več razumel in pripisal samemu sebi :D

Hayabusa ::

Kaj je stroj prevod naključno niza?
-> Nemčija -> Slovenija> Japonski -> Angleščina -> nemško - slovenski
Jezik (na primer število boljšo podporo) (2-5 primer), prevajalnik za vsak korak (Bing, Google ...), je naključno dolžina
Ne bi me razumel, čeprav

google translate 5x

Rado1 ::

"Svojo analizo sta s pomočjo orodij Anonymouth in JStylo (machine learning verzija prvega) "

Ne bo problema. Si bo pač anonimni pisec nabavil ta program, ter pred objavljanjem "spustil" svoje tekste skozenj. Potem le še spremeni ključne besede, pa je zadeva rešena (vsaj kar se tiče lingvistične prepoznave)
:D

leiito ::

Če je "za zanesljivosf analize ključna količina besedila, ki ga mora biti vsaj 5.000, še raje 6.500 besed, potem je mogoče dokaj enostavno izluščiti uporabnikov stil", je 99.9999% anonimcev povsem varnih. Kdo pa spiše tekst 6.500 besed? To je cca. desetina povprečne knjige ali pa 10 člankov v časopisu ali reviji.

Utegne pa biti JStylo zanimiv, če je user-friendly, da ga nafutraš npr. z Okopi in Premiki, potem pa samo še vpišeš urlje vseh možnih forumov in ti najde morebitne Janšatove poste.

Morda uporabno za identifikacijo piscev anonimk, ampak spet rabiš osumljenca, ki je objavil 6.500 besed.

smash ::

kakor razumem, nista nikogar identificirali, temveč samo povezali različne anonimne uporabnike na različnih forumih

leiito je izjavil:

Če je "za zanesljivosf analize ključna količina besedila, ki ga mora biti vsaj 5.000, še raje 6.500 besed, potem je mogoče dokaj enostavno izluščiti uporabnikov stil", je 99.9999% anonimcev povsem varnih. Kdo pa spiše tekst 6.500 besed? To je cca. desetina povprečne knjige ali pa 10 člankov v časopisu ali reviji.

Utegne pa biti JStylo zanimiv, če je user-friendly, da ga nafutraš npr. z Okopi in Premiki, potem pa samo še vpišeš urlje vseh možnih forumov in ti najde morebitne Janšatove poste.

Morda uporabno za identifikacijo piscev anonimk, ampak spet rabiš osumljenca, ki je objavil 6.500 besed.


hočeš rečt, da v vseh svojih postih tukaj do sedaj nisi napisal 6500 besed? samo poglej, v kolikih temih si že sodeloval

Zgodovina sprememb…

  • spremenilo: smash ()

dzinks63 ::

Imaš primere, ko osebe copy-pastajo svoje umotvore po vseh forumih, na katerih so aktivni, seveda so prijavljeni na vsakem z drugim psevdonimom ali pa še to ne. Tašne odkrije in poveže vsak, toda novica govori o slogu pisanja sporočil iz katerega se da povezati, kdo je pisec, je kot nekakšen prstni odtis lastnika. Računalnikom se še vedno veča moč, kmalu te bodo tudi po samem slogu pisanju prepoznali, čeprav ne boš prijavljen, pisal preko tora in še česa in te bodo brez problema izsledili. Anonimnosti na netu bo vedno manj, v prihodnosti sploh ne boš mogel več biti, pravzaprav še kihniti ne boš mogel, brez da nebi tega zabeležili in vedeli ali preverili to.

carota ::

Konkreten primer, avtor novice, Mandi ima svoj slog, npr. beseda "izpremeniti", "Ko to enkrat je, ...", ki mu ne bi bilo težko slediti. :))

leiito ::

smash je izjavil:

kakor razumem, nista nikogar identificirali, temveč samo povezali različne anonimne uporabnike na različnih forumih

leiito je izjavil:

Če je "za zanesljivosf analize ključna količina besedila, ki ga mora biti vsaj 5.000, še raje 6.500 besed, potem je mogoče dokaj enostavno izluščiti uporabnikov stil", je 99.9999% anonimcev povsem varnih. Kdo pa spiše tekst 6.500 besed? To je cca. desetina povprečne knjige ali pa 10 člankov v časopisu ali reviji.

Utegne pa biti JStylo zanimiv, če je user-friendly, da ga nafutraš npr. z Okopi in Premiki, potem pa samo še vpišeš urlje vseh možnih forumov in ti najde morebitne Janšatove poste.

Morda uporabno za identifikacijo piscev anonimk, ampak spet rabiš osumljenca, ki je objavil 6.500 besed.


hočeš rečt, da v vseh svojih postih tukaj do sedaj nisi napisal 6500 besed? samo poglej, v kolikih temih si že sodeloval


Najbrž še več, vsaj čez prst. Upam da zna program sam izbrskati vse poste izbranega uporabnika, ker ročni copy paste je zelo zamuden.

Marat ::

smash je izjavil:


hočeš rečt, da v vseh svojih postih tukaj do sedaj nisi napisal 6500 besed? samo poglej, v kolikih temih si že sodeloval

Mislim da je fora tudi v tem, da imaš nekaj daljših zapisov (veliko število besed v enem postu), zato da se lažje izlušči tvoje značilne fraze in stil pisanja.

tko da če pišeš krajše texte v stilu tweetov, si bolj varen :)

Matija82 ::

Mam namen tole sicer še pogledal ampak zaenkrat mislim, da so novice malo pretirane.

Teme nimajo nobene veze z lingvistično analiza in stilom. Pogruntat, da je nekdo iz SloTecha (ki je naredil isti review filma hobit) nekdo iz Slo-File sharinga (isti review) ni baš neka znanost. Avtomatizacija teh odkritij je sicer kul ampak daleč od nekega padca anonimnosti.

"Machine learning version prvega" ? JStylo analizira, Anonymouth maskira.

Stylo v0.0.1 - Authorship recognition analysis tool.
Anonymouth v0.0.2 - Authorship recognition evasion tool.

smash ::

leiito je izjavil:

smash je izjavil:

kakor razumem, nista nikogar identificirali, temveč samo povezali različne anonimne uporabnike na različnih forumih

leiito je izjavil:

Če je "za zanesljivosf analize ključna količina besedila, ki ga mora biti vsaj 5.000, še raje 6.500 besed, potem je mogoče dokaj enostavno izluščiti uporabnikov stil", je 99.9999% anonimcev povsem varnih. Kdo pa spiše tekst 6.500 besed? To je cca. desetina povprečne knjige ali pa 10 člankov v časopisu ali reviji.

Utegne pa biti JStylo zanimiv, če je user-friendly, da ga nafutraš npr. z Okopi in Premiki, potem pa samo še vpišeš urlje vseh možnih forumov in ti najde morebitne Janšatove poste.

Morda uporabno za identifikacijo piscev anonimk, ampak spet rabiš osumljenca, ki je objavil 6.500 besed.


hočeš rečt, da v vseh svojih postih tukaj do sedaj nisi napisal 6500 besed? samo poglej, v kolikih temih si že sodeloval


Najbrž še več, vsaj čez prst. Upam da zna program sam izbrskati vse poste izbranega uporabnika, ker ročni copy paste je zelo zamuden.


v bistvu je to, na kak način prideš do postov, tukaj čisto drugega pomena...avtorji programa se verjetno niti niso ukvarjali s tem, kako pridobiti vsebine, niti jih to verjetno ni toliko zanimalo (verjetno jim je plugine za vsak forum spisal nekdo drug)...na kar so se oni osredotočili, je bila samo vsebina postov

andraz2112 ::

Rado1 je izjavil:

"Svojo analizo sta s pomočjo orodij Anonymouth in JStylo (machine learning verzija prvega) "

Ne bo problema. Si bo pač anonimni pisec nabavil ta program, ter pred objavljanjem "spustil" svoje tekste skozenj. Potem le še spremeni ključne besede, pa je zadeva rešena (vsaj kar se tiče lingvistične prepoznave)
:D



Se strinjam :)

garamond ::

Marat je izjavil:

smash je izjavil:


hočeš rečt, da v vseh svojih postih tukaj do sedaj nisi napisal 6500 besed? samo poglej, v kolikih temih si že sodeloval

Mislim da je fora tudi v tem, da imaš nekaj daljših zapisov (veliko število besed v enem postu), zato da se lažje izlušči tvoje značilne fraze in stil pisanja.

tko da če pišeš krajše texte v stilu tweetov, si bolj varen :)
Ni pa nujno. Tipičen post od uporabnika Matev se spozna z lune :)

Roadkill ::

>> thebadhackerz.com, blackhatpalace.com, carders.cc, free-hack.com, hackel1te.info, hack-sector.forumh.net, rootwarez.org, L33tcrew.org ter antichat.ru

wtf? Kdaj so dobili podatke.... 2009?
Večina teh strani ne obstaja že lep čas.
Ü

enadvatri ::

Take stvari se zagotovo arhivirajo! Bolj zanimivo vprašanje je, kje so to dobili oz. od koga. :)

gslo ::

lol omg wtf!

enadvatri ::

gslo je izjavil:

lol omg wtf!


Še Kunstljeve bloge nekateri arhivirajo ... :))

jype ::

Če kdo ugane, kateri je moj drugi psevdonim na tem forumu (s pomočjo poljubnega programa) mu dam za nagrado 5 kilogramsko nutello. Psevdonim je že star in je bil v januarju že aktiven (je objavil več prispevkov).

Ljudje z dostopom do dnevniških datotek spletnega strežnika slo-techa so iz igre izključeni, nutello pa vseeno lahko dobijo namazano na kakšno palačinko, če si je ravno želijo.

Zgodovina sprememb…

  • spremenilo: jype ()

Okapi ::

Itak vsi vedo, da si Okapi. Te je že Nimitz (če se ne motim) pred par leti razkrinkal.8-)

O.

BaToCarx ::

jype je izjavil:

Če kdo ugane, kateri je moj drugi psevdonim na tem forumu (s pomočjo poljubnega programa) mu dam za nagrado 5 kilogramsko nutello. Psevdonim je že star in je bil v januarju že aktiven (je objavil več prispevkov).

Ljudje z dostopom do dnevniških datotek spletnega strežnika slo-techa so iz igre izključeni, nutello pa vseeno lahko dobijo namazano na kakšno palačinko, če si je ravno želijo.


Pa saj se hecaš. Ponudi raje To

jype ::

Okapi> Itak vsi vedo, da si Okapi. Te je že Nimitz (če se ne motim) pred par leti razkrinkal.8-)

Ššš.


Vredno ogleda ...

TemaSporočilaOglediZadnje sporočilo
TemaSporočilaOglediZadnje sporočilo
»

Človeški jezik (strani: 1 2 )

Oddelek: Znanost in tehnologija
7310870 (7185) kuall
»

O identifikaciji internetnih piscev

Oddelek: Novice / Omrežja / internet
276276 (4206) jype
»

Znam angleško a je ne slišim

Oddelek: Šola
497202 (5308) Pebkac
»

Računalnik-prevajalec (strani: 1 2 )

Oddelek: Znanost in tehnologija
715864 (5161) Tear_DR0P
»

Kompres proti virusu HIV (strani: 1 2 )

Oddelek: Novice / Znanost in tehnologija
856922 (5616) Thomas

Več podobnih tem