SC Magazine - Še ena z lanskega 29CCC: raziskovalna skupina ameriških univerz Drexel (Pennsylvania) and George Mason (Virginia) je predstavila zaključke svoje študije metod za identifikacijo anonimnih piscev na bolj ali manj nezakonitih spletnih forumih, posebej takih, kjer se združujejo hekerji, kradljivci kreditnih kartic in druga manj slavna imena internetnega podzemlja. Avtorici (na sliki) pravita, da lahko s pomočjo lingvistične analize identificirata 80% avtorjev, jim sledita od foruma do foruma (če uporabljajo različne vzdevke); vse celo če pišejo v tujem jeziku.
Za zanesljivost analize je ključna količina besedila, ki ga mora biti vsaj 5000 besed (še raje 6500 besed), nakar je mogoče dokaj enostavno izluščiti uporabnikov stil, redke a značilne besede, tipično dolžino stavkov, značilna priredja in podredja, ter še številne druge značilnosti, ki se le počasi in redko spreminjajo in jih je precej težko, zoprno in zamudno izpremeniti. Ko to enkrat je (en daljši post), je te značilnosti mogoče dokaj hitro najti tudi v predhodnih oz. sledečih krajših zapisih. Svojo analizo sta s pomočjo orodij Anonymouth in JStylo (machine learning verzija prvega) pognali na objavah na forumih thebadhackerz.com, blackhatpalace.com, carders.cc, free-hack.com, hackel1te.info, hack-sector.forumh.net, rootwarez.org, L33tcrew.org ter antichat.ru, ter hitro identificirali približno 300 ponavljajočih tem istih avtorjev. Sledenje od foruma je mogoče še dopolniti s primerjanjem časov objav, uporabniških imen ter IP številk. Uporaba tujega jezika ni problematična, saj naj bi tako Google Translate kot tudi Bing Translate ohranila ključne stilne značilnosti, zato pa toliko več preglavic delata internetni sleng (leetspeak in kratice nasploh) oz. kratkost besedil nasploh.
Avtorici si želita proces povsem avtomatizirati, ter ne izključujeta sodelovanja s pravosodnimi organi (kako lepo). Tehnike, ki jih uporabljata, sicer niso nujno nove, je pa zato praktični učinek toliko večji.
Slaba novica za nas, ki pišemo pod psevdonimom, torej :).
Drži, novo to res ni. Tako so raziskovali že različna dela neimenovanih pisateljev iz daljnih stoletij ter jih primerjali z znanimi, da bi morda tako ugotovili avtorstvo še neznanih del ... no pa tudi forumaši že leta izvajajo podobno metodo "ugibanja" na kolegih soforumaših.
The main failure in computers is usually located between keyboard and chair.
You read what you believe and you believe what you read ...
Nisam čit'o, ali osudjujem (nisem bral, a obsojam).
Veliko bolje je, če imaš vsaj 100 uporabniških imen in naključno izbereš enega za objavo (in seveda skriješ ostale podatke, na podlagi katerih se lahko uporabniška imena združi).
Veliko bolje je, če imaš vsaj 100 uporabniških imen in naključno izbereš enega za objavo (in seveda skriješ ostale podatke, na podlagi katerih se lahko uporabniška imena združi).
Ne bo držalo. Uporabniška imena in podatki profilov niso nikjer omenjeni. Gre za analizo sloga pisanja (ki se pojavlja pod različnimi psevdonimi in uporabniškimi imeni), na podlagi katere potem identificirajo pisca.
Skoraj vsak malenkost nadpovprečno pismen, kaj šele nadarjen, človek je sposoben načrtno precej spodobno anonimizirati svoje besedilo. (Ustrezno) zamenjevanje sloga ni umetnost, še zlasti, če veš, kaj se običajno analizira.
Čisto po Prešernu, uporabiš eno pesniško obliko (sonet npr.), se poslužuješ slovarja, namerno uporabljaš slogovno zaznamovane besede, kratice, popaziš na rime in si na hudiču. Bomo pa vsi pesniki, kur'c!
Kaj pa naključne verige strojnih prevodov? slovenščina -> nemščina -> angleščina -> japonščina -> nemščina -> slovenščina naključno se izbere dolžina (npr 2-5), jeziki (npr nabor bolje podprtih) in prevajalnik za vsak korak (bing, google...) Tega niti avtor sam ne bi več razumel in pripisal samemu sebi
Kaj je stroj prevod naključno niza? -> Nemčija -> Slovenija> Japonski -> Angleščina -> nemško - slovenski Jezik (na primer število boljšo podporo) (2-5 primer), prevajalnik za vsak korak (Bing, Google ...), je naključno dolžina Ne bi me razumel, čeprav
"Svojo analizo sta s pomočjo orodij Anonymouth in JStylo (machine learning verzija prvega) "
Ne bo problema. Si bo pač anonimni pisec nabavil ta program, ter pred objavljanjem "spustil" svoje tekste skozenj. Potem le še spremeni ključne besede, pa je zadeva rešena (vsaj kar se tiče lingvistične prepoznave)
Če je "za zanesljivosf analize ključna količina besedila, ki ga mora biti vsaj 5.000, še raje 6.500 besed, potem je mogoče dokaj enostavno izluščiti uporabnikov stil", je 99.9999% anonimcev povsem varnih. Kdo pa spiše tekst 6.500 besed? To je cca. desetina povprečne knjige ali pa 10 člankov v časopisu ali reviji.
Utegne pa biti JStylo zanimiv, če je user-friendly, da ga nafutraš npr. z Okopi in Premiki, potem pa samo še vpišeš urlje vseh možnih forumov in ti najde morebitne Janšatove poste.
Morda uporabno za identifikacijo piscev anonimk, ampak spet rabiš osumljenca, ki je objavil 6.500 besed.
Če je "za zanesljivosf analize ključna količina besedila, ki ga mora biti vsaj 5.000, še raje 6.500 besed, potem je mogoče dokaj enostavno izluščiti uporabnikov stil", je 99.9999% anonimcev povsem varnih. Kdo pa spiše tekst 6.500 besed? To je cca. desetina povprečne knjige ali pa 10 člankov v časopisu ali reviji.
Utegne pa biti JStylo zanimiv, če je user-friendly, da ga nafutraš npr. z Okopi in Premiki, potem pa samo še vpišeš urlje vseh možnih forumov in ti najde morebitne Janšatove poste.
Morda uporabno za identifikacijo piscev anonimk, ampak spet rabiš osumljenca, ki je objavil 6.500 besed.
hočeš rečt, da v vseh svojih postih tukaj do sedaj nisi napisal 6500 besed? samo poglej, v kolikih temih si že sodeloval
Imaš primere, ko osebe copy-pastajo svoje umotvore po vseh forumih, na katerih so aktivni, seveda so prijavljeni na vsakem z drugim psevdonimom ali pa še to ne. Tašne odkrije in poveže vsak, toda novica govori o slogu pisanja sporočil iz katerega se da povezati, kdo je pisec, je kot nekakšen prstni odtis lastnika. Računalnikom se še vedno veča moč, kmalu te bodo tudi po samem slogu pisanju prepoznali, čeprav ne boš prijavljen, pisal preko tora in še česa in te bodo brez problema izsledili. Anonimnosti na netu bo vedno manj, v prihodnosti sploh ne boš mogel več biti, pravzaprav še kihniti ne boš mogel, brez da nebi tega zabeležili in vedeli ali preverili to.
Če je "za zanesljivosf analize ključna količina besedila, ki ga mora biti vsaj 5.000, še raje 6.500 besed, potem je mogoče dokaj enostavno izluščiti uporabnikov stil", je 99.9999% anonimcev povsem varnih. Kdo pa spiše tekst 6.500 besed? To je cca. desetina povprečne knjige ali pa 10 člankov v časopisu ali reviji.
Utegne pa biti JStylo zanimiv, če je user-friendly, da ga nafutraš npr. z Okopi in Premiki, potem pa samo še vpišeš urlje vseh možnih forumov in ti najde morebitne Janšatove poste.
Morda uporabno za identifikacijo piscev anonimk, ampak spet rabiš osumljenca, ki je objavil 6.500 besed.
hočeš rečt, da v vseh svojih postih tukaj do sedaj nisi napisal 6500 besed? samo poglej, v kolikih temih si že sodeloval
Najbrž še več, vsaj čez prst. Upam da zna program sam izbrskati vse poste izbranega uporabnika, ker ročni copy paste je zelo zamuden.
hočeš rečt, da v vseh svojih postih tukaj do sedaj nisi napisal 6500 besed? samo poglej, v kolikih temih si že sodeloval
Mislim da je fora tudi v tem, da imaš nekaj daljših zapisov (veliko število besed v enem postu), zato da se lažje izlušči tvoje značilne fraze in stil pisanja.
tko da če pišeš krajše texte v stilu tweetov, si bolj varen
Mam namen tole sicer še pogledal ampak zaenkrat mislim, da so novice malo pretirane.
Teme nimajo nobene veze z lingvistično analiza in stilom. Pogruntat, da je nekdo iz SloTecha (ki je naredil isti review filma hobit) nekdo iz Slo-File sharinga (isti review) ni baš neka znanost. Avtomatizacija teh odkritij je sicer kul ampak daleč od nekega padca anonimnosti.
"Machine learning version prvega" ? JStylo analizira, Anonymouth maskira.
Če je "za zanesljivosf analize ključna količina besedila, ki ga mora biti vsaj 5.000, še raje 6.500 besed, potem je mogoče dokaj enostavno izluščiti uporabnikov stil", je 99.9999% anonimcev povsem varnih. Kdo pa spiše tekst 6.500 besed? To je cca. desetina povprečne knjige ali pa 10 člankov v časopisu ali reviji.
Utegne pa biti JStylo zanimiv, če je user-friendly, da ga nafutraš npr. z Okopi in Premiki, potem pa samo še vpišeš urlje vseh možnih forumov in ti najde morebitne Janšatove poste.
Morda uporabno za identifikacijo piscev anonimk, ampak spet rabiš osumljenca, ki je objavil 6.500 besed.
hočeš rečt, da v vseh svojih postih tukaj do sedaj nisi napisal 6500 besed? samo poglej, v kolikih temih si že sodeloval
Najbrž še več, vsaj čez prst. Upam da zna program sam izbrskati vse poste izbranega uporabnika, ker ročni copy paste je zelo zamuden.
v bistvu je to, na kak način prideš do postov, tukaj čisto drugega pomena...avtorji programa se verjetno niti niso ukvarjali s tem, kako pridobiti vsebine, niti jih to verjetno ni toliko zanimalo (verjetno jim je plugine za vsak forum spisal nekdo drug)...na kar so se oni osredotočili, je bila samo vsebina postov
"Svojo analizo sta s pomočjo orodij Anonymouth in JStylo (machine learning verzija prvega) "
Ne bo problema. Si bo pač anonimni pisec nabavil ta program, ter pred objavljanjem "spustil" svoje tekste skozenj. Potem le še spremeni ključne besede, pa je zadeva rešena (vsaj kar se tiče lingvistične prepoznave)
hočeš rečt, da v vseh svojih postih tukaj do sedaj nisi napisal 6500 besed? samo poglej, v kolikih temih si že sodeloval
Mislim da je fora tudi v tem, da imaš nekaj daljših zapisov (veliko število besed v enem postu), zato da se lažje izlušči tvoje značilne fraze in stil pisanja.
tko da če pišeš krajše texte v stilu tweetov, si bolj varen
Ni pa nujno. Tipičen post od uporabnika Matev se spozna z lune :)
Če kdo ugane, kateri je moj drugi psevdonim na tem forumu (s pomočjo poljubnega programa) mu dam za nagrado 5 kilogramsko nutello. Psevdonim je že star in je bil v januarju že aktiven (je objavil več prispevkov).
Ljudje z dostopom do dnevniških datotek spletnega strežnika slo-techa so iz igre izključeni, nutello pa vseeno lahko dobijo namazano na kakšno palačinko, če si je ravno želijo.
Če kdo ugane, kateri je moj drugi psevdonim na tem forumu (s pomočjo poljubnega programa) mu dam za nagrado 5 kilogramsko nutello. Psevdonim je že star in je bil v januarju že aktiven (je objavil več prispevkov).
Ljudje z dostopom do dnevniških datotek spletnega strežnika slo-techa so iz igre izključeni, nutello pa vseeno lahko dobijo namazano na kakšno palačinko, če si je ravno želijo.