» »

Na Harvardu analizirali pet milijonov knjig

Na Harvardu analizirali pet milijonov knjig

Analiza cenzure

Slo-Tech - Raziskovalci z različnih fakultet na Harvardu so izvedli izjemno zanimivo analizo pisane besede od izuma tiska do danes, s katero so proučevali kulture fenomene v času in jih poizkušali kvantizirati. Pri tem jim je zelo pomagal obsežen Googlov korpus skeniranih knjig - uporabili so približno tretjino in na njej izvedli statistično analizo.

Uporabili so dobrih pet milijonov knjig. Za predstavo povejmo, da so to štirje odstotki vseh v zgodovini napisanih knjig. Vsebujejo več kot petsto milijard besed, od tega največ v angleščini (361 milijard), sledijo pa francoščina (45 milijard), španščina (45 milijard), nemščina (37 milijard), kitajščina (13 milijard), ruščina (35 milijard) in hebrejščina (dve milijardi). Tega ne zmore prebrati noben človek, saj bi samo za vsa objavljena dela v letu 2000 potreboval osemdeset let neprekinjenega branja. Računalniki pa to lahko storijo.

Rezultat svojega udejstvovanja so znanstveniki po zgledu genoma (skupek vseh genov) in proteoma (skupek vseh proteinov) poimenovali kulturom - torej zbirek vse zapisane kulture, ki smo jo v petsto letih ustvarili. Novo vejo znanosti pa imenujejo kulturomika, spet po zgledu genomike in proteomike. Ob tem povejmo, da je Google poskeniral trikrat več knjig (torej 12 odstotkov vseh kdajkoli napisanih), a vse nimajo zadovoljivih metapodatkov (leto izida, kraj izida ...) za vključitev v raziskavo, tako da jih je uporabnih tretjina.

Analizirali so ponovitve, frekvenco in relativni delež (slednjega kot ponder zaradi eksponentno naraščajoče produkcije besedil) posameznih besed in besednih skupin z največ petimi besedami (poimenovali so jih n-grami). Rezultati kažejo zeitgeist posamezne dobe. Do leta 1945 na primer niso govorili o prvi svetovni vojni, ampak o véliki vojni, saj si niso mislili, da bo sledila še ena večja. Ugotovili so, da ima angleščina po najmanj rigorozni definiciji (veljajo vse besede s frekvenco višjo od 10-9, tudi numerične, zatipkane in tujke) poldrugi milijon besed, po nekoliko resnejši pa še vedno več kot milijon.

Zanimala jih je tudi evolucija slovnice, predvsem nepravilnih glagolov. Večinoma težijo k pravilnosti (v zadnjih 200 letih so burn, chide, smell, spell, spill, thrive postali pravilni), ni pa to pravilo, saj je light spet dobil nepravilni particip lit, da niti ne omenjamo popačenega snuck od glagola sneak.

Zanimiva je bila analiza popularnosti oseb in zatona njihove slave. Ugotovili so, da so v moderni dobi slavni ljudje v povprečju mlajši in bolj slavni kot včasih. Žal so tudi prej pozabljeni, saj se je razpolovni čas slave znižal s 120 na 71 let v 19. stoletju. Zadnja analiza je bila na področju cenzure. Ugotovili so, da recimo v času nacistične Nemčije v nemški literaturi Marca Chagalla praktično ne omenjajo, medtem ko v angleški še kako. Izračunali so celo indeks supresije.

Zaključek je obetajoč. Kulturomika postaja pomemben vir informacij o družbi, kakor so fosili pomemben vir informacij o evoluciji. Z natančno analizo in podatkovnim rudarjenjem je iz pisane besede moč izvleči ogromno podatkov in računalniki nam z digitalizacijo knjig to omogočajo. Izsledki so objavljeni v članku Quantitative Analysis of Culture Using Millions of Digitized Books v ugledni reviji Science. Celoten članek je brezplačno dostopen na Librarianu.

5 komentarjev

poweroff ::

Tole bi bilo super pognati na Dlibu.
sudo poweroff

Afo ::

Izredno všečna raziskava.
Po drugi strani pa je tudi res zanimivo kako se zadnje čase ustvarja ob googlovih in ostalih bazah čedalje več člankov. Npr. cena delnic glede na iskanje besed v googlu, facebook in povezava prijateljev na karti sveta ...
Zanimivi in hkrati instant članki. Zlata doba odkrivanja nekaj novega - vsaj skozi članke. Če si prvi boš pa itak skoraj vedno citiran.
Bolje biti mlad in neumen, kot samo neumen!

Jst ::

>angleščini (361 milijard), sledijo pa francoščina (45 milijard),
>španščina (45 milijard), nemščina (37 milijard), kitajščina (13
>milijard), ruščina (35 milijard) in hebrejščina (dve milijardi).

Nekaj malo kitajskih in ruskih knjig glede na ostale...
Islam is not about "I'm right, you're wrong," but "I'm right, you're dead!"
-Wole Soyinka, Literature Nobelist
|-|-|-|-|Proton decay is a tax on existence.|-|-|-|-|

Mipe ::

Google pač nima neomejenega dostopa do ruske in kitajske literature :)

Tega ne zmore prebrati noben človek, saj bi samo za vsa objavljena dela v letu 2000 potreboval osemdeset let neprekinjenega branja.


Očitno ne berejo tako hitro kot jaz :P

Zgodovina sprememb…

  • spremenil: Mipe ()

Madmax_ ::

Hm, zanimiva raziskava..


Vredno ogleda ...

TemaSporočilaOglediZadnje sporočilo
TemaSporočilaOglediZadnje sporočilo
»

Nasina študija: bivanje v vesolju povzroči reverzibilne spremembe

Oddelek: Novice / Znanost in tehnologija
145310 (2821) mulc007
»

The Intercept: Britanski nadzor telekomunikacij hujši od ameriškega

Oddelek: Novice / NWO
3013803 (10032) matijadmin
»

Na Harvardu analizirali pet milijonov knjig

Oddelek: Novice / Znanost in tehnologija
53556 (2582) Madmax_
»

Umrl nobelovec dr. Norman Ernest Borlaug (strani: 1 2 )

Oddelek: Novice / Znanost in tehnologija
637228 (5924) Thomas
»

Škoda povzročena zaradi ne-gledanja reklam višja od piratiziranja? (strani: 1 2 )

Oddelek: Novice / Avtorsko pravo
6210623 (8011) Gregor P

Več podobnih tem