Na Harvardu analizirali pet milijonov knjig

Matej Huš

19. dec 2010 ob 08:36:41

Raziskovalci z različnih fakultet na Harvardu so izvedli izjemno zanimivo analizo pisane besede od izuma tiska do danes, s katero so proučevali kulture fenomene v času in jih poizkušali kvantizirati. Pri tem jim je zelo pomagal obsežen Googlov korpus skeniranih knjig - uporabili so približno tretjino in na njej izvedli statistično analizo.

Uporabili so dobrih pet milijonov knjig. Za predstavo povejmo, da so to štirje odstotki vseh v zgodovini napisanih knjig. Vsebujejo več kot petsto milijard besed, od tega največ v angleščini (361 milijard), sledijo pa francoščina (45 milijard), španščina (45 milijard), nemščina (37 milijard), kitajščina (13 milijard), ruščina (35 milijard) in hebrejščina (dve milijardi). Tega ne zmore prebrati noben človek, saj bi samo za vsa objavljena dela v letu 2000 potreboval osemdeset let neprekinjenega branja. Računalniki pa to lahko storijo.

Rezultat svojega udejstvovanja so znanstveniki po zgledu genoma (skupek vseh genov) in proteoma (skupek vseh proteinov) poimenovali kulturom - torej zbirek vse zapisane kulture, ki smo jo v petsto letih ustvarili. Novo vejo znanosti pa imenujejo kulturomika, spet po zgledu genomike in proteomike. Ob tem povejmo, da je Google poskeniral trikrat več knjig (torej 12 odstotkov vseh kdajkoli napisanih), a vse nimajo zadovoljivih metapodatkov (leto izida, kraj izida ...) za vključitev v raziskavo, tako da jih je uporabnih tretjina.

Analizirali so ponovitve, frekvenco in relativni delež (slednjega kot ponder zaradi eksponentno naraščajoče produkcije besedil) posameznih besed in besednih skupin z največ petimi besedami (poimenovali so jih n-grami). Rezultati kažejo zeitgeist posamezne dobe. Do leta 1945 na primer niso govorili o prvi svetovni vojni, ampak o véliki vojni, saj si niso mislili, da bo sledila še ena večja. Ugotovili so, da ima angleščina po najmanj rigorozni definiciji (veljajo vse besede s frekvenco višjo od 10-9, tudi numerične, zatipkane in tujke) poldrugi milijon besed, po nekoliko resnejši pa še vedno več kot milijon.

Zanimala jih je tudi evolucija slovnice, predvsem nepravilnih glagolov. Večinoma težijo k pravilnosti (v zadnjih 200 letih so burn, chide, smell, spell, spill, thrive postali pravilni), ni pa to pravilo, saj je light spet dobil nepravilni particip lit, da niti ne omenjamo popačenega snuck od glagola sneak.

Zanimiva je bila analiza popularnosti oseb in zatona njihove slave. Ugotovili so, da so v moderni dobi slavni ljudje v povprečju mlajši in bolj slavni kot včasih. Žal so tudi prej pozabljeni, saj se je razpolovni čas slave znižal s 120 na 71 let v 19. stoletju. Zadnja analiza je bila na področju cenzure. Ugotovili so, da recimo v času nacistične Nemčije v nemški literaturi Marca Chagalla praktično ne omenjajo, medtem ko v angleški še kako. Izračunali so celo indeks supresije.

Zaključek je obetajoč. Kulturomika postaja pomemben vir informacij o družbi, kakor so fosili pomemben vir informacij o evoluciji. Z natančno analizo in podatkovnim rudarjenjem je iz pisane besede moč izvleči ogromno podatkov in računalniki nam z digitalizacijo knjig to omogočajo. Izsledki so objavljeni v članku Quantitative Analysis of Culture Using Millions of Digitized Books v ugledni reviji Science. Celoten članek je brezplačno dostopen na Librarianu.