» »

Kako Google digitalizira milijone The New York Timesovih fotografij

Kako Google digitalizira milijone The New York Timesovih fotografij

The New York Times - Google je začel sodelovati z The New York Timesom pri digitalizaciji več kot petih milijonov fotografij, ki jih ima časnik shranjene v svoji kleti, poimenovani tudi mrtvašnica. Pod svojo stavbo na Time Squaru v New Yorku imajo med 5 in 7 milijoni večinoma edinstvenih fotografij zgodovinskih dogodkov, ki segajo v 19. stoletje. Gre za neprecenljivo dediščino, ki večinoma nima kopij, temveč obstaja le na papirju v kleti. Ko je pred tremi leti počila cev, so imeli precej dela z zavarovanjem zbirke. Tedaj so se tudi vprašali, kako varno shraniti te dokumente.

Fotografije so sicer katalogizirane, a le z osnovnimi opisi dogodka. Na fotografijah je še mnogo več podrobnosti, ki niso zavedene v seznamih. Tu bo na pomoč priskočila Googlov oblak. Da bo treba fotografije digitalizirati, je bilo vsem jasno. Toda te imajo na zadnji strani pogosto številne pripise, izrezke iz časnika in podobno. Manjka pa sistem. Zato so se odločili vpreči umetno inteligenco.

Google bo fotografije skeniral z visoko ločljivostjo in jih shranil v oblak. Potem bo Cloud Pub/Sub izvedel še več opravil: Google Kubernetes Engine jim bo ustrezno spremenil velikost (z ImageMagick), metapodatke (ExifTool) bodo shranili v bazo PostgreSQL na Clould SQL. The New York Times bo dobil enostaven dostop do celotne baze s prijaznim uporabniškim vmesnikom in API-ji. Nato pa bodo uporabili Cloud Vision API, ki bo analiziral skenirane fotografije in poizkusil ugotoviti, kaj je na njih. Poleg tega bo prebral tudi besedilo z zadnje strani in ga dodal v bazo.

S projektom želijo tudi pokazati, da umetna inteligenca prinaša povsem nove možnosti pri digitalizaciji pomembnih dokumentov.



18 komentarjev

srnjak ::

Kubernetes ne bo nič spremenil velikosti. To bodo naredile storitve, ki tečejo znotraj Kubernetesa (GKE).

tikitoki ::

Wow, nisme vedel, da za OCR rabis AI.

blackbfm ::

tikitoki je izjavil:

Wow, nisme vedel, da za OCR rabis AI.


ocr zadostuje za nek navaden poskeniran dopis sestavljen v wordu.. prepoznavanje 100 let stare ročne pisave, raznih pack in zmazkov pod različnimi koti pa se meni ne zdi lih trivialno

DexterBoy ::

Pohvalno dejanje, Google. Kaj bo pa naredil s temi petabiti, je pa vprašanje za kakšno drugo temo.
Veliko je kleti, kjer so shranjeni unikatni zapisi in edinstvene fotografije. Ko sem lani spraševal okoli familijo, ali kdo sploh skenira stare družinske fotografije, so me vsi samo čudno pogledali... In potlej pošlje sestrična from down under ČB slike, ko je bila še otrok z nono na morju... nisem vedel, naj se smejem ali jočem.
Ko ne gre več, ko se ustavi, RESET Vas spet v ritem spravi.
http://www.avtofil.si/

starfotr ::

Jaz bi se projekta lotil drugače. Skeniraš fotke (ne nujno, da gugl to dela). Objaviš fotografije na spletu, potem pa daš ljudem možnost, da prepisujejo in dodajajo opise. Gugl bo tu zraven samo zato, ker so obsedeni z zbiranjem podatkov. Očitno sedaj tudi s preteklimi dogodki. To pa pomeni denar za njih.

stb ::

DexterBoy je izjavil:


Veliko je kleti, kjer so shranjeni unikatni zapisi in edinstvene fotografije. Ko sem lani spraševal okoli familijo, ali kdo sploh skenira stare družinske fotografije, so me vsi samo čudno pogledali... In potlej pošlje sestrična from down under ČB slike, ko je bila še otrok z nono na morju... nisem vedel, naj se smejem ali jočem.

Dokaj tipično - stvari (v tem primeru fotografije) začneš ceniti šele ko jih imaš zelo malo in jim grozi izguba. Tudi NYT je morala predramiti poplava v kleti, da so se zganili k bolj aktivnemu ohranjanju arhiva. Tvoja sestrična ima verjtno le nekaj slik (oz albumov) in jih ceni bolj kot nekdo s polnimi škatlami slik v kleti.

FlyingBee ::

Pogledal je čb sliko in potem njeno na pofilu na facebooki pa ni vedel ali bi se smejal ali jokal.

queščn ::

plosk-plosk, res odličnega izvajalca so našli pri NYT. bravo. Morda bodo naslednjič FBI-ju pomagali digitalizirati stare arhive - čist iz prijaznosti seveda.

borisk ::

no, mislim da obstaja veliko goglovih projektov, ki so vredni kritike in dvoma vanje ampak to je eden tistih, ki so boljši, če bo pa še navoljo širši množici pa še toliko boljše.

Ghost7 ::

Meni je projekt všeč. Če vam zaradi tega ker je zraven google ni, pa naredte sami tak AI, investirajte v toliko in toliko ur za digitalizacijo, toliko in toliko programerskih ur, toliko in toliko elektrike in na koncu, da bo res kul: Servirajte nam vse zastonj!

Pa kaj potem, če bo google imel vse 100 let stare slike NYT? Jaz jih zanekrat nimam, ko jih google zastonj servira "jih bom imel". Pa še NYT mi ne bo treba obiskat, jih prositi za dostop imeti ure in ure, da sem tam. Tako pa bom lahko vmes ko draga gleda romantično komedijo sam na tablici pregledal zgodovino, katera me zanima.

Kot je rekel mj predhodnik, to je eden redkih svetlih projektov!

PunkDude ::

Kje pa je rečeno, da bo dostopno širši množici ter da bo celo zastojn?

nevone ::

PunkDude je izjavil:

Kje pa je rečeno, da bo dostopno širši množici ter da bo celo zastojn?


Koliko plačaš za to, da imaš na razpolago Google Maps?

o+ nevone
The best way to predict the future is to create it yourself.

PunkDude ::

Prvo kot prvo, a je res potreben quote? Saj pišeš takoj pod mojim postom. Debilizem.
Drugo, ne sprašuj neumnosti, logično da je đabe.
Ni pa nikjer rečeno, da bodo NY Times slike tudi.
Tudi Google Earth Pro na začetku ni bil đabe.

nevone ::

Prvo kot prvo, a je res potreben quote? Saj pišeš takoj pod mojim postom. Debilizem.


Take debilizme se da komot preživeti. Sploh pa lahko nekdo pred mano, medtem ko jaz pišem, nekaj napiše.

o+ nevone
The best way to predict the future is to create it yourself.

Peti ::

nevone je izjavil:

PunkDude je izjavil:

Kje pa je rečeno, da bo dostopno širši množici ter da bo celo zastojn?


Koliko plačaš za to, da imaš na razpolago Google Maps?

o+ nevone


Veliko. Svoje osebne podatke. Ampak se mi vseeno ne zdi ta poteza sporna(novica). Je pa sporno marsikaj drugega glede prijaznega Googla. Ampak taksen je pac business model. Nikogar ne silijo k uporabi... direktno... heh.

nevone ::

Veliko. Svoje osebne podatke.

Katere pa? Naslov?

o+ nevone
The best way to predict the future is to create it yourself.

Jure14 ::

nevone je izjavil:

Veliko. Svoje osebne podatke.

Katere pa? Naslov?

Tvoj domači naslov, pa službeni naslov, pa vrtec in šola, če imaš še male otroke.
Trgovine, kjer redno kupuješ, pa mogoče še naslov vikenda, ki ga imaš na hrvaškem.

nevone ::

Ja in? A to je tako grozno, da ni vredno vseh komoditet, ki jih s tem dobiš?

Ti svoje podatke puščaš povsod. Zakaj in čemu misliš, da je ravno Google tisti, ki jih ne bi smel imeti, glede na to, da svoje storitve precej široko deli z vsemi?

o+ nevone
The best way to predict the future is to create it yourself.


Vredno ogleda ...

TemaSporočilaOglediZadnje sporočilo
TemaSporočilaOglediZadnje sporočilo
»

NSA prestreza fotografije za prepoznavo obrazov

Oddelek: Novice / NWO
114171 (2174) s6c-gEL
»

Getty Images brezplačno ponuja 35 milijonov slik

Oddelek: Novice / Avtorsko pravo
316974 (4633) digitalcek
»

NSA brska po igri Angry Birds in Googlovih zemljevidih

Oddelek: Novice / NWO
319250 (6477) trizob
»

The New York Times je z modelom plačljive spletne strani uspel

Oddelek: Novice / Rezultati
408540 (6491) gruntfürmich
»

Google ustavil digitalizacijo starih časnikov

Oddelek: Novice / Omrežja / internet
72750 (1320) smash

Več podobnih tem