Kako Google digitalizira milijone The New York Timesovih fotografij @ Slo-Tech

Novice » Ostalo »
Kako Google digitalizira milijone The New York Timesovih fotografij

Kako Google digitalizira milijone The New York Timesovih fotografij

Matej Huš :: 10. nov 2018 ob 23:24
Ostalo

The New York Times - Google je začel sodelovati z The New York Timesom pri digitalizaciji več kot petih milijonov fotografij, ki jih ima časnik shranjene v svoji kleti, poimenovani tudi mrtvašnica. Pod svojo stavbo na Time Squaru v New Yorku imajo med 5 in 7 milijoni večinoma edinstvenih fotografij zgodovinskih dogodkov, ki segajo v 19. stoletje. Gre za neprecenljivo dediščino, ki večinoma nima kopij, temveč obstaja le na papirju v kleti. Ko je pred tremi leti počila cev, so imeli precej dela z zavarovanjem zbirke. Tedaj so se tudi vprašali, kako varno shraniti te dokumente.

Fotografije so sicer katalogizirane, a le z osnovnimi opisi dogodka. Na fotografijah je še mnogo več podrobnosti, ki niso zavedene v seznamih. Tu bo na pomoč priskočila Googlov oblak. Da bo treba fotografije digitalizirati, je bilo vsem jasno. Toda te imajo na zadnji strani pogosto številne pripise, izrezke iz časnika in podobno. Manjka pa sistem. Zato so se odločili vpreči umetno inteligenco.

Google bo fotografije skeniral z visoko ločljivostjo in jih shranil v oblak. Potem bo Cloud Pub/Sub izvedel še več opravil: Google Kubernetes Engine jim bo ustrezno spremenil velikost (z ImageMagick), metapodatke (ExifTool) bodo shranili v bazo PostgreSQL na Clould SQL. The New York Times bo dobil enostaven dostop do celotne baze s prijaznim uporabniškim vmesnikom in API-ji. Nato pa bodo uporabili Cloud Vision API, ki bo analiziral skenirane fotografije in poizkusil ugotoviti, kaj je na njih. Poleg tega bo prebral tudi besedilo z zadnje strani in ga dodal v bazo.

S projektom želijo tudi pokazati, da umetna inteligenca prinaša povsem nove možnosti pri digitalizaciji pomembnih dokumentov.

18 komentarjev

srnjak :: 10. nov 2018, 23:40

Kubernetes ne bo nič spremenil velikosti. To bodo naredile storitve, ki tečejo znotraj Kubernetesa (GKE).

tikitoki :: 10. nov 2018, 23:56

Wow, nisme vedel, da za OCR rabis AI.

blackbfm :: 11. nov 2018, 00:25

tikitoki je 10. nov 2018 ob 23:56 izjavil:

Wow, nisme vedel, da za OCR rabis AI.

ocr zadostuje za nek navaden poskeniran dopis sestavljen v wordu.. prepoznavanje 100 let stare ročne pisave, raznih pack in zmazkov pod različnimi koti pa se meni ne zdi lih trivialno

dexterboy :: 11. nov 2018, 08:30

Pohvalno dejanje, Google. Kaj bo pa naredil s temi petabiti, je pa vprašanje za kakšno drugo temo.
Veliko je kleti, kjer so shranjeni unikatni zapisi in edinstvene fotografije. Ko sem lani spraševal okoli familijo, ali kdo sploh skenira stare družinske fotografije, so me vsi samo čudno pogledali... In potlej pošlje sestrična from down under ČB slike, ko je bila še otrok z nono na morju... nisem vedel, naj se smejem ali jočem.

Ko ne gre več, ko se ustavi, RESET Vas spet v ritem spravi.

starfotr :: 11. nov 2018, 09:21

Jaz bi se projekta lotil drugače. Skeniraš fotke (ne nujno, da gugl to dela). Objaviš fotografije na spletu, potem pa daš ljudem možnost, da prepisujejo in dodajajo opise. Gugl bo tu zraven samo zato, ker so obsedeni z zbiranjem podatkov. Očitno sedaj tudi s preteklimi dogodki. To pa pomeni denar za njih.

stb :: 11. nov 2018, 10:42

dexterboy je 11. nov 2018 ob 08:30 izjavil:

Veliko je kleti, kjer so shranjeni unikatni zapisi in edinstvene fotografije. Ko sem lani spraševal okoli familijo, ali kdo sploh skenira stare družinske fotografije, so me vsi samo čudno pogledali... In potlej pošlje sestrična from down under ČB slike, ko je bila še otrok z nono na morju... nisem vedel, naj se smejem ali jočem.

Dokaj tipično - stvari (v tem primeru fotografije) začneš ceniti šele ko jih imaš zelo malo in jim grozi izguba. Tudi NYT je morala predramiti poplava v kleti, da so se zganili k bolj aktivnemu ohranjanju arhiva. Tvoja sestrična ima verjtno le nekaj slik (oz albumov) in jih ceni bolj kot nekdo s polnimi škatlami slik v kleti.

FlyingBee :: 11. nov 2018, 16:34

Pogledal je čb sliko in potem njeno na pofilu na facebooki pa ni vedel ali bi se smejal ali jokal.

vjreh43WAEFS :: 11. nov 2018, 17:00

plosk-plosk, res odličnega izvajalca so našli pri NYT. bravo. Morda bodo naslednjič FBI-ju pomagali digitalizirati stare arhive - čist iz prijaznosti seveda.

borisk :: 12. nov 2018, 07:52

no, mislim da obstaja veliko goglovih projektov, ki so vredni kritike in dvoma vanje ampak to je eden tistih, ki so boljši, če bo pa še navoljo širši množici pa še toliko boljše.

Ghost7 :: 13. nov 2018, 08:15

Meni je projekt všeč. Če vam zaradi tega ker je zraven google ni, pa naredte sami tak AI, investirajte v toliko in toliko ur za digitalizacijo, toliko in toliko programerskih ur, toliko in toliko elektrike in na koncu, da bo res kul: Servirajte nam vse zastonj!

Pa kaj potem, če bo google imel vse 100 let stare slike NYT? Jaz jih zanekrat nimam, ko jih google zastonj servira "jih bom imel". Pa še NYT mi ne bo treba obiskat, jih prositi za dostop imeti ure in ure, da sem tam. Tako pa bom lahko vmes ko draga gleda romantično komedijo sam na tablici pregledal zgodovino, katera me zanima.

Kot je rekel mj predhodnik, to je eden redkih svetlih projektov!

PunkDude :: 13. nov 2018, 08:27

Kje pa je rečeno, da bo dostopno širši množici ter da bo celo zastojn?

nevone :: 13. nov 2018, 09:44

PunkDude je 13. nov 2018 ob 08:27 izjavil:

Kje pa je rečeno, da bo dostopno širši množici ter da bo celo zastojn?

Koliko plačaš za to, da imaš na razpolago Google Maps?

o+ nevone

Either we will eat the Space or Space will eat us.

PunkDude :: 13. nov 2018, 09:49

Prvo kot prvo, a je res potreben quote? Saj pišeš takoj pod mojim postom. Debilizem.
Drugo, ne sprašuj neumnosti, logično da je đabe.
Ni pa nikjer rečeno, da bodo NY Times slike tudi.
Tudi Google Earth Pro na začetku ni bil đabe.

nevone :: 13. nov 2018, 11:59

Prvo kot prvo, a je res potreben quote? Saj pišeš takoj pod mojim postom. Debilizem.

Take debilizme se da komot preživeti. Sploh pa lahko nekdo pred mano, medtem ko jaz pišem, nekaj napiše.

o+ nevone

Either we will eat the Space or Space will eat us.

Peti :: 13. nov 2018, 12:20

nevone je 13. nov 2018 ob 09:44 izjavil:

PunkDude je 13. nov 2018 ob 08:27 izjavil:
Kje pa je rečeno, da bo dostopno širši množici ter da bo celo zastojn?

Koliko plačaš za to, da imaš na razpolago Google Maps?

o+ nevone

Veliko. Svoje osebne podatke. Ampak se mi vseeno ne zdi ta poteza sporna(novica). Je pa sporno marsikaj drugega glede prijaznega Googla. Ampak taksen je pac business model. Nikogar ne silijo k uporabi... direktno... heh.

nevone :: 13. nov 2018, 12:41

Veliko. Svoje osebne podatke.

Katere pa? Naslov?

o+ nevone

Either we will eat the Space or Space will eat us.

Jure14 :: 13. nov 2018, 12:49

nevone je 13. nov 2018 ob 12:41 izjavil:

Veliko. Svoje osebne podatke.

Katere pa? Naslov?

Tvoj domači naslov, pa službeni naslov, pa vrtec in šola, če imaš še male otroke.
Trgovine, kjer redno kupuješ, pa mogoče še naslov vikenda, ki ga imaš na hrvaškem.

nevone :: 13. nov 2018, 16:00

Ja in? A to je tako grozno, da ni vredno vseh komoditet, ki jih s tem dobiš?

Ti svoje podatke puščaš povsod. Zakaj in čemu misliš, da je ravno Google tisti, ki jih ne bi smel imeti, glede na to, da svoje storitve precej široko deli z vsemi?

o+ nevone

Either we will eat the Space or Space will eat us.

Vredno ogleda ...

	Tema	Sporočila	Ogledi	Zadnje sporočilo
	Tema	Sporočila	Ogledi	Zadnje sporočilo
»	Clearview, aplikacija, ki dokončno ukinja našo zasebnost? Balandeque Oddelek: Novice / Zasebnost	24	11677 (9083)	ano-nimen 23. jan 2020 07:38:27
»	Pametne aplikacije vedo, kje ste, in to delijo naokoli (strani: 1 2 ) McHusch Oddelek: Novice / Zasebnost	71	20785 (16699)	Matko 14. dec 2018 06:54:03
»	Getty Images brezplačno ponuja 35 milijonov slik McHusch Oddelek: Novice / Avtorsko pravo	31	12312 (9971)	digitalcek 10. mar 2014 09:22:57
»	The New York Times je z modelom plačljive spletne strani uspel McHusch Oddelek: Novice / Rezultati	40	15666 (13617)	gruntfürmich 23. okt 2011 12:30:55
»	Google ustavil digitalizacijo starih časnikov McHusch Oddelek: Novice / Omrežja / internet	7	4633 (3203)	smash 24. maj 2011 09:55:48

Več podobnih tem

Zadnje novice

Zadnji članki

Išči:

Novice » Ostalo »
Kako Google digitalizira milijone The New York Timesovih fotografij

Kako Google digitalizira milijone The New York Timesovih fotografij