Kako Google digitalizira milijone The New York Timesovih fotografij

Matej Huš

10. nov 2018 ob 23:24:21

Google je začel sodelovati z The New York Timesom pri digitalizaciji več kot petih milijonov fotografij, ki jih ima časnik shranjene v svoji kleti, poimenovani tudi mrtvašnica. Pod svojo stavbo na Time Squaru v New Yorku imajo med 5 in 7 milijoni večinoma edinstvenih fotografij zgodovinskih dogodkov, ki segajo v 19. stoletje. Gre za neprecenljivo dediščino, ki večinoma nima kopij, temveč obstaja le na papirju v kleti. Ko je pred tremi leti počila cev, so imeli precej dela z zavarovanjem zbirke. Tedaj so se tudi vprašali, kako varno shraniti te dokumente.

Fotografije so sicer katalogizirane, a le z osnovnimi opisi dogodka. Na fotografijah je še mnogo več podrobnosti, ki niso zavedene v seznamih. Tu bo na pomoč priskočila Googlov oblak. Da bo treba fotografije digitalizirati, je bilo vsem jasno. Toda te imajo na zadnji strani pogosto številne pripise, izrezke iz časnika in podobno. Manjka pa sistem. Zato so se odločili vpreči umetno inteligenco.

Google bo fotografije skeniral z visoko ločljivostjo in jih shranil v oblak. Potem bo Cloud Pub/Sub izvedel še več opravil: Google Kubernetes Engine jim bo ustrezno spremenil velikost (z ImageMagick), metapodatke (ExifTool) bodo shranili v bazo PostgreSQL na Clould SQL. The New York Times bo dobil enostaven dostop do celotne baze s prijaznim uporabniškim vmesnikom in API-ji. Nato pa bodo uporabili Cloud Vision API, ki bo analiziral skenirane fotografije in poizkusil ugotoviti, kaj je na njih. Poleg tega bo prebral tudi besedilo z zadnje strani in ga dodal v bazo.

S projektom želijo tudi pokazati, da umetna inteligenca prinaša povsem nove možnosti pri digitalizaciji pomembnih dokumentov.