» »

Podatkovne baze podatkov

Podatkovne baze podatkov

Slo0 ::

Danes imamo miljardo+ podatkov na enem serverju. (za zadnjih 100+let)

Cerkev ima največjo podatkovno bazo podatkov za skoraj 2000tisoč let.
Zakaj vseh podatkov ne digitalizirajo.

(recimo vsaj tiste, manj pomembne kot je npr. družinsko drevo)
Nekega sorodnika je zanimalo družinsko drevo, in je dobil podatke za skoraj 500let nazaj.

profii ::

Kje pa je dobil to družinsko drevo? Pri lokalnem župniku?

Slo0 ::

profii je izjavil:

Kje pa je dobil to družinsko drevo? Pri lokalnem župniku?


Pri lokalnih župnikih, ker smo se v stoletjih kot družinsko drevo preselili za skoraj 20km.
In ena župnija najbrž ni imela vseh podatkov.

Dobil je pa podatke, kdo se je poročil, in če se je kdo ločil (ali bil vdovec)
In koliko naslednikov je imel.

Nekdo je celo poročil sestro prvotne žene. Ko je predčasno umrla (to je blo v 19.stoletju, se mi zdi)

In v parih stoletjih tega družinskega drevesa.
Ni bilo nikoli povprečje manj kot 3 otroke na družino.
(imam pa še čas, in preostali družinski člani, da pridemo blizu stoletnih povprečij)
verjetno pa bomo daleč od tega. (glede na trenutna leta)

Zgodovina sprememb…

  • spremenilo: Slo0 ()

d3m1g0d ::

Po mojem ni problem sama digitalizacija, kot pa iskanje po podatkih. Pritisni CTRL+F na 500-stranskem pdf-u, pa poišči neko srednje pogosto besedo, pa čakaj, koliko mine do vseh zadetkov. Sedaj si pa predstavljaj, koliko bi to trajalo na petabajtih informacij o osebah za 2000 let nazaj.

jb_j, nisem dolgo na forumu, pa vidim, da predstavljaš moralno dno. Če ti tema ni všeč, spi*di. Nekateri bi se radi pogovarjali o tehnologiji, ne verbalno posiljevali radovednežev.
Gott ist tot! Gott bleibt tot! Und wir haben ihn getötet!

jb_j ::

d3m1g0d je izjavil:

Po mojem ni problem sama digitalizacija, kot pa iskanje po podatkih. Pritisni CTRL+F na 500-stranskem pdf-u, pa poišči neko srednje pogosto besedo, pa čakaj, koliko mine do vseh zadetkov. Sedaj si pa predstavljaj, koliko bi to trajalo na petabajtih informacij o osebah za 2000 let nazaj.

jb_j, nisem dolgo na forumu, pa vidim, da predstavljaš moralno dno. Če ti tema ni všeč, spi*di. Nekateri bi se radi pogovarjali o tehnologiji, ne verbalno posiljevali radovednežev.


ne ni problem iskanje po podatkih.

zadnjič sem v googla vnesel iskalne parametre:
in dobil rezultate skoraj 100 let starega časopisa v pdfju, z lastno pisavo (ko jo je imel časopis)

in dobil iskani parameter besede.
_______________________________________________________

OK! Predstavljam moralno dno. Zakaj nimam pravice do svojih mnenj?

Ali hočeš povedat, da imajo vsi pravice do debate.

Le v primeru, če se strinjajo z ostalimi.
_________________________________________________________

Če si pa drugačno misleč. Si pa podal svoje mnenje:
"Če ti tema ni všeč, spi*di."

Tvoj citat, ne moj.

Zgodovina sprememb…

  • spremenil: jb_j ()

jb_j ::

Pa če gremo o dejstvih, uporabnik Slo0, bi lahko bil persona non grata,
in ne jaz, ker konkretno opredelim vse svoje trditve, on jih ne opredeljuje. (FYI, vsi admini slo-tech foruma)

d3m1g0d ::

Govorim o iskanju na PC-ju, o algoritmih, ki delujejo v resničnem času, ne o predindeksirani vsebini z Googla. Poglej, koliko tehnologije je potrebno za indeksiranje interneta, ki traja šele dobrih 40 let, pa pomnoži to z 500. Tudi Cerkev se ne bi spuščala v take stroške.

jb_j, lastna hvala, cena mala. Drugačno mišljenje bi bilo, če bi predstavil protiargument (cerkev ne bi smela/ji ni treba digitalizirati dokumentov) Slo0-vi trditvi, da bi bilo to smiselno, potrebno. Dokler pa samo rečeš, da dejstva nikogar ne zanimajo (kar je objektivna laž, saj to zanima vsaj mene in njega - sva vsaj 2), in mu svetuješ, naj vzame zdravilo za lajšanje simptomov psihičnih bolezni, pa nisi prispeval ničesar k pogovoru. Upam, da sem razjasnil svoj neprimerno izražen komentar iz prejšnjega prispevka.
Gott ist tot! Gott bleibt tot! Und wir haben ihn getötet!

jb_j ::

d3m1g0d je izjavil:

Govorim o iskanju na PC-ju, o algoritmih, ki delujejo v resničnem času, ne o predindeksirani vsebini z Googla. Poglej, koliko tehnologije je potrebno za indeksiranje interneta, ki traja šele dobrih 40 let, pa pomnoži to z 500. Tudi Cerkev se ne bi spuščala v take stroške.

jb_j, lastna hvala, cena mala. Drugačno mišljenje bi bilo, če bi predstavil protiargument (cerkev ne bi smela/ji ni treba digitalizirati dokumentov) Slo0-vi trditvi, da bi bilo to smiselno, potrebno. Dokler pa samo rečeš, da dejstva nikogar ne zanimajo (kar je objektivna laž, saj to zanima vsaj mene in njega - sva vsaj 2), in mu svetuješ, naj vzame zdravilo za lajšanje simptomov psihičnih bolezni, pa nisi prispeval ničesar k pogovoru. Upam, da sem razjasnil svoj neprimerno izražen komentar iz prejšnjega prispevka.


Če to ni bilo narejeno, kako bi to potem opredelil? (glede digitalizacije dvo tisoč letnih podatkov)

Da nas ne zanimajo dejstva, ali da so interesi, da ne pridemo do spoznanj o dejstvih?

Zgodovina sprememb…

  • spremenil: jb_j ()

d3m1g0d ::

Če prav razumem, so sedaj tovrstni podatki precej razdrobljeni - vsaka župnija, na primer, ima svoje arhive, če bi kakšno višjo inštanco zanimal kakšen podatek, bi morali za to opraviti kar nekaj dela, ker bi se morala obrniti na 'podložnike'. Tako bi se moral Vatikan obračati najprej na škofije, te pa potem na posamezne župnike, naj spihajo prah s knjig in poiščejo iskani podatek (Primer, verjetno je stvar še bolj zapletena). Že samo zbiranje podatkov po celem svetu bi bilo mučno in čas požirajoče, cilj pa tudi ne bi opravičeval ogromne količine sredstev, potrebnih za izvedbo digitalizacije, da ne omenjamo, da bi tako marsikateri del vatikanskih arhivov postal kibernetično ranljiv, kar pa 'resnicoljubni' Cerkvi ni ravno po želji. Pa še to je, da 2000 let stari zapisi niso v dobrem fizičnem stanju, da bi jih na veliko skenirali (prepisovati jih vendarle ne moremo), tako da je veliko tveganja za neko majhno prednost, če pomislimo, kolikokrat tak dostop do virov sploh rabimo.
Gott ist tot! Gott bleibt tot! Und wir haben ihn getötet!

jb_j ::

d3m1g0d je izjavil:

Če prav razumem, so sedaj tovrstni podatki precej razdrobljeni - vsaka župnija, na primer, ima svoje arhive, če bi kakšno višjo inštanco zanimal kakšen podatek, bi morali za to opraviti kar nekaj dela, ker bi se morala obrniti na 'podložnike'. Tako bi se moral Vatikan obračati najprej na škofije, te pa potem na posamezne župnike, naj spihajo prah s knjig in poiščejo iskani podatek (Primer, verjetno je stvar še bolj zapletena). Že samo zbiranje podatkov po celem svetu bi bilo mučno in čas požirajoče, cilj pa tudi ne bi opravičeval ogromne količine sredstev, potrebnih za izvedbo digitalizacije, da ne omenjamo, da bi tako marsikateri del vatikanskih arhivov postal kibernetično ranljiv, kar pa 'resnicoljubni' Cerkvi ni ravno po želji. Pa še to je, da 2000 let stari zapisi niso v dobrem fizičnem stanju, da bi jih na veliko skenirali (prepisovati jih vendarle ne moremo), tako da je veliko tveganja za neko majhno prednost, če pomislimo, kolikokrat tak dostop do virov sploh rabimo.


Digitalizacija vseh književnih del je pa povsem enostavna.
Ker se to dejansko že počne.

Iz cajtunga iz zda, z težko berljivo pisavo, sem razbral dogodke iz 80 let nazaj.
Search string je bil o nekem priimku.

Svojega priimka ne bom navajal ampak je google našel:
https://www.dlib.si/stream/URN:NBN:SI:d...

Zgodovina sprememb…

  • spremenil: jb_j ()

d3m1g0d ::

Ne govorim o tem, da je problem z digitalizacijo. Problem je z ISKANJEM in OBDELAVO dobljenih podatkov. Podatkov kmalu postane preveč, da bi iskanja lahko izvedel v doglednem času. Vseh ljudi, ki je kadarkoli živelo, je okrog 110 miljard. Ker prazgodovina obstaja, vzemiva, da imava opravka z 55 milijardami ljudi. Da bi jim dodelil samo zaporedne številke, rabiš pribl. 3,5 Pb prostora na disku, da imen, priimkov, rodovnikov, rojstnih datumov, in drugih precej osnovnih podatkov niti ne omenjam. Poskušaj ti 500 EB (eksabajtov) sortirati po abecednem vrstnem redu, če lahko in povej s čim, ker ti bo NSA hvaležna.
Izrezek časopisa ima 4 (štiri) strani, ki jih je dlib že indeksiral zate, kar je našel google, ki je to indeksiral zate. Mislim, da je to neprimerljivo z bazami podatkov megalomanskega obsega, kot bi take baze podatkov bile oz. morale biti. Poleg tega je časopis tiskan strojno, zato ga je možno optično prebrati in OCRati, medtem ko so razne rojstne knjige izpolnjene v rokopisu, večina ne prav lepo, v različnih jezikih itd... Govorim o piramidi v Gizi, ti pa mi prodajaš vrtno lopo.
Gott ist tot! Gott bleibt tot! Und wir haben ihn getötet!

jb_j ::

d3m1g0d je izjavil:

Ne govorim o tem, da je problem z digitalizacijo. Problem je z ISKANJEM in OBDELAVO dobljenih podatkov. Podatkov kmalu postane preveč, da bi iskanja lahko izvedel v doglednem času. Vseh ljudi, ki je kadarkoli živelo, je okrog 110 miljard. Ker prazgodovina obstaja, vzemiva, da imava opravka z 55 milijardami ljudi. Da bi jim dodelil samo zaporedne številke, rabiš pribl. 3,5 Pb prostora na disku, da imen, priimkov, rodovnikov, rojstnih datumov, in drugih precej osnovnih podatkov niti ne omenjam. Poskušaj ti 500 EB (eksabajtov) sortirati po abecednem vrstnem redu, če lahko in povej s čim, ker ti bo NSA hvaležna.
Izrezek časopisa ima 4 (štiri) strani, ki jih je dlib že indeksiral zate, kar je našel google, ki je to indeksiral zate. Mislim, da je to neprimerljivo z bazami podatkov megalomanskega obsega, kot bi take baze podatkov bile oz. morale biti. Poleg tega je časopis tiskan strojno, zato ga je možno optično prebrati in OCRati, medtem ko so razne rojstne knjige izpolnjene v rokopisu, večina ne prav lepo, v različnih jezikih itd... Govorim o piramidi v Gizi, ti pa mi prodajaš vrtno lopo.


(gre se v tem, da nisem iskal tega članka, da bi opredelil 4 strani enega časopisa)
preiskal sem skoraj vse časopise z 50+ letno zgodovino v zda, in sem dobil te rezultate.

gre se, da imam rezultate večih časopisov, glede določenega iskalnega stringa.
bi podal ostale rezultate, samo bi ti potem vedel o čem so tej časopisi v zda.

v primeru kmetovanja 100 let nazaj, in da se opredeliš za kmeta ti dam prav.

ampak danes se po tvojem mnenju: "megalomanske baze" podatkov hitro obdela z navadnim računalnikom.

Zgodovina sprememb…

  • spremenil: jb_j ()

jb_j ::

Je pa zanimivo 65+ letne časopise arhivirajo s slovenske strani.

Irbis ::

Iskanje res ne bi bil noben problem, to ni nobena grozna količina.
Bolj problem je, da v resnici teh podatkov ni za zadnjih dva tisoč let, zdi se mi, da so matične knjige začeli bolj sistematično pisati šele tam nekje okoli 15. stoletja. Naslednji problem je, da se je precej tega izgubilo v požarih, vojnah ipd.
Starejše knjige za Ljubljansko nadškofijo so v nadškofijskem arhivu, novejše so po lokalnih cerkvah. V Koprski škofiji pa je dvajset let nazaj bilo tako, da so bile vse matične knjige še po lokalnih cerkvah.
Ampak za digitalizacijo je po mojem velik problem, da so te knjige strašno nečitljive. Pisane so seveda ročno, starejše v glavnem v gotici, župniki niso nujno ravno lepo pisali. Tudi zapis imen in priimkov je kar precej nihal, kar je potem kar umetnost sestaviti skupaj.
Se pa s tem zbiranje rodoslovnih podatkov in njihovo digitalizacijo največ ukvarjajo mormomi: http://www2.arnes.si/~rzjtopl/rod/viri/...

Slo0 ::

(sorry irbis, težave z upravitelji foruma, in dobiš odgovor, ko bodo zaklenili to temo)

Veš kaj, mi je super, namesto, da bi moderator brisal neprimerne izjave,
pobriše celotne teme. (če ni odpiratelj teme njegov BFF)

jb_j ::

Irbis je izjavil:


Ampak za digitalizacijo je po mojem velik problem, da so te knjige strašno nečitljive. Pisane so seveda ročno, starejše v glavnem v gotici, župniki niso nujno ravno lepo pisali. Tudi zapis imen in priimkov je kar precej nihal, kar je potem kar umetnost sestaviti skupaj.


Ma niti ne, danes piše veliko ljudi razmeroma nečitljivo v latinici oz. gajici.

In imajo dober software odzadi, da prepozna zapise, oz. kaj so ročno zapisali na elektronskih napravah.



Zgodovina sprememb…

  • spremenil: jb_j ()

d3m1g0d ::

Vse od gajice dalje, se pravi od približno 1850, ni nikakršen večji problem. Razne slabo napisane gotice in latinice bi pa znale biti trši oreh. Na srečo je cerkev do nedavnega vodila te zapis večinsko v latinščini in drugih klasičnih jezikih, kar bi po mojem precej pomagalo, če bi se digitalizacije kdo lotil. Po mojem bi bil največji problem časovno obdobje raznih gotic, pred in po tem obdobju pa imaš bodisi latinščino in klasične jezike, bodisi relativno moderne pisave, za katere, kot si že napisal, pa obstajajo precej natančna in učinkovita orodja za prepoznavo.
Gott ist tot! Gott bleibt tot! Und wir haben ihn getötet!

jb_j ::

Najbrž bi moral ustvart prepoznavanje pisav po stoletjih približno,
in potem še po določenih regijah.

Podobno kot sedaj, za skoraj vse države. (prepoznava pisav, najbrž deluje za 150+ držav)
Njihove baze podatkov so pa v večini orientirane na evropo (tako, da mogoče ni tako drastičnih sprememb)
Nimam pa pojma, ker nisem nikoli primerjal pisave gotic. (govorim le teoretično, praksa vemo, da je veliko bolj zapletena).

Zgodovina sprememb…

  • spremenil: jb_j ()

jb_j ::

@kristjan02
Problem je z ISKANJEM in OBDELAVO dobljenih podatkov. Podatkov kmalu postane preveč, da bi iskanja lahko izvedel v doglednem času.

Normalno, da je problem, že sedaj imamo internetne baze podatkov tako velike, (brez skeniranja starodavnih zapisov ali književnih del)
da jih najbrž v parih stoletjih, in mogoče niti v tisočletju. Ne bi bili sposobni vseh podatkov razbrat.

Z dobrim indexiranjem bi mogoče delno rešil, oz. opredelil baze podatkov.

Zgodovina sprememb…

  • spremenil: jb_j ()


Vredno ogleda ...

TemaSporočilaOglediZadnje sporočilo
TemaSporočilaOglediZadnje sporočilo
»

Norija okoli osebne genomike je izgubila zagon

Oddelek: Novice / Ostale najave
226327 (3886) louser
»

My Heritage DNK test (strani: 1 2 )

Oddelek: Loža
619997 (7916) BedBrejn
»

Novi Zakon o arhivih (?!) (strani: 1 2 3 )

Oddelek: Problemi človeštva
10912936 (9593) GregiB

Prekleta O.Š (strani: 1 2 )

Oddelek: Loža
6010221 (9678) Mipe
»

Amazon prodal več elektronskih knjig kakor tiskanih s trdimi platnicami (strani: 1 2 3 4 )

Oddelek: Novice / Rezultati
19346554 (43836) AgiZ

Več podobnih tem