Podatkovne baze podatkov @ Slo-Tech

Forum » Znanost in tehnologija »
Podatkovne baze podatkov

Podatkovne baze podatkov

Slo0 :: 25. dec 2018, 17:27

Danes imamo miljardo+ podatkov na enem serverju. (za zadnjih 100+let)

Cerkev ima največjo podatkovno bazo podatkov za skoraj 2000tisoč let.
Zakaj vseh podatkov ne digitalizirajo.

(recimo vsaj tiste, manj pomembne kot je npr. družinsko drevo)
Nekega sorodnika je zanimalo družinsko drevo, in je dobil podatke za skoraj 500let nazaj.

profii :: 25. dec 2018, 17:30

Kje pa je dobil to družinsko drevo? Pri lokalnem župniku?

Slo0 :: 25. dec 2018, 17:33

profii je 25. dec 2018 ob 17:30 izjavil:

Kje pa je dobil to družinsko drevo? Pri lokalnem župniku?

Pri lokalnih župnikih, ker smo se v stoletjih kot družinsko drevo preselili za skoraj 20km.
In ena župnija najbrž ni imela vseh podatkov.

Dobil je pa podatke, kdo se je poročil, in če se je kdo ločil (ali bil vdovec)
In koliko naslednikov je imel.

Nekdo je celo poročil sestro prvotne žene. Ko je predčasno umrla (to je blo v 19.stoletju, se mi zdi)

In v parih stoletjih tega družinskega drevesa.
Ni bilo nikoli povprečje manj kot 3 otroke na družino.
(imam pa še čas, in preostali družinski člani, da pridemo blizu stoletnih povprečij)
verjetno pa bomo daleč od tega. (glede na trenutna leta)

Zgodovina sprememb…

spremenilo: Slo0 (25. dec 2018 ob 17:41)

d3m1g0d :: 25. dec 2018, 17:52

Po mojem ni problem sama digitalizacija, kot pa iskanje po podatkih. Pritisni CTRL+F na 500-stranskem pdf-u, pa poišči neko srednje pogosto besedo, pa čakaj, koliko mine do vseh zadetkov. Sedaj si pa predstavljaj, koliko bi to trajalo na petabajtih informacij o osebah za 2000 let nazaj.

jb_j, nisem dolgo na forumu, pa vidim, da predstavljaš moralno dno. Če ti tema ni všeč, spi*di. Nekateri bi se radi pogovarjali o tehnologiji, ne verbalno posiljevali radovednežev.

jb_j :: 25. dec 2018, 17:54

d3m1g0d je 25. dec 2018 ob 17:52 izjavil:

Po mojem ni problem sama digitalizacija, kot pa iskanje po podatkih. Pritisni CTRL+F na 500-stranskem pdf-u, pa poišči neko srednje pogosto besedo, pa čakaj, koliko mine do vseh zadetkov. Sedaj si pa predstavljaj, koliko bi to trajalo na petabajtih informacij o osebah za 2000 let nazaj.

jb_j, nisem dolgo na forumu, pa vidim, da predstavljaš moralno dno. Če ti tema ni všeč, spi*di. Nekateri bi se radi pogovarjali o tehnologiji, ne verbalno posiljevali radovednežev.

ne ni problem iskanje po podatkih.

zadnjič sem v googla vnesel iskalne parametre:
in dobil rezultate skoraj 100 let starega časopisa v pdfju, z lastno pisavo (ko jo je imel časopis)

in dobil iskani parameter besede.
_______________________________________________________

OK! Predstavljam moralno dno. Zakaj nimam pravice do svojih mnenj?

Ali hočeš povedat, da imajo vsi pravice do debate.

Le v primeru, če se strinjajo z ostalimi.
_________________________________________________________

Če si pa drugačno misleč. Si pa podal svoje mnenje:
"Če ti tema ni všeč, spi*di."

Tvoj citat, ne moj.

Zgodovina sprememb…

spremenil: jb_j (25. dec 2018 ob 17:59)

jb_j :: 25. dec 2018, 18:04

Pa če gremo o dejstvih, uporabnik Slo0, bi lahko bil persona non grata,
in ne jaz, ker konkretno opredelim vse svoje trditve, on jih ne opredeljuje. (FYI, vsi admini slo-tech foruma)

d3m1g0d :: 25. dec 2018, 18:25

Govorim o iskanju na PC-ju, o algoritmih, ki delujejo v resničnem času, ne o predindeksirani vsebini z Googla. Poglej, koliko tehnologije je potrebno za indeksiranje interneta, ki traja šele dobrih 40 let, pa pomnoži to z 500. Tudi Cerkev se ne bi spuščala v take stroške.

jb_j, lastna hvala, cena mala. Drugačno mišljenje bi bilo, če bi predstavil protiargument (cerkev ne bi smela/ji ni treba digitalizirati dokumentov) Slo0-vi trditvi, da bi bilo to smiselno, potrebno. Dokler pa samo rečeš, da dejstva nikogar ne zanimajo (kar je objektivna laž, saj to zanima vsaj mene in njega - sva vsaj 2), in mu svetuješ, naj vzame zdravilo za lajšanje simptomov psihičnih bolezni, pa nisi prispeval ničesar k pogovoru. Upam, da sem razjasnil svoj neprimerno izražen komentar iz prejšnjega prispevka.

jb_j :: 25. dec 2018, 18:59

d3m1g0d je 25. dec 2018 ob 18:25 izjavil:

Govorim o iskanju na PC-ju, o algoritmih, ki delujejo v resničnem času, ne o predindeksirani vsebini z Googla. Poglej, koliko tehnologije je potrebno za indeksiranje interneta, ki traja šele dobrih 40 let, pa pomnoži to z 500. Tudi Cerkev se ne bi spuščala v take stroške.

jb_j, lastna hvala, cena mala. Drugačno mišljenje bi bilo, če bi predstavil protiargument (cerkev ne bi smela/ji ni treba digitalizirati dokumentov) Slo0-vi trditvi, da bi bilo to smiselno, potrebno. Dokler pa samo rečeš, da dejstva nikogar ne zanimajo (kar je objektivna laž, saj to zanima vsaj mene in njega - sva vsaj 2), in mu svetuješ, naj vzame zdravilo za lajšanje simptomov psihičnih bolezni, pa nisi prispeval ničesar k pogovoru. Upam, da sem razjasnil svoj neprimerno izražen komentar iz prejšnjega prispevka.

Če to ni bilo narejeno, kako bi to potem opredelil? (glede digitalizacije dvo tisoč letnih podatkov)

Da nas ne zanimajo dejstva, ali da so interesi, da ne pridemo do spoznanj o dejstvih?

Zgodovina sprememb…

spremenil: jb_j (25. dec 2018 ob 19:00)

d3m1g0d :: 25. dec 2018, 19:35

Če prav razumem, so sedaj tovrstni podatki precej razdrobljeni - vsaka župnija, na primer, ima svoje arhive, če bi kakšno višjo inštanco zanimal kakšen podatek, bi morali za to opraviti kar nekaj dela, ker bi se morala obrniti na 'podložnike'. Tako bi se moral Vatikan obračati najprej na škofije, te pa potem na posamezne župnike, naj spihajo prah s knjig in poiščejo iskani podatek (Primer, verjetno je stvar še bolj zapletena). Že samo zbiranje podatkov po celem svetu bi bilo mučno in čas požirajoče, cilj pa tudi ne bi opravičeval ogromne količine sredstev, potrebnih za izvedbo digitalizacije, da ne omenjamo, da bi tako marsikateri del vatikanskih arhivov postal kibernetično ranljiv, kar pa 'resnicoljubni' Cerkvi ni ravno po želji. Pa še to je, da 2000 let stari zapisi niso v dobrem fizičnem stanju, da bi jih na veliko skenirali (prepisovati jih vendarle ne moremo), tako da je veliko tveganja za neko majhno prednost, če pomislimo, kolikokrat tak dostop do virov sploh rabimo.

jb_j :: 25. dec 2018, 19:40

d3m1g0d je 25. dec 2018 ob 19:35 izjavil:

Če prav razumem, so sedaj tovrstni podatki precej razdrobljeni - vsaka župnija, na primer, ima svoje arhive, če bi kakšno višjo inštanco zanimal kakšen podatek, bi morali za to opraviti kar nekaj dela, ker bi se morala obrniti na 'podložnike'. Tako bi se moral Vatikan obračati najprej na škofije, te pa potem na posamezne župnike, naj spihajo prah s knjig in poiščejo iskani podatek (Primer, verjetno je stvar še bolj zapletena). Že samo zbiranje podatkov po celem svetu bi bilo mučno in čas požirajoče, cilj pa tudi ne bi opravičeval ogromne količine sredstev, potrebnih za izvedbo digitalizacije, da ne omenjamo, da bi tako marsikateri del vatikanskih arhivov postal kibernetično ranljiv, kar pa 'resnicoljubni' Cerkvi ni ravno po želji. Pa še to je, da 2000 let stari zapisi niso v dobrem fizičnem stanju, da bi jih na veliko skenirali (prepisovati jih vendarle ne moremo), tako da je veliko tveganja za neko majhno prednost, če pomislimo, kolikokrat tak dostop do virov sploh rabimo.

Digitalizacija vseh književnih del je pa povsem enostavna.
Ker se to dejansko že počne.

Iz cajtunga iz zda, z težko berljivo pisavo, sem razbral dogodke iz 80 let nazaj.
Search string je bil o nekem priimku.

Svojega priimka ne bom navajal ampak je google našel:
https://www.dlib.si/stream/URN:NBN:SI:d...

Zgodovina sprememb…

spremenil: jb_j (25. dec 2018 ob 19:43)

d3m1g0d :: 25. dec 2018, 19:53

Ne govorim o tem, da je problem z digitalizacijo. Problem je z ISKANJEM in OBDELAVO dobljenih podatkov. Podatkov kmalu postane preveč, da bi iskanja lahko izvedel v doglednem času. Vseh ljudi, ki je kadarkoli živelo, je okrog 110 miljard. Ker prazgodovina obstaja, vzemiva, da imava opravka z 55 milijardami ljudi. Da bi jim dodelil samo zaporedne številke, rabiš pribl. 3,5 Pb prostora na disku, da imen, priimkov, rodovnikov, rojstnih datumov, in drugih precej osnovnih podatkov niti ne omenjam. Poskušaj ti 500 EB (eksabajtov) sortirati po abecednem vrstnem redu, če lahko in povej s čim, ker ti bo NSA hvaležna.
Izrezek časopisa ima 4 (štiri) strani, ki jih je dlib že indeksiral zate, kar je našel google, ki je to indeksiral zate. Mislim, da je to neprimerljivo z bazami podatkov megalomanskega obsega, kot bi take baze podatkov bile oz. morale biti. Poleg tega je časopis tiskan strojno, zato ga je možno optično prebrati in OCRati, medtem ko so razne rojstne knjige izpolnjene v rokopisu, večina ne prav lepo, v različnih jezikih itd... Govorim o piramidi v Gizi, ti pa mi prodajaš vrtno lopo.

jb_j :: 25. dec 2018, 20:01

d3m1g0d je 25. dec 2018 ob 19:53 izjavil:

Ne govorim o tem, da je problem z digitalizacijo. Problem je z ISKANJEM in OBDELAVO dobljenih podatkov. Podatkov kmalu postane preveč, da bi iskanja lahko izvedel v doglednem času. Vseh ljudi, ki je kadarkoli živelo, je okrog 110 miljard. Ker prazgodovina obstaja, vzemiva, da imava opravka z 55 milijardami ljudi. Da bi jim dodelil samo zaporedne številke, rabiš pribl. 3,5 Pb prostora na disku, da imen, priimkov, rodovnikov, rojstnih datumov, in drugih precej osnovnih podatkov niti ne omenjam. Poskušaj ti 500 EB (eksabajtov) sortirati po abecednem vrstnem redu, če lahko in povej s čim, ker ti bo NSA hvaležna.
Izrezek časopisa ima 4 (štiri) strani, ki jih je dlib že indeksiral zate, kar je našel google, ki je to indeksiral zate. Mislim, da je to neprimerljivo z bazami podatkov megalomanskega obsega, kot bi take baze podatkov bile oz. morale biti. Poleg tega je časopis tiskan strojno, zato ga je možno optično prebrati in OCRati, medtem ko so razne rojstne knjige izpolnjene v rokopisu, večina ne prav lepo, v različnih jezikih itd... Govorim o piramidi v Gizi, ti pa mi prodajaš vrtno lopo.

(gre se v tem, da nisem iskal tega članka, da bi opredelil 4 strani enega časopisa)
preiskal sem skoraj vse časopise z 50+ letno zgodovino v zda, in sem dobil te rezultate.

gre se, da imam rezultate večih časopisov, glede določenega iskalnega stringa.
bi podal ostale rezultate, samo bi ti potem vedel o čem so tej časopisi v zda.

v primeru kmetovanja 100 let nazaj, in da se opredeliš za kmeta ti dam prav.

ampak danes se po tvojem mnenju: "megalomanske baze" podatkov hitro obdela z navadnim računalnikom.

Zgodovina sprememb…

spremenil: jb_j (25. dec 2018 ob 20:07)

jb_j :: 25. dec 2018, 20:10

Je pa zanimivo 65+ letne časopise arhivirajo s slovenske strani.

Irbis :: 25. dec 2018, 20:20

Iskanje res ne bi bil noben problem, to ni nobena grozna količina.
Bolj problem je, da v resnici teh podatkov ni za zadnjih dva tisoč let, zdi se mi, da so matične knjige začeli bolj sistematično pisati šele tam nekje okoli 15. stoletja. Naslednji problem je, da se je precej tega izgubilo v požarih, vojnah ipd.
Starejše knjige za Ljubljansko nadškofijo so v nadškofijskem arhivu, novejše so po lokalnih cerkvah. V Koprski škofiji pa je dvajset let nazaj bilo tako, da so bile vse matične knjige še po lokalnih cerkvah.
Ampak za digitalizacijo je po mojem velik problem, da so te knjige strašno nečitljive. Pisane so seveda ročno, starejše v glavnem v gotici, župniki niso nujno ravno lepo pisali. Tudi zapis imen in priimkov je kar precej nihal, kar je potem kar umetnost sestaviti skupaj.
Se pa s tem zbiranje rodoslovnih podatkov in njihovo digitalizacijo največ ukvarjajo mormomi: http://www2.arnes.si/~rzjtopl/rod/viri/...

Slo0 :: 25. dec 2018, 20:56

(sorry irbis, težave z upravitelji foruma, in dobiš odgovor, ko bodo zaklenili to temo)

Veš kaj, mi je super, namesto, da bi moderator brisal neprimerne izjave,
pobriše celotne teme. (če ni odpiratelj teme njegov BFF)

jb_j :: 26. dec 2018, 14:55

Irbis je 25. dec 2018 ob 20:20 izjavil:

Ampak za digitalizacijo je po mojem velik problem, da so te knjige strašno nečitljive. Pisane so seveda ročno, starejše v glavnem v gotici, župniki niso nujno ravno lepo pisali. Tudi zapis imen in priimkov je kar precej nihal, kar je potem kar umetnost sestaviti skupaj.

Ma niti ne, danes piše veliko ljudi razmeroma nečitljivo v latinici oz. gajici.

In imajo dober software odzadi, da prepozna zapise, oz. kaj so ročno zapisali na elektronskih napravah.

Zgodovina sprememb…

spremenil: jb_j (26. dec 2018 ob 15:04)

d3m1g0d :: 26. dec 2018, 16:33

Vse od gajice dalje, se pravi od približno 1850, ni nikakršen večji problem. Razne slabo napisane gotice in latinice bi pa znale biti trši oreh. Na srečo je cerkev do nedavnega vodila te zapis večinsko v latinščini in drugih klasičnih jezikih, kar bi po mojem precej pomagalo, če bi se digitalizacije kdo lotil. Po mojem bi bil največji problem časovno obdobje raznih gotic, pred in po tem obdobju pa imaš bodisi latinščino in klasične jezike, bodisi relativno moderne pisave, za katere, kot si že napisal, pa obstajajo precej natančna in učinkovita orodja za prepoznavo.

jb_j :: 26. dec 2018, 17:44

Najbrž bi moral ustvart prepoznavanje pisav po stoletjih približno,
in potem še po določenih regijah.

Podobno kot sedaj, za skoraj vse države. (prepoznava pisav, najbrž deluje za 150+ držav)
Njihove baze podatkov so pa v večini orientirane na evropo (tako, da mogoče ni tako drastičnih sprememb)
Nimam pa pojma, ker nisem nikoli primerjal pisave gotic. (govorim le teoretično, praksa vemo, da je veliko bolj zapletena).

Zgodovina sprememb…

spremenil: jb_j (26. dec 2018 ob 17:46)

jb_j :: 26. dec 2018, 17:52

@kristjan02
Problem je z ISKANJEM in OBDELAVO dobljenih podatkov. Podatkov kmalu postane preveč, da bi iskanja lahko izvedel v doglednem času.

Normalno, da je problem, že sedaj imamo internetne baze podatkov tako velike, (brez skeniranja starodavnih zapisov ali književnih del)
da jih najbrž v parih stoletjih, in mogoče niti v tisočletju. Ne bi bili sposobni vseh podatkov razbrat.

Z dobrim indexiranjem bi mogoče delno rešil, oz. opredelil baze podatkov.

Zgodovina sprememb…

spremenil: jb_j (26. dec 2018 ob 17:53)

Vredno ogleda ...

	Tema	Sporočila	Ogledi	Zadnje sporočilo
	Tema	Sporočila	Ogledi	Zadnje sporočilo
»	Norija okoli osebne genomike je izgubila zagon Aggressor Oddelek: Novice / Ostale najave	22	10977 (8536)	louser 30. jan 2020 11:54:04
»	My Heritage DNK test (strani: 1 2 ) neooo Oddelek: Loža	61	16729 (14648)	BedBrejn 4. apr 2019 10:47:10
»	Novi Zakon o arhivih (?!) (strani: 1 2 3 ) YAARRR Oddelek: Problemi človeštva	109	17815 (14472)	GregiB 11. jun 2014 16:02:05
⊘	Prekleta O.Š (strani: 1 2 ) goldenratio Oddelek: Loža	60	14494 (13951)	Mipe 5. feb 2014 13:46:13
»	Amazon prodal več elektronskih knjig kakor tiskanih s trdimi platnicami (strani: 1 2 3 4 ) McHusch Oddelek: Novice / Rezultati	193	62183 (59465)	AgiZ 28. jul 2010 23:49:58

Več podobnih tem

Zadnje novice

Zadnji članki

Išči:

Forum » Znanost in tehnologija »
Podatkovne baze podatkov

Podatkovne baze podatkov