Forum » Programiranje » [Ideja] Slovenski spletni iskalnik
[Ideja] Slovenski spletni iskalnik
HotBurek ::
Dobro jutro.
Evo, iz fibrca me zanima, kakšna se vam zdi ideja, da bi naredil "klasičen" iskalnik.
Se pravi, da bi zbral nekje 1.000 do 10.000 spletnih strani (HTML), dobil ven podatke (title, description, ...), shranil v bazo (MariaDB), ter nad tem naredil search (Manticore Search).
Spletne strani bi bile slovenske, ter iz področja proizvodne/storitve.
Recimo, zasledil sem proizvodnjo Struc Kovačija Muta, in imajo spletno stran. To bi vse dodal. In potem se z zemljevidom "sprehodim" čez mesto in dodam spletne strani še drugih podjetji.
Ker, en mal me zanima, in mislim, da imamo v sloveniji ogromno teh (malih) proizvodnih podjetji. Pa mogoče ne vemo tolko.
Mogoče bi bilo fajn imet tak namenski slovenski iskalnik po sloveniji.
Crawler bi zbiral osnovne podatke.
Nekaj takega:
Evo, iz fibrca me zanima, kakšna se vam zdi ideja, da bi naredil "klasičen" iskalnik.
Se pravi, da bi zbral nekje 1.000 do 10.000 spletnih strani (HTML), dobil ven podatke (title, description, ...), shranil v bazo (MariaDB), ter nad tem naredil search (Manticore Search).
Spletne strani bi bile slovenske, ter iz področja proizvodne/storitve.
Recimo, zasledil sem proizvodnjo Struc Kovačija Muta, in imajo spletno stran. To bi vse dodal. In potem se z zemljevidom "sprehodim" čez mesto in dodam spletne strani še drugih podjetji.
Ker, en mal me zanima, in mislim, da imamo v sloveniji ogromno teh (malih) proizvodnih podjetji. Pa mogoče ne vemo tolko.
Mogoče bi bilo fajn imet tak namenski slovenski iskalnik po sloveniji.
Crawler bi zbiral osnovne podatke.
Nekaj takega:
url=https://www.krajnc-oprema.si/mesalniki netloc=www.krajnc-oprema.si scheme=https 200 title=MEŠALNIKI description=Mešalniki. Mešalniki omogočajo enostavno delo, mešalna posoda se zaradi svoje velikosti uporablja za mešanje in vzhajanje testa. keywords= meta_image_content= h1 -> MEŠALNIKI h2 -> ZAKAJ IZBRATI MEŠALNIKE KRAJNC h2 -> ZNAČILNOSTI MEŠALNIKOV KRAJNC: h3 -> PREDSTAVLJENI MEŠALNIKI VAM PRIHRANIJO ČAS IN ODPRAVLJAJO TEŽKO FIZIČNO DELO, ZATO JE DELO Z NJIMI PRAVO ZADOVOLJSTVO. h2 -> Aktualne novice
root@debian:/# iptraf-ng
fatal: This program requires a screen size of at least 80 columns by 24 lines
Please resize your window
fatal: This program requires a screen size of at least 80 columns by 24 lines
Please resize your window
- spremenilo: HotBurek ()

iloveboobz ::
ze imamo google, k zna točno to. Ni potrebe po half baked izdelku, k bo delal 2 mesca.
smoki
karafeka ::
Sicer ne morem obljubit, da ga bom uporabljal, ampak go for it.
Pa objavi potem na githubu to.
Pa objavi potem na githubu to.
pegasus ::
Se pravi, da bi zbral nekje 1.000 do 10.000 spletnih strani (HTML), dobil ven podatke (title, description, ...), shranil v bazo (MariaDB), ter nad tem naredil search (Manticore Search).To bo koristno samo v smislu, da se boš nekaj naučil. Ker proper search engine danes je precejšnja znanost, precej več kot samo nekaj na hitro skup vrženih open source aplikacij.
SuperJet ::
Morda bi bilo bolje, da ni poudarek na samem spletnem iskalniku, kot na bazi slovenskih proizvajalcev.
Načeloma klasični iskalniki najdejo "vse", vendar je potrebno ogromnega brskanja, da se prebiješ skozi vse neuporabne strani, preden najdeš dejanske iskane strani.
To je recimo tudi en razlog da googla že leta ne uporabljam več, ker je iskanje v slovenskem jeziku dalo za polovico rezultatov prevedene kitajske strani ali pa .si domene s preusmeritvijo na aliexpress in podobno.
Če bi bila spletna stran posvečena izključno hranjenju podatkov o vseh "Made in Slovenia" in podobnih slovenskih podjetjih, bi jo z veseljem redno uporabljal.
Načeloma klasični iskalniki najdejo "vse", vendar je potrebno ogromnega brskanja, da se prebiješ skozi vse neuporabne strani, preden najdeš dejanske iskane strani.
To je recimo tudi en razlog da googla že leta ne uporabljam več, ker je iskanje v slovenskem jeziku dalo za polovico rezultatov prevedene kitajske strani ali pa .si domene s preusmeritvijo na aliexpress in podobno.
Če bi bila spletna stran posvečena izključno hranjenju podatkov o vseh "Made in Slovenia" in podobnih slovenskih podjetjih, bi jo z veseljem redno uporabljal.
pegasus ::
Ahim ::
primoz4p ::
Slabš ko Matkurja ziher ne more bit.
To je bila moja prva asociacija, skupaj s tisto trapasto slikico![]()
Začetek konca pa je bil ...
Mat' Kurja je brez dvoma najbolj znano slovensko spletno vozlišče. Gotovo je del razloga v tem, da je bilo vozlišče ob nastanku, torej leta 1993, prvi tovrstni projekt v Sloveniji, ki je v razmeroma kratkem času ponudil veliko količino lepo urejene informacije, od tekočega filmskega sporeda do spletnih strani vladnih organov. Piko na i je prispevalo duhovito oblikovanje legendarnega Tomaža Lavriča-Diareje.
Mnogi redni uporabniki Mat' Kurje so opazili, da zadnji dve leti informacijsko vozlišče stagnira. Informacije so bolj ali manj stare, ureditev pa ostaja takšna, kakršna je bila že na začetku; dogaja se, skratka, nič novega. Res je stanje še vedno precej nad slovenskim povprečjem, celo nad ameriškim, vendar pa je stagnacija v internetu nujno tudi dokaz propadanja. Ali Mat' Kurja propada, smo se začeli spraševati? Očitno so se s tem vprašanjem ukvarjali tudi tvorci znamenite kokoške, skupina znanstvenikov na Inštitutu Jožef Stefan. Že lani so začeli iskati možnost resnejšega financiranja, ki ga IJS in Urad vlade za informiranje nista več mogla zagotoviti. Pogovarjali so se z več kandidati, pravega zanimanja pa menda ni bilo. Marca letos so se pogodili s podjetjem Eon, ki se ukvarja predvsem z elektronskim poslovanjem, in junija podpisali pogodbo.
V pogodbi Eon nastopa kot skrbnik Mat' Kurje, ki bo skrbel za vzdrževanje, dopolnjevanje in dograjevanje, zavezal pa se je tudi, da bo skrbel za promocijo države. IJS in Urad vlade sta se odpovedala vsem pravicam, tako da je po nekakšni mehki razlagi Eon tudi lastnik Mat' Kurje. Sodelovalo pa bo tudi novo podjetje Literal, ki so ga ustanovili prvotni tvorci Mat' Kurje.
Direktor Eona, Zoran Thaler, trdi, da ne mislijo komercializirati Mat' Kurje, torej naj bi na njeni spletni strani ne videli reklamnih pasic in podobne navlake. Eon si od skrbništva nad Mat' Kurjo obeta predvsem, da bo pridobil na ugledu.
https://www.monitor.si/novica/novi-skrb...
Ustreznega epiloga pa ni bilo. In dokler tega ni je vsaka ideja v tej smeri brezpredmetna.
HotBurek ::
SuperJet, kateri podatki bi ti pa prišli prav, če bi bil to seznam slovenskih proizvajalcev?
Recimo industrija (kamnsoeštvo, les, cnc, ...), kraj (Muta, Vuzenica, Dravograd, ...), kaj tretjega?
Pa kaj bi podal kot input/query?
Recimo industrija (kamnsoeštvo, les, cnc, ...), kraj (Muta, Vuzenica, Dravograd, ...), kaj tretjega?
Pa kaj bi podal kot input/query?
root@debian:/# iptraf-ng
fatal: This program requires a screen size of at least 80 columns by 24 lines
Please resize your window
fatal: This program requires a screen size of at least 80 columns by 24 lines
Please resize your window
d4vid ::
Se pravi, da bi zbral nekje 1.000 do 10.000 spletnih strani (HTML), dobil ven podatke (title, description, ...), shranil v bazo (MariaDB), ter nad tem naredil search (Manticore Search).To bo koristno samo v smislu, da se boš nekaj naučil. Ker proper search engine danes je precejšnja znanost, precej več kot samo nekaj na hitro skup vrženih open source aplikacij.
Danes je google precej bolj zakompliciran kot pred 10 leti, s precej boljšimi algoritmi in AIjem, pa vseeno ponuja precej slabše rezultate, ko se seveda mimo vseh reklam, prebiješ do njih.
Enshitification.
pegasus ::
Nisem še pogledal, a verjamem da je notri kup dobrih idej: enshittification-resistant internet by doctorow:
SuperJet ::
SuperJet, kateri podatki bi ti pa prišli prav, če bi bil to seznam slovenskih proizvajalcev?
Recimo industrija (kamnsoeštvo, les, cnc, ...), kraj (Muta, Vuzenica, Dravograd, ...), kaj tretjega?
Pa kaj bi podal kot input/query?
Osnovna opcija bi morala biti iskanje direktno končnega izdelka.
Recimo primer vnosa čevlji. Pričakoval bi slovenske izdelovalce obuval. Ne bi imel problema, če prikaže tudi proizvajalce natikačev in copat, čeprav iščem planinske čevlje. Dodatno bi lahko prikazovalo še storitve iz iste industrije, na primer čevljarje. Tu bi tudi dal filter, da odkljukaš, ali želiš da prikazuje samo spletne trgovine z izdelki, ali tudi obrtnike, ki je nimajo.
Od filtrov, kot si že omenil, bi moral biti še kraj za lokacijo. Tako da lahko recimo omejiš na razdaljo od nekega mesta, ali pa vsaj razvrstiš po oddaljenosti. Tako da če si recimo nastaviš mesto v Kopru, ni prvi zadetek čevljar v Mariboru. Če je opcija zemljevid, toliko bolje.
Drugo je pa iskanje po strukturi storitev in tipov industrij. Tukaj kot si že omenil, razdelitev na tipe industrije in kakšne storitve ponujajo.
Rabil bi neko smiselno strukturo, morda kaj podobnega kot so SKD klasifikacije za podjetnike, le prilagojeno za ta namen. Brskanje po takšni strukturi pride prav, če ne veš kaj točno iščeš oziroma iščeš neki približek. Recimo rabil bi nekoga, da ti iz lesa nekaj porezka. Tu ne rabiš mizarja ali pa žage, ampak samo nekoga s CNC mašino za les. Morda je pa vseeno blizu nek mizar, ki ima cnc in ti ravno tako lahko naredi kar si hotel.
chuck ::
Brskalniki so tik pred upokojitvijo, če že, bi se osredotočil na nišno/specifično področje. Naprimer iskalnik za računalniško nepismene, za otroke, 70+ letnike, nizek IQ. OK, 50% popopulacije. Z močno AI integracijo in cenzuro. Najbolje kr govorno, ker tko ne znajo natipkat.
Zgodovina sprememb…
- spremenil: chuck ()

Miki N ::
Škoda časa in Burekovih talentov.
Kar mi res potrebujemo je, da Slotech najame Bureka, da porihta stran! Ali saj iskanje.
Kar mi res potrebujemo je, da Slotech najame Bureka, da porihta stran! Ali saj iskanje.
HotBurek ::
Sedajle razmišljam, če bi za slovenske spletne strani dol potegnil osnovne podatke. In še to samo za domačo stran.
Ter da bi to shranil v posamičen text file... Ali pa kak drug preprost način. Mogoče MariaDB in text column type. Ok, to se da.
Tisto, kar ne vem, je, kako bi postavil search nad tako vsebino?
Mogoče obstaja kakšen python dodatek, ki bi znal iskati na način, da za vnos jabolko najde tudi jabolka, jabolki, jabolke, ... ta scena.
Primer:
Ter da bi to shranil v posamičen text file... Ali pa kak drug preprost način. Mogoče MariaDB in text column type. Ok, to se da.
Tisto, kar ne vem, je, kako bi postavil search nad tako vsebino?
Mogoče obstaja kakšen python dodatek, ki bi znal iskati na način, da za vnos jabolko najde tudi jabolka, jabolki, jabolke, ... ta scena.
Primer:
url=https://www.kopa.si/ netloc=www.kopa.si scheme=https status_code=200 html_lang=sl-si title=Kopa - Kopa description=Ustvarjamo celovite in prilagojene IT rešitve, ki podjetjem zagotavljajo hitrejšo rast, večjo učinkovitost in konkurenčno prednost. keywords= og:image=https://www.kopa.si/wp-content/uploads/2022/08/Kopa.png h1=Celovite informacijske rešitve h2=Ostale rešitve h2=Dobre prakse h2=O Kopi h2=ERP h2=HRM h2=PLAČE h2=ODiP h2=UTRIP h2=Planska tabla h2=EAM Maximo h2=IT infrastruktura h2=Digitalizirajte poslovne procese h2=Vaš izziv, naša rešitev!Zaupajte nam vaše izzive. h2=Zakaj izbrati Kopo kot partnerja za digitalno transformacijo? h2=Uspeh naših strank je naše najboljše priporočilo! h2=Štejemo več kot h2=Sveže in aktualno h2=Kopa na socialnih omrežjih h2=Prijavite se na naše e-novice h2=Prenesite brezplačni priročnik za digitalno preobrazbo na področju upravljanja z dokumenti. h2=O Kopi h2=Kontakt h2=Podpora h2=Meni h2=Pravna obvestila h2=Spremljajte nas h3=Podpora poslovnim procesom h3=Ravnanje s človeškimi viri h3=Podpora obračunu plač h3=Dokumentni sistem h3=Spremljanje proizvodnje h3=Načrtovanje proizvodnje h3=Podpora vzdrževanju h3=Sistemska integracija h3=Samo en klik do rešitve - pošljite sporočilo. h3=Od leta 1978 podjetjem pomagamo pri razvoju in rasti z inovativnimi rešitvami. h3=Celovite izkušnje in strokovnost h3=Prilagodljive rešitve za vsa podjetja h3=Visoka kakovost in zanesljivost h3=Vaše potrebe so na prvem mestu h3=Natančni in optimizirani projekti h3=Ekipa vrhunskih strokovnjakov h3=Več kot le IT rešitve - partnerstvo, na katerega se lahko zanesete! h3=BI analitika: zakaj je postala ključna pri sodobnem odločanju h3=Zakaj je skladnost z NIS 2 in ZInfV-1 ključ do poslovne odpornosti h3=Srečanje uporabnikov bistrih rešitev 2025 h3=Meta dovoljuje uporabo AI pri zaposlitvenih razgovorih - trend, ki prihaja tudi k nam? h3=Optimizirano planiranje in spremljanje proizvodnje: kako doseči več z manj? h3=Kopin teambuilding in piknik 2025 url=https://www.kopa.si url=https://www.kopa.si/ url=https://www.kopa.si/bi-analitika-zakaj-je-postala-kljucna-pri-sodobnem-odlocanju/ url=https://www.kopa.si/bi-analitika/ url=https://www.kopa.si/blog/ url=https://www.kopa.si/de/ url=https://www.kopa.si/dobre-prakse/ url=https://www.kopa.si/en/ url=https://www.kopa.si/erp/ url=https://www.kopa.si/hr/ url=https://www.kopa.si/hrm/ url=https://www.kopa.si/kontakt/ url=https://www.kopa.si/kopa-dobre-prakse/ url=https://www.kopa.si/kopa-eam/ url=https://www.kopa.si/kopa-place/ url=https://www.kopa.si/kopin-teambuilding-in-piknik-2025/ url=https://www.kopa.si/kopro/ url=https://www.kopa.si/meta-dovoljuje-uporabo-ai-pri-zaposlitvenih-razgovorih-trend-ki-prihaja-tudi-k-nam/ url=https://www.kopa.si/nasa-zgodba/ url=https://www.kopa.si/odip/ url=https://www.kopa.si/optimizirano-planiranje-in-spremljanje-proizvodnje/ url=https://www.kopa.si/partnerstva/ url=https://www.kopa.si/piskotki/ url=https://www.kopa.si/pogoji-poslovanja/ url=https://www.kopa.si/poslanstvo-in-vizija/ url=https://www.kopa.si/pravilnik-o-zasciti-prijaviteljev/ url=https://www.kopa.si/sistemska-integracija/ url=https://www.kopa.si/srecanje-uporabnikov-bistrih-resitev-2025/ url=https://www.kopa.si/utrip/ url=https://www.kopa.si/varovanje-osebnih-podatkov/ url=https://www.kopa.si/zakaj-je-skladnost-z-nis-2-in-zinfv-1-kljuc-do-poslovne-odpornosti/
root@debian:/# iptraf-ng
fatal: This program requires a screen size of at least 80 columns by 24 lines
Please resize your window
fatal: This program requires a screen size of at least 80 columns by 24 lines
Please resize your window
Zgodovina sprememb…
- spremenilo: HotBurek ()
HotBurek ::
Sedajle gledam zgodovino Mat'Kurje, in sem našel link na www2.arnes.si, ki še dela.
https://www2.arnes.si/~abanko/
Mogoče bi bilo zanimivo narediti, da bi zbral podatke po spletnih straneh, in potem brskal takole z autoindex + html table.
https://www2.arnes.si/~abanko/
Mogoče bi bilo zanimivo narediti, da bi zbral podatke po spletnih straneh, in potem brskal takole z autoindex + html table.
root@debian:/# iptraf-ng
fatal: This program requires a screen size of at least 80 columns by 24 lines
Please resize your window
fatal: This program requires a screen size of at least 80 columns by 24 lines
Please resize your window

Gagatronix ::
PluribusUnum ::
Ena okoli mirnega spanca: software, ki bi omogočil z naprave preverjanje identitete internetnega priključka recimo v smislu PIN znan samo naročniku, odgovor je noname zavoljo dodatnega varovanja.
HotBurek ::
Dobro jutro.
Evo, sem naredil en sample.
Dela pa takole:
- Crawler gre na site, shrani html title, keywords in description.
- Če je definirana slika (og:image) jo tudi shrani.
- Potem pa na strani pogleda, če so še drugi linki (netloc) in jih doda v bazo
- Dela samo po home page-ih (se pravi schema://netloc)
Štartal sem včeraj, notri sem dal ene 7.000 page-ov. Do sedaj jih je že 76.000, od tega 31.000 po-crawl-anih, ostale pa še dela (loop dokler ne pride "do konca").
Me zanima, koliko časa bo to šlo.
Crawler je trenutno samo eden.
Search dela na osnovi Manticore Search software-a.
Opcija fuzzy ni vklopljena.
Ta del se mi zdi, da je težko pravilno nastavit. Kolikor sem testiral, najde podobne na način, da zamenja črko (shop/shot), ne pa kolo/kolesa/kolesar... To, imet dober search engine, je verjetno najtežja zadeva.
Link: https://xdb.si
Evo, sem naredil en sample.
Dela pa takole:
- Crawler gre na site, shrani html title, keywords in description.
- Če je definirana slika (og:image) jo tudi shrani.
- Potem pa na strani pogleda, če so še drugi linki (netloc) in jih doda v bazo
- Dela samo po home page-ih (se pravi schema://netloc)
Štartal sem včeraj, notri sem dal ene 7.000 page-ov. Do sedaj jih je že 76.000, od tega 31.000 po-crawl-anih, ostale pa še dela (loop dokler ne pride "do konca").
Me zanima, koliko časa bo to šlo.
Crawler je trenutno samo eden.
Search dela na osnovi Manticore Search software-a.
Opcija fuzzy ni vklopljena.
Ta del se mi zdi, da je težko pravilno nastavit. Kolikor sem testiral, najde podobne na način, da zamenja črko (shop/shot), ne pa kolo/kolesa/kolesar... To, imet dober search engine, je verjetno najtežja zadeva.
Link: https://xdb.si
root@debian:/# iptraf-ng
fatal: This program requires a screen size of at least 80 columns by 24 lines
Please resize your window
fatal: This program requires a screen size of at least 80 columns by 24 lines
Please resize your window
Zgodovina sprememb…
- spremenilo: HotBurek ()
Karen ::
Zanimiva ideja. Mislim, da bi bilo "strateško" imeti domač iskalnik (torej če bi nas Google zaklenil bi po Slo še vedno lahko vse iskali). Čisto enostavno: tako kot nas US lahko kadarkoli odreže od npr. online MS Office-a, gmaila (play store-a in jabolčne trgovinice) in ostalih monopoliziranih storitev na netu - and make no mistake, to so čisto realne opcije, bi bilo smiselno podpirati nekaj "domačega", pa ne samo "zastonj ai za vse", mogoče bi pred tem morali imeti "zastonj office paket za vse", pa "zastonj mail za vse" (predstavljajte si samo da ukinejo dostop do google.com: 3/4 folka ne bi znalo niti na facebook prit direktno čez brskalnik, ker moroni v google search engine vpišejo "fb.com" - to je noro kolikokrat to vidim). Problemov je sicer več, recimo omenil si slovenski iskalnik, sem za foro vrgel v tvoj demo engine "kabel 22kw", pa sem dobil 8 zadetkov, ampak nobenega slovenskega
. Vprašanje kaj je "slovensko", danes je polno kvazi ai prevedenih strani ki imajo sprotno prevajanje in gostijo na domeni .si (recimo laptopbaterije.si so nek AI prevod - dobiš baterijo, sem jo naročil in dobil, ampak ni to slo stran). Skratka podpiram tvojo idejo, ti kar nadaljuj in razvijaj.
Zgodovina sprememb…
- spremenil: Karen ()
HotBurek ::
Evo, takole je trenutno stanje glede page-ov, ki jih crawler še mora po-craw-lat, ter tistimi, ki so vrnili http status 200.
Jih je pa sicer tudi veliko takih, ki vrnejo 3xx, 4xx, 5xx...
Jih je pa sicer tudi veliko takih, ki vrnejo 3xx, 4xx, 5xx...
http status|count |
-----------+------+
0|345797|
200| 41818| root@debian:/# iptraf-ng
fatal: This program requires a screen size of at least 80 columns by 24 lines
Please resize your window
fatal: This program requires a screen size of at least 80 columns by 24 lines
Please resize your window
Zgodovina sprememb…
- spremenilo: HotBurek ()
HotBurek ::
root@debian:/# iptraf-ng
fatal: This program requires a screen size of at least 80 columns by 24 lines
Please resize your window
fatal: This program requires a screen size of at least 80 columns by 24 lines
Please resize your window
HotBurek ::
Ne. Crawler gre kr po celem svetu, pač katere linke dobi na page-u in sledi.
https://xdb.si/search?query=2005
Razmišljam, da bi naredil več baz in bi potem iskal znotraj jeziga (sl, hu, de...) ali po državah za tiste, ki imajo tako označeno v html lang (sl-SI, hu-HU, de-AT, ...).
https://xdb.si/search?query=2005
Razmišljam, da bi naredil več baz in bi potem iskal znotraj jeziga (sl, hu, de...) ali po državah za tiste, ki imajo tako označeno v html lang (sl-SI, hu-HU, de-AT, ...).
root@debian:/# iptraf-ng
fatal: This program requires a screen size of at least 80 columns by 24 lines
Please resize your window
fatal: This program requires a screen size of at least 80 columns by 24 lines
Please resize your window
Zgodovina sprememb…
- spremenilo: HotBurek ()
Vredno ogleda ...
| Tema | Ogledi | Zadnje sporočilo | |
|---|---|---|---|
| Tema | Ogledi | Zadnje sporočilo | |
| » | Spletni NEMARNEži (strani: 1 2 )Oddelek: Programiranje | 4583 (1348) | HotBurek |
| ! | linki za lažji študij/šolo..ali pomoč je le klik stran (strani: 1 2 )Oddelek: Šola | 111694 (16247) | crni_kos |
| » | Kolk plačujete interneta? (strani: 1 2 3 )Oddelek: Loža | 26191 (20174) | kixs |
| » | Kam v šolo??Oddelek: Šola | 1715 (1240) | overlord_tm |
| ⊘ | Videonadzor na računalnikuOddelek: Kaj kupiti | 8023 (6461) | Brane2 |