web scraping ideje @ Slo-Tech

Forum » Programiranje »
web scraping ideje

web scraping ideje

HotBurek :: 20. feb 2020, 11:53

Pozdravljeni.

Iščem ideje za uporabne/zanimive/smiselne web scraping projekte.

- Ena ideja so artikli, ki se prodajajo v spletnih trgovinah (to dejansko imam za Špar/Mercator/Tuš CC). Kaj bi se potem dalo s temi podatki naprej naredit? Koga bi zanimali ti podatki?
- Druga ideja je, da bi naredil crawler, ki bi šel po home page-ih, potem bi pa lahko z "SQL" sintaktso iskal; Najdi vse strani, kjer se pojavi beseda "jogurt" v H1 tagu, najdi vse strani, kjer v HEAD-u ni description tag-a, najdi vse strani, ki imajo TABLE tag v BODY-ju, najdi vse strani, ki jih gosti xyz provajder itn. Ta stvar bi mogoče bila zanimiva za iskanje nepotimalnih strani...

Še kakšne druge ideje?

root@debian:/# iptraf-ng
fatal: This program requires a screen size of at least 80 columns by 24 lines
Please resize your window

galu :: 20. feb 2020, 12:54

Karkoli z natural language processing je praviloma zanimivo. Vir podatkov je lahko kar slo-tech. Nekaj zanimivih statistik bi bilo:
- sentiment v relaciji s časom (ura, mesec, ...)
- lista ekstremno (ne)sentimentalnih uporabnikov
- druge osnovne statistike (char/post count over time)

Tehnično bolj zanimiv scraper bi bil tak, ki bi nudil splošno rešitev. Mu daš na primer samo seznam HTML tagov (s hierarhijo) iz dane domene, ki določajo target text (in njegove meta-podatke). Site-map (in dejanske "podstrani") pa si najde sam. Tako bi enak scraper načeloma deloval tudi za kak news-site.

Tako to gre.

MisterR :: 20. feb 2020, 17:52

Kako dolgo traja da pobereš podatke iz teh trgovin?
Jih kam shranjujes?

HotBurek :: 20. feb 2020, 17:57

50 minut za špar in mtehnika, doba ura in pol za mercator in tuš cc.

Shranim jih v tabele (MariaDB), vsak dan.

root@debian:/# iptraf-ng
fatal: This program requires a screen size of at least 80 columns by 24 lines
Please resize your window

VaeVictis :: 20. feb 2020, 18:11

Če imaš cene in povežeš še hofer, lidl, ..., bi lahko naredil neke vrste ceneje.si za hrano, sicer je vprašanje, če bi bili trgovci tega veseli.

Če imaš poleg tega še hranilne vrednosti in se povežeš še s kulinarika.net ali kaj podobnega lahko narediš ideje za kuho in koliko te pride kosilo, ter kje najceneje kupiš vse sestavine, z lokacijo lahko celo narediš optimizrano shopping listo.

Če imaš iskalnik po h1,h2 itd. bi lahko naredil neke vrste 3d web iskalnik, kjer je h1 izbočena ploskev, h2 manj izbočena ploskev itd., kak VR oz. AR Google bi kar zanimivo lahko tako izgledal.

MisterR :: 20. feb 2020, 18:12

Potem lahko narediš podrobno primerjavo cen:
- izdelek, teža (kg,ml,L itd), cena, cena na enoto (kg,ml,L itd)
- povežeš vse skupaj v aplikacijo "nakupovalni listek" in ko oseba doda "jogurt" predlaga vse jogurte, ko doda "navadni jogurt" predlaga samo navadne, ko doda "jogurt 500ml" doda samo 500ml itd..

Nekaj takega sem želel sam izdelati, pa mi je žal takrat zmanjkalo časa za učenje kakih naprednih metod scrapanja.

Zgodovina sprememb…

spremenil: MisterR (20. feb 2020 ob 18:13)

HotBurek :: 20. feb 2020, 18:26

Ko sem začel s temi podatki trgovin, sem imel v mislih idejo, da bi naredil za ~100 (spletnih) trgovin, program bi bil pa namenjen trgovcem, da bi imeli vsakodnevno osvežen pogled na "tržišče";

- zlistaj vse nove produkte (vsak dan so novi), ter tistih, ki jih ni več (v spletni trgovini)
- zlistaj vse produkte, katerim se je spremenila cena (in so v kategoriji "mleko", od proizvajalca X, ...)
- zlistaj vse produkte, ki so bili dodani/odstranjeni iz popusti/promocije/akcije
- zlistaj vse produkte proizvajalca X od vseh trgovin (ki jih ne prodaja trgvoina Y)

To še moram malo raziskat in povprašat. Zadevo sem potem mislil razširit na trgovine s cotami (nama...), elektronika (bigabn...), gradbeni material (merkur, impos...).

root@debian:/# iptraf-ng
fatal: This program requires a screen size of at least 80 columns by 24 lines
Please resize your window

Zgodovina sprememb…

spremenilo: HotBurek (20. feb 2020 ob 18:28)

MisterR :: 20. feb 2020, 18:28

Trgovci imajo drugačen vpogled na tržišče, preko dobaviteljev. Tako, da jim to ne bi kaj dosti koristilo. Saj vsi vedo, za vse cene, še preden objavijo letake.
Večja baza je v potrošnikih.

VaeVictis :: 20. feb 2020, 18:34

HotBurek kako si se pa učil tega scrapanja, kje si začel, je kak tutorial, knjiga ali kaj podobnega glede tega?

Hvala že vnaprej za odgovor.

HotBurek :: 20. feb 2020, 18:41

Jst sem slišal, da imajo zajem podatkov na POSu, tako da vidijo, kje kdaj in kaj se prodaja. Mogoče manjši nimajo tega sistema (Nielsen).

Kaj bi uporabnikom to koristilo? Lahko primerja ceno jogurtov. Monetiziral bi pa kako? :)

VV, Python (requests.packages.urllib3) + beautifulsoup4 (za HTML) + json (za json to object). Naučil sem se iz potrebe/želje po tem, da poberem podatke dol in potem dolga pot različnih poskusov. :)

Da še dodam + za risanje grafov (bokeh).

Bokeh iris: https://docs.bokeh.org/en/latest/docs/g...

root@debian:/# iptraf-ng
fatal: This program requires a screen size of at least 80 columns by 24 lines
Please resize your window

Zgodovina sprememb…

spremenilo: HotBurek (20. feb 2020 ob 18:44)

VaeVictis :: 20. feb 2020, 18:44

HotBurek je 20. feb 2020 ob 18:41 izjavil:

Jst sem slišal, da imajo zajem podatkov na POSu, tako da vidijo, kje kdaj in kaj se prodaja. Mogoče manjši nimajo tega sistema (Nielsen).

Kaj bi uporabnikom to koristilo? Lahko primerja ceno jogurtov. Monetiziral bi pa kako? :)

App - reklame, spletna stran podobna ceneje.si - reklame, ...

HotBurek :: 20. feb 2020, 18:55

A pri nas obstaja kakšna stran, kjer lahko primerjaš cene hrane?

root@debian:/# iptraf-ng
fatal: This program requires a screen size of at least 80 columns by 24 lines
Please resize your window

MisterR :: 20. feb 2020, 19:14

HotBurek je 20. feb 2020 ob 18:41 izjavil:

Jst sem slišal, da imajo zajem podatkov na POSu, tako da vidijo, kje kdaj in kaj se prodaja. Mogoče manjši nimajo tega sistema (Nielsen).

Kaj bi uporabnikom to koristilo? Lahko primerja ceno jogurtov. Monetiziral bi pa kako? :)

VV, Python (requests.packages.urllib3) + beautifulsoup4 (za HTML) + json (za json to object). Naučil sem se iz potrebe/želje po tem, da poberem podatke dol in potem dolga pot različnih poskusov. :)

Da še dodam + za risanje grafov (bokeh).

Bokeh iris: https://docs.bokeh.org/en/latest/docs/g...

Preko reklam v appu ali na strani, preko rangiranja prikazovanja trgovin itd. Trgovci so pripravljeni pošteno plačati za dobro targetirane oglase.
Sploh če veš kaj ima uporabnik na nakupovalnem listku.

Ah torej imaš osnoven scraping brez nekega procesiranja zadaj? Torej znova in znova skeniras celotno trgovino?

HotBurek :: 21. feb 2020, 09:42

Ja, podatki se vsakodnevno preneseje. Trenutno so vsi podatki ene trgovine v eni tabeli.

Potem je še en "dwh" proces (trenutno samo za Tuš CC), kjer se primerja seznam današnjih produktov z včerašnjimi in shrani:
- kateri so novi produkti (NEW)
- katerih produktov ni več (OUT)
- ter kateri produkti so že bili, potem jih ni bilo, in potem so znova prišli (IN)

Recimo za Tuš CC so danes trije novi produkti:

https://www.tuscc.si/izdelek/krof-80g-6...
https://www.tuscc.si/izdelek/atlantski-...
https://www.tuscc.si/izdelek/igraca-bla...

Na isti načim se da še za ostale trgovine. Pa tudi, da bi gledal za spremembami cen, ter spremembami izdelkov ki so/niso v popusti/promocije/akciji.

root@debian:/# iptraf-ng
fatal: This program requires a screen size of at least 80 columns by 24 lines
Please resize your window

MisterR :: 21. feb 2020, 21:00

Potem še scrapaj akcije (za upokojence, nad 2€, dva za ceno enega itd.), Tukaj bo verjetno potreben OCR pdfjev (letakov).

HotBurek :: 22. feb 2020, 18:46

Sem razmišljal in prišel na idejo, da bi lahko združil produkte iz več manjših trgovin (tiste ti ki niso v big 6) v eno virtualno, z iskanje po produktih, izdelavi lastnega shopping listka in obveščanju sprememeb (cena, dobavljivost), ter novi produkti.

Recimo za živila, kmetije (primer: https://www.sklojca.si/ ).

In potem bi lahko iskal med, jogurt itn po bazi več manjših ponudnikov (in ne ravno mainstream with low prices and questionable quality).

root@debian:/# iptraf-ng
fatal: This program requires a screen size of at least 80 columns by 24 lines
Please resize your window

youPlonker :: 23. feb 2020, 11:01

MisterR je 20. feb 2020 ob 18:12 izjavil:

Potem lahko narediš podrobno primerjavo cen:
- izdelek, teža (kg,ml,L itd), cena, cena na enoto (kg,ml,L itd)
- povežeš vse skupaj v aplikacijo "nakupovalni listek" in ko oseba doda "jogurt" predlaga vse jogurte, ko doda "navadni jogurt" predlaga samo navadne, ko doda "jogurt 500ml" doda samo 500ml itd..

Nekaj takega sem želel sam izdelati, pa mi je žal takrat zmanjkalo časa za učenje kakih naprednih metod scrapanja.

Jaz mislim, da ni toliko problem scrapat/pridobivat vsebino od slovenskih trgovcev za tvoj nakupovalni listek (na kakršenkoli način že to počneš), večji problem je npr. LCA jagodni jogurt iz Tuša "uparit" z LCA jagodnim jogurtom iz Mecatorja, kategorizirat pravilno izdelke, pravilno določit ceno glede na količino (itak imajo količino različni trgovci različno zavedeno, kako boš kilo pomaranč iz mercatorja primerjal z lamberčkom pomaranč iz Hoferja?) in tako dalje.

Glede scrapanja - nekaj opcij, za katere se mi zdi, da so aktualne:

1. Pure html stran, ki jo lahko rekurzivno "preskeniraš" za vse a href tage in jih pač vse obiščeš (primer: Hofer webpage). Za Hoferjevo trgovino sem to pred kratkim naredil, ful enostavno, potem pa pač dodaš še neko svojo custom logiko - določiš tage v katerih se nahajajo artikli in te shraniš v DB.
2. Javascript app, za katero rabiš nek engine, da jo poženeš v tvojem programu (sam sem uporabljal https://www.npmjs.com/package/puppeteer). To je že bolj težavno, v bistvu niti ne vem, če je to pravilen pristop... Fora je, da z običajnim HTTP GET requestom ne dobiš vsebine, kot je na voljo v brskalniku, ki ima svoj Javascript engine, na podlagi katerega zgenerira HTML tage iz SPA kode. Primer: Mercator Spletna trgovina.
3. Izvohaš REST API, ki ga prej omenjena aplikacija uporablja in poskušaš podatke direktno pridobivat prek njega. Če je ta API ful zaščiten, se pod nosom obriši.
4. High tech machine learning in prepoznavanje objektov z reklamnega prospekta. Ideja: mercatorjevo pdf reklamo spustiš čez to in stvar ti sama prepozna zelenjavo, sadje, salame itd.
5. Najameš človeka, da ročno pregleda prospekte vsak teden in vpisuje izdelke v bazo. Če se ne motim, tudi ceneje.si nima kar vse avtomatizirano in imajo v končni fazi tudi ljudi, ki urejajo vsebino.

@HotBurek: Sam sem imel idejo izdelat neko čist enostavno Android aplikacijo za primerjanje cen hrane, ampak se mi kar hitro potem ni več dalo :) Mogoče bi mi bilo lažje v skupini. Je pa IMHO ful neizkoriščenega potenciala tu, npr. zakaj bi moral človek gledat vse te prospekte od Mercatorja, Hoferja, Eurospina in ostalih trgovcev. Saj točno vem, kaj od hrane rabim, zato hočem imeti app v katerem zavedem, katera hrana me zanima in naj me ta app avtomatično obvešča o "killer deals".
To pregledovanje reklamnih letakov in iskanje akcij je eno nepotrebno zabijanje časa, ki ga nimam.

HotBurek :: 23. feb 2020, 12:22

youPlonker, za točko 2 bi dodal še PhantomJS in Selenium. Za točko 3; vsa tri podjetja imajo podatke dostopne preko HTTP GET klica, ki vrača JSON.

Tisto z skeniranje reklamnih letakov bi se mogoče dalo rešit drugače;
- kot prvo, lahko da so izdelki tako ali tako vnešeni v database kot "v akciji 10%" itn. (kolikor sem gledal za špar/mercator, je tako, tuš ima pa tako svojo kategorijo za izdelke v akciji)
- kot drugo, prospekt se lahko dobi v pdf obliki in potem python prebere vrednosti

Pa še za začetek, da je bolj enostavno in da lahko stran hitreje raste, bi za vsak produkt zbral (zgolj) sledeče lastnosti:
- title (BUREK S SIROM SPAR, 940G)
- image (

)
- price (4,99 EUR)
- date (2020-02-23, to je datum, ko je produkt na zadnje bil "viden", čekira se pa vsak dan)
- shop (Špar)
- link ( https://www.spar.si/online/burek-s-siro... )

In potem, recimo za začetek search funkcija.

youPlonker, a ti bi znal naredit Android aplikacijo?

Da še dodam glede akcije (ter cene skozi čas) za Špar, primer za artikel 499002:

root@debian:/# iptraf-ng
fatal: This program requires a screen size of at least 80 columns by 24 lines
Please resize your window

Zgodovina sprememb…

spremenilo: HotBurek (23. feb 2020 ob 12:25)

bobiapps :: 24. mar 2026, 12:43

Zdravo, ste se na tem projektu in ali je kaksna moznost da bi se pridruzil. Trenutno ze tudi sam delam aplikacijo ki je ubistvu kot nek osebni digitalni pomočnik za pametno nakupovanje v Sloveniji. Omogoča, da v hipu najdeš najboljše ponudbe in prihraniš denar pri vsakdanjih nakupih hrane in ostalih potrebščin in ne rabis listati po letakih. Na tvojem zaslonu vedno vidiš, koliko denarja si dejansko prihranil pri svojem zadnjem nakupu. Sepravi ce recimo kupis kavo barcafe ti potem na dashbordu prikaze koliko bi lahko prisparal ce bi kupil S-budget recimo...

Trenutno imam tezavo z scrapanjem podatkov iz trgovin spar, lidl, merkator, hofer, tus... da bi mi lahko prikazalo izdelke znotraj aplikacije...

Mi lahko kdo kako pomaga?

Hvala v naprej

lp

AI-SLOP :: 24. mar 2026, 18:06

kakšne težave, konkretno - s scrapanjem?
za začetek daj v chatshitipi^tm en html z artikli, da ti naredi dom/regex scraper.
takšni nakupovalni asistenti imajo smisel PRED nakupom :D

karafeka :: 24. mar 2026, 18:11

A nima večina strani captcha oz. je spredaj cloudflare, kar pomeni, da te z enim automatiziranim scraperjem hitro najdejo in aktivirajo captcha check? Ali pa uporabljaš kake posebne trike, kako se temu izognit?

Zgodovina sprememb…

spremenil: karafeka (24. mar 2026 ob 18:11)

AI-SLOP :: 24. mar 2026, 18:20

smiselno vprašanje - od teh domačih nobena, kolikor vem. zaenkrat!
če captcha ni obvezna (in povečini ni), verjetno ne škodi posnemati 'human' behaviour, ne.
katero trgovino imaš sicer v mislih?

Vredno ogleda ...

	Tema	Sporočila	Ogledi	Zadnje sporočilo
	Tema	Sporočila	Ogledi	Zadnje sporočilo
»	Trgovine nategovanje- Spar novo dno? (strani: 1 2 3 4 … 8 9 10 11 ) Argonavt Oddelek: Loža	545	64202 (4932)	MrStein 6. maj 2026 10:21:37
»	Razlika kvalitete med izdelki v trgovini (strani: 1 2 3 4 ) alexslo93 Oddelek: Loža	162	30901 (24727)	IL_DIAVOLO 5. feb 2023 11:06:17
»	Nova mobilna aplikacija Listek (strani: 1 2 3 4 ) skidoo600 Oddelek: Mobilne tehnologije	155	41819 (28451)	skidoo600 6. maj 2022 10:37:37
»	Pametno nakupovanje (strani: 1 2 ) FormerUser Oddelek: Loža	54	17824 (15523)	HappyPills 18. sep 2019 07:36:52
»	Android preverjanje cene artiklov (strani: 1 2 3 ) dacker Oddelek: Programska oprema	128	22455 (13745)	dacker 27. apr 2015 22:24:06

Več podobnih tem

Zadnje novice

Zadnji članki

Išči:

Forum » Programiranje »
web scraping ideje

web scraping ideje