[MariaDB] Dosegljivost podatkov med DELETE + INSERT operacijo.
HotBurek ::
Evo, nov dan, nov izziv.
V tabeli (MariaDB, InnoDB) izvajam "update" na način, da skupaj zvežem prvo DELETE, potem pa INSERT.
Na začetku uporabim START TRANSACTION, potem sledita DELETE in INSERT, ter COMMIT na koncu.
Zanima me, kako (in če) bi se dalo narediti, da so podatki v taki tabeli vedno na volja?
Se pravi med izvajanjem COMMIT-a, kaj se takrat dogaja v bazi?
Ali lahko pride do "vmesne" situacije, ko SELECT ne bi nič vrnil, ker se je DELETE že izvedel, INSERT pa še ne, in je takrat prazna tabela?
pegasus ::
Začni tu: ACID @ Wikipedia
In potem beri specifično za tvojo verzijo baze, kako ima to implementirano. InnoDB je pogojno sprejemljiv.
c3p0 ::
Za "vmesne" situacije sploh imamo transakcije, a ne. Drugače pa obstajajo locki na več nivojih in drugi queryji pridno čakajo, da se lock sprosti.
Lahko pa še tako dobro bazo enostavno uničiš performance s slabimi queryji.
klemenSLO ::
TEhnično gledano maš NOLOCK oz READ unCOMMITED opcijo.
BOlj je vprašanje vsebinske narave --> ali si lahko privoščiš da uporabnik morebiti dobi napačne podatke?
@c3p0: Lahko pa še tako dobro bazo enostavno uničiš performance s slabimi queryji. Ha, točno to. Še tok dober HW ne reši slabih queryjev...
kuall ::
Začni tu: ACID @ Wikipedia
In potem beri specifično za tvojo verzijo baze, kako ima to implementirano. InnoDB je pogojno sprejemljiv.
kaj bo bral ene debilne romane, ko pa je veliko bolj zanesljivo in lažje naredit en svoj test
ms sql dela tako, da če v transkaciji brišeš iz tabele potem je tabela zaklenena ves čas transakcije, ne samo v času brisanja. kak drug sql server pa je lahko drugače implementiran
--create table t (id int identity , acname varchar (100))
--create table t2 (id int identity , acname varchar (100))
insert into t (acname ) values ('1')
insert into t2 (acname ) values ('2-1')
--SELECT top 0 * FROM t WITH (TABLOCKX, HOLDLOCK); -- Lock the table -- Lock the table
--SELECT top 0 * FROM t
delete from t
--insert into t (acname ) values ('2')
WAITFOR DELAY '00:00:12';
insert into t (acname ) values ('2')
select*from t
drugi query poženeš kot drug user in vidiš, da čakaš ko pa majmune
select*from t
select*from t2
vprašanje niti ni tako neumno samo to so tako robni primeri, da če se bi s takimi stvarmi ukvarjal na trgu bi služil 1e na uro, ok recimo da spada pod učenje
transkcije morajo biti čim krajše časovno: pripraviš tmp tabelo zunaj transkacije, razbiješ na več majhnih transakcij

c3p0 ::
In malo bolj pametni klienti, npr. pri multi-tenant rešitvah, da en "worker" proces dela za nek nabor strank. Sem že videl par 100 ali 1000 workerjev, ki se tepejo za iste podatke in potem sledijo razni deadlocki. Potem pa nikomur nič jasno, če pa so pojačali HW, še vedno pa isti problemi.

DamijanD ::
Je pa zanimivo koliko je razlike med oraclom in mssqlom kar se deadlockov tiče. Isti SW (in podobna uporaba) samo drugi DB provider in na mssqlu pogosto kakšen deadlock v logih, na oraclu pa nobenega. (ima pa Oracle žal druge cvetke)
Malo offtopic ampak vseeno paše v kontekst: Kako bi razvrstili različne DB serverje po "zmogljivosti" (velikost baze, št. sočasnih zahtevkov): oracle, postgree, mssql, DB2?, mariaDB ?
Malo offtopic ampak vseeno paše v kontekst: Kako bi razvrstili različne DB serverje po "zmogljivosti" (velikost baze, št. sočasnih zahtevkov): oracle, postgree, mssql, DB2?, mariaDB ?
Ales ::
... vprašanje niti ni tako neumno ...
@HotBurek, na dan 26.01.2024 si zastavil pametno programersko vprašanje.
Zdaj greš lahko mirne duše v programerska večna lovišča v spremstvu prelepih valkir...
Hm, OK, morda sem pomešal nekaj religij, ampak pri programiranju moraš tako ali tako obvladati cel nabor različnih tehnologij.


Utk ::
Če nekomu prihaja do deadlockov, pa ne ve zakaj, je bolj verjetno problem v njegovi kodi kot v nekem sql serverju. Če pa je problem v sql serverju, programer, ki je prišel do tega limita, bi moral to vedet v čem je problem.
Ponavadi je problem, če imaš neko kodo izven sql-a, ki odpira transakcije, potem pa rabi "pol ure", da naredi svoje, ta čas pa pride drug klient, ki bi rad isto. Tu je navidezno problem v sql-u, ki kao nekaj brez veze zaklepa, ampak v resnici ni, dokler smo v rangu hotbureka, problem je v kodi, ki tisto karkoli že dela, zelo verjetno dela nepotrebno dolgo. Dvomim da ima on neko stored proceduro, ki se izvaja tako dolgo, da bi bil to problem, če pa ima, je verjetno spet problem v proceduri, ki je očitno zanič.
V glavnem...če nekdo to sprašuje in ima problem z locki, bi jaz dal dober denar na to da je problem v njegovi kodi, ne pa v sql serverju.
Ponavadi je problem, če imaš neko kodo izven sql-a, ki odpira transakcije, potem pa rabi "pol ure", da naredi svoje, ta čas pa pride drug klient, ki bi rad isto. Tu je navidezno problem v sql-u, ki kao nekaj brez veze zaklepa, ampak v resnici ni, dokler smo v rangu hotbureka, problem je v kodi, ki tisto karkoli že dela, zelo verjetno dela nepotrebno dolgo. Dvomim da ima on neko stored proceduro, ki se izvaja tako dolgo, da bi bil to problem, če pa ima, je verjetno spet problem v proceduri, ki je očitno zanič.
V glavnem...če nekdo to sprašuje in ima problem z locki, bi jaz dal dober denar na to da je problem v njegovi kodi, ne pa v sql serverju.
HotBurek ::
Pozdravljeni fantje in dekline.
Imam dobro novico. Sem si rekel, da bom bil naredil test, da preverim kaj in kako zadeva dela. In sem ga res.
Naredil sem si testno tabelo, notri pa vnesel nekaj vrstic (id, text). Šel sem tako daleč, da sem postavil primary key na id stolpec, kar kaže, da gre za višji nivo.
Na serverju sem se, kot se za pravega moškega spodobi, povezal v marijo z root accountonm.
In pognal sledeča okuaza:
start stransaction;
delete from table where id = neka cifra;
Potem pa sem na svojem osebnem računalniku, kjer sem z uporabo oddaljenega dostopa povezan na to isto bazo (a z drugim uporabniškim računom), izvedel sledeči napredni ukaz:
select * from table;
In rezultat je, da tabela ni bila zalokana, ter da so notri bili še strai podatki. TOP!
Ko sem na strežniku v ukazni lupini pognal ukaz commit, pa so bili tudi na klientu videni novi podatki.
Prav tako sem preveril vrednost autocommit; ta je bila 1. Kar je pomembno, saj ima klient v configu nastavljeno na autocommit=true.
Well done.
Utk ::
Za select ni neke potrebe, da bi tabela lockala. Tabela je stalno v veljavnem stanju, ni razloga, da ne bi smel selectat iz nje. Poskusi namesto selecta pognat update recimo. In to istih vrstic, ki jih brišeš.
c3p0 ::
Malo offtopic ampak vseeno paše v kontekst: Kako bi razvrstili različne DB serverje po "zmogljivosti" (velikost baze, št. sočasnih zahtevkov): oracle, postgree, mssql, DB2?, mariaDB ?
Ne vem ali obstaja absolutni odgovor, pa še kak p/p je treba upoštevat. Glede na cost bi moral Oracle zmagat :). Sam sem sicer biased, ker delam daleč največ s Postgresom v precej large(?) setupih (po 15TB na bazo, ki pa mora zelo hitro delovat).

kuall ::
HotBurek ::
Gre za cache search rezultatov.
Npr. za key "test" so rezultati:
test - 0095 - 11.20
test - 0003 - 7.41
test - 0061 - 5.50
In te rezultate se zapiše v cache tabelo.
S časoma se v source tabeli dodajo novi zapisi, ki vsebujejo key "test". In ko se ponovno zgenerirajo search rezultati za key "test", pride ven:
test - 0095 - 11.20
test - 0104 - 9.18
test - 0003 - 7.31
test - 0061 - 5.50
Sedaj je potrebno dodad 0104 v cache tabelo za kej "test".
Kasneje, se ponovi zgodba, notri v source tabelo pridejo novi zapisi, ki vsebujejo key "test", in spet se naredi update search rezultatov:
test - 0155 - 18.18
test - 0095 - 11.20
test - 0104 - 9.18
test - 0003 - 7.31
test - 0061 - 5.50
V tem primeru je potrebno v cache tabelo dodati nov element 0155.
Mogoče bi šlo takšen "update" naredit bolj elegantno, kot DELETE + INSERT.
Zdaj razmišljam. Težava je, da ko iz source tabele dobiš rezultate, bi pred vnosom moral za vsak id preverit, če že obstaja v cache tabeli. In če ne obstaja, bi ga insertal.
Istočasno je potrebno preverit, kolikšen je max match value za key, in tiste ki imajo premajhen match value, sploh ne vnest v tabelo.
Npr. za key "test" so rezultati:
test - 0095 - 11.20
test - 0003 - 7.41
test - 0061 - 5.50
In te rezultate se zapiše v cache tabelo.
S časoma se v source tabeli dodajo novi zapisi, ki vsebujejo key "test". In ko se ponovno zgenerirajo search rezultati za key "test", pride ven:
test - 0095 - 11.20
test - 0104 - 9.18
test - 0003 - 7.31
test - 0061 - 5.50
Sedaj je potrebno dodad 0104 v cache tabelo za kej "test".
Kasneje, se ponovi zgodba, notri v source tabelo pridejo novi zapisi, ki vsebujejo key "test", in spet se naredi update search rezultatov:
test - 0155 - 18.18
test - 0095 - 11.20
test - 0104 - 9.18
test - 0003 - 7.31
test - 0061 - 5.50
V tem primeru je potrebno v cache tabelo dodati nov element 0155.
Mogoče bi šlo takšen "update" naredit bolj elegantno, kot DELETE + INSERT.
Zdaj razmišljam. Težava je, da ko iz source tabele dobiš rezultate, bi pred vnosom moral za vsak id preverit, če že obstaja v cache tabeli. In če ne obstaja, bi ga insertal.
Istočasno je potrebno preverit, kolikšen je max match value za key, in tiste ki imajo premajhen match value, sploh ne vnest v tabelo.
FireSnake ::
To, kar zgoraj pišeš je idiotija! Iz tehničnega vidika možgansko bruhanje brez repa in glave.
Ti pa zanič! Ker bi moral to vedeti preden si se sploh usedel za računalnik.
Deadlocke še v šoli učijo.
deadlock se ne bi sam rešil brez pomoči serverja tako, da eno transakcijo ubije. blocking se reši po nekem času sam.
deadlocke se reši tako, da se najde oba problematična queryja in se ju ponovno napiše optimizirano oz vsaj enega. če ni možno pa try catch in v catch če je dedlock še 1x poženemo kodo oz damo flag, da se naslednjič sprocesira.
chatgpt je dober za učenje
Ti pa zanič! Ker bi moral to vedeti preden si se sploh usedel za računalnik.
Deadlocke še v šoli učijo.
Poglej in se nasmej:
Lonsarg ::
Deadlock je izključno programerska napaka in sicer če dve transakcija v različnem vrstnem redu zaklepata tabele ali isto vrstico tabele.
Ena hitr hack je tisto tabelo na katero dobiš deadlock prestaviti na vrh transakcije in narediti select z "WITH LOCK" (no vsaj MS SQL ima tako, ampak koncepti so pri vseh bazah podobni, tudi Oracle ni nobena izjema sam sintakso ima precej drugačno, skratka povsod se da eksplicitno z rpvim querijem v transakciji določeno celo tabelo zaklenit). Če namreč dve transakciji obe v prvem ukazu isto tabelo lockata to nikoli ne bo deadlock, ampak bo ena izmed transakcij počakala na drugo.
Ampak to je seveda hack, ker s tem si omejil izvajanje te transakcije na en thread in to v marsikaterem primeru ni performančno ok. Proper rešitve so pa case by case. Recimo ko govorimo o problemih ko dve transakcije potencialno isti ID/row dotikata ampak je processing dejansko zgolj per ta ID se to reši z softwerskimi eksplicitnimi locki, da pač procesing logiko zakleneš na max en thread per ID (rešitev kako to narediti je ogromno različnih, lahko SQL, lahko iz top level kode v .net,...). Ko tako pametno vsebinsko zakleneš procesing ti je potem vseeno če je transakcija malo večja (včasih, zorioma rpavzaprav zelo pogosto pač esplicitno hočeš cel procesing v transakcijo dat, tudi tak ki dotika potencialno veliko tabel, več SQL procedur itd), dokler vsebinsko dotika zgolj določene vrstice vezane na ta ID. Tudi performančno je ta rešitev top, ker imaš omejeno per en thread per ID še vedno pa neomejeno threadov med različnimi IDji.
V primeru MS SQL za softwerski eksplicitni per ID lock mi uporabljamo, ne glede na to ali je iz .net ali SQL kode. Ko več aplikacij isto pogodbo obdelava si ta ID sharajo in tako elegantno rešimo deadlocke in lahko vse aplikacije per pogodba procesing delajo v eni transakciji ne glede na to koliko dolg je ta procesing, še pošiljanje preko integracij in APIjev je znotraj te transakcije.
Ena hitr hack je tisto tabelo na katero dobiš deadlock prestaviti na vrh transakcije in narediti select z "WITH LOCK" (no vsaj MS SQL ima tako, ampak koncepti so pri vseh bazah podobni, tudi Oracle ni nobena izjema sam sintakso ima precej drugačno, skratka povsod se da eksplicitno z rpvim querijem v transakciji določeno celo tabelo zaklenit). Če namreč dve transakciji obe v prvem ukazu isto tabelo lockata to nikoli ne bo deadlock, ampak bo ena izmed transakcij počakala na drugo.
Ampak to je seveda hack, ker s tem si omejil izvajanje te transakcije na en thread in to v marsikaterem primeru ni performančno ok. Proper rešitve so pa case by case. Recimo ko govorimo o problemih ko dve transakcije potencialno isti ID/row dotikata ampak je processing dejansko zgolj per ta ID se to reši z softwerskimi eksplicitnimi locki, da pač procesing logiko zakleneš na max en thread per ID (rešitev kako to narediti je ogromno različnih, lahko SQL, lahko iz top level kode v .net,...). Ko tako pametno vsebinsko zakleneš procesing ti je potem vseeno če je transakcija malo večja (včasih, zorioma rpavzaprav zelo pogosto pač esplicitno hočeš cel procesing v transakcijo dat, tudi tak ki dotika potencialno veliko tabel, več SQL procedur itd), dokler vsebinsko dotika zgolj določene vrstice vezane na ta ID. Tudi performančno je ta rešitev top, ker imaš omejeno per en thread per ID še vedno pa neomejeno threadov med različnimi IDji.
V primeru MS SQL za softwerski eksplicitni per ID lock mi uporabljamo, ne glede na to ali je iz .net ali SQL kode. Ko več aplikacij isto pogodbo obdelava si ta ID sharajo in tako elegantno rešimo deadlocke in lahko vse aplikacije per pogodba procesing delajo v eni transakciji ne glede na to koliko dolg je ta procesing, še pošiljanje preko integracij in APIjev je znotraj te transakcije.
