[MariaDB] Kolikokrat se pojavi tekst v tekstu? @ Slo-Tech

Forum » Programiranje »
[MariaDB] Kolikokrat se pojavi tekst v tekstu?

[MariaDB] Kolikokrat se pojavi tekst v tekstu?

HotBurek :: 26. dec 2019, 14:13

Pozdravljeni.

Zanima me kakšni so načini za rešitev tele zagonetke.

V stolpcu tipa TEXT je sledeč vrednost: "abba baba babuška"

Kako s querijem dobiti število, kolikokrat se ponovi "ba"? Tako, da vrne 4.

root@debian:/# iptraf-ng
fatal: This program requires a screen size of at least 80 columns by 24 lines
Please resize your window

WizzardOfOZ :: 26. dec 2019, 14:23

Declare @string varchar(1000)

DECLARE @SearchString varchar(100)

Set @string = 'abba baba babuška'

SET @SearchString = 'ba'

select ((len(@string) - len(replace(@string, @SearchString, ''))) -(len(@string) - 
        len(replace(@string, @SearchString, ''))) % 2)  / len(@SearchString)

http://dataeducation.com/counting-occur...

Zgodovina sprememb…

spremenilo: WizzardOfOZ (26. dec 2019 ob 14:25)

HotBurek :: 26. dec 2019, 15:59

Hvala za sample.

Sem dodal v večjo skripto, a so nekje še nepravilnosti...

Prvi primer; če iščem po "CREATIVE%20WORKSHOP", mi za count vrača ne cela štrevila (a ne za vse search term-e).

Drug problem pa je, kako pri branju iz baze konvertat "%20" v space (in vse ostale).

Ker trenutno, če iščem po "a", mi najde tudi "%C5%A1", ki je sicer "š" (to bom verjetno pofixal pri klicu procedure in konvertal string...).

SET @searchfor = LOWER('CREATIVE%20WORKSHOP');

SELECT `adrank`.`id` AS 'id',
	MAX(`adrank`.`rankt`) AS 'rankt',
	MAX(`adrank`.`rankd`) AS 'rankd',
	MAX(`adrank`.`rankt`) + MAX(`adrank`.`rankd`) AS 'rank',
	`adcount`.`countt` AS 'countt',
	`adcount`.`countd` AS 'countd',
	`adcount`.`count` AS 'count',
	`adrank`.`title` AS 'title',
	`adrank`.`description` AS 'description'
FROM (
	SELECT `ad00`.`id`, 4 AS 'rankt', 0 AS 'rankd', `ad00`.`title`, `ad00`.`description`
	FROM `aaa`.`Ad00` AS `ad00`
	WHERE LOWER(`ad00`.`title`) LIKE @searchfor
	UNION
	SELECT `ad00`.`id`, 3 AS 'rankt', 0 AS 'rankd', `ad00`.`title`, `ad00`.`description`
	FROM `aaa`.`Ad00` AS `ad00`
	WHERE LOWER(`ad00`.`title`) LIKE (CONCAT(@searchfor, '%'))
	UNION
	SELECT `ad00`.`id`, 2 AS 'rankt', 0 AS 'rankd', `ad00`.`title`, `ad00`.`description`
	FROM `aaa`.`Ad00` AS `ad00`
	WHERE LOWER(`ad00`.`title`) LIKE (CONCAT('%', @searchfor))
	UNION
	SELECT `ad00`.`id`, 1 AS 'rankt', 0 AS 'rankd', `ad00`.`title`, `ad00`.`description`
	FROM `aaa`.`Ad00` AS `ad00`
	WHERE LOWER(`ad00`.`title`) LIKE (CONCAT('%', @searchfor, '%'))
	UNION
	SELECT `ad00`.`id`, 0 AS 'rankt', 4 AS 'rankd', `ad00`.`title`, `ad00`.`description`
	FROM `aaa`.`Ad00` AS `ad00`
	WHERE LOWER(`ad00`.`description`) LIKE @searchfor
	UNION
	SELECT `ad00`.`id`, 0 AS 'rankt', 3 AS 'rankd', `ad00`.`title`, `ad00`.`description`
	FROM `aaa`.`Ad00` AS `ad00`
	WHERE LOWER(`ad00`.`description`) LIKE (CONCAT(@searchfor, '%'))
	UNION
	SELECT `ad00`.`id`, 0 AS 'rankt', 2 AS 'rankd', `ad00`.`title`, `ad00`.`description`
	FROM `aaa`.`Ad00` AS `ad00`
	WHERE LOWER(`ad00`.`description`) LIKE (CONCAT('%', @searchfor))
	UNION
	SELECT `ad00`.`id`, 0 AS 'rankt', 1 AS 'rankd', `ad00`.`title`, `ad00`.`description`
	FROM `aaa`.`Ad00` AS `ad00`
	WHERE LOWER(`ad00`.`description`) LIKE (CONCAT('%', @searchfor, '%'))
) AS `adrank`
INNER JOIN (
	SELECT
		`ad00`.`id`,
		(
			(LENGTH(`ad00`.`title`) - LENGTH(REPLACE(LOWER(`ad00`.`title`), @searchfor, '')))
			-
			(LENGTH(`ad00`.`title`) - LENGTH(REPLACE(LOWER(`ad00`.`title`), @searchfor, '')))
			% 2)
		/
		LENGTH(@searchfor) AS 'countt',
		(
			(LENGTH(`ad00`.`description`) - LENGTH(REPLACE(LOWER(`ad00`.`description`), @searchfor, '')))
			-
			(LENGTH(`ad00`.`description`) - LENGTH(REPLACE(LOWER(`ad00`.`description`), @searchfor, '')))
			% 2)
		/
		LENGTH(@searchfor) AS 'countd',
		((
			(LENGTH(`ad00`.`title`) - LENGTH(REPLACE(LOWER(`ad00`.`title`), @searchfor, '')))
			-
			(LENGTH(`ad00`.`title`) - LENGTH(REPLACE(LOWER(`ad00`.`title`), @searchfor, '')))
			% 2)
		/
		LENGTH(@searchfor))
		+
		((
			(LENGTH(`ad00`.`description`) - LENGTH(REPLACE(LOWER(`ad00`.`description`), @searchfor, '')))
			-
			(LENGTH(`ad00`.`description`) - LENGTH(REPLACE(LOWER(`ad00`.`description`), @searchfor, '')))
			% 2)
		/
		LENGTH(@searchfor)) AS 'count'
	FROM `aaa`.`Ad00` AS `ad00`
) AS `adcount`
ON `adrank`.`id` = `adcount`.`id`
GROUP BY `adrank`.`id`;

root@debian:/# iptraf-ng
fatal: This program requires a screen size of at least 80 columns by 24 lines
Please resize your window

Zgodovina sprememb…

spremenilo: HotBurek (26. dec 2019 ob 16:07)

BigWhale :: 26. dec 2019, 16:36

A je to nekaj kar moras nujno poceti z bazo? Ker tole je sila nerodno in bo na dolgi rok zamudno. V pythonu je to en klic...

>>> a = "abba baba babuška"
>>> a.count('ba')
4

Ce imas %20 na mesto presledka v bazi potem je v bazi zapisan urlencoded text. To je narobe iz veliko razlogov in bi bilo najbolje najprej odpraviti to in narediti neko normalizacijo podatkov. Brez tega je karkoli bolj resnega skoraj nesmiselno delati.

HotBurek :: 26. dec 2019, 16:49

To, da je nujno pocet z bazo, ni. Nekako se nagibam (po videnih komplikacijah), da bo to (search, rank) v middleware-u (Python), kjer se bodo rezultati keširal v memcached (tega uporabljam sedaj, lahko se postavi drug cache sistem). Ampak še nisem tako daleč. Sedaj raziskujem, kako rešit search po dveh stolpcih, kjer nekdo na frontend-u vnese "tekst" in da potem dobi neke relevantne zadetke nazaj.

Kar se urlencoded tiče; Ja, na client strani JS naredi encodeURIComponent, in takšna string vrednost se potem shrani v tabelo. Lahko v Python-u to spremenim. Oz. če pravite, da je narobe, pol že ni optimalno...

root@debian:/# iptraf-ng
fatal: This program requires a screen size of at least 80 columns by 24 lines
Please resize your window

Zgodovina sprememb…

spremenilo: HotBurek (26. dec 2019 ob 16:54)

BigWhale :: 26. dec 2019, 19:28

No, seveda je vse odvisno od tega kaj tocno rabis in zakaj bi to rad pocel. Implementacija na strani bazi ni vedno zgresena ampak moras za to imeti dost dober case, da upravicis taksno stvar.

Kar se tice urlencoded stringov, je IMO bolje, da jih imas v bazi v izvirni obliki, zato da kadarkoli kasneje ne pride do zmesnjav. Urlencoded stvari uporabljas samo takrat, ko jih transportiras naokrog. Zapisujes jih pa potem v utf8 ali pa celo utf16, ce je potreba. V nasprotnem primeru bos prej ali slej naletel na tezavo, ko bos nek urlencoded string primerjal s klasicnim stringom in se bos cohal in ugotavljal zakaj rec ne deluje.

HotBurek :: 27. dec 2019, 01:03

Evo update. Sem naredil tako, da kot Python dobi od JS string, naredi urllib.parse.unquote("encodeURIComponent input from JS") in potem to zapiše v tabelo.

Sedaj dela klasičen WHERE MATCH (columns) AGAINS ("+search ford* -this" IN BOOLEAN MODE) bistveno bolje. Fora je, da so prej presledki bili "%20" in je vse skupaj bil en dolgi string. Sedaj, ko so besede ločene s presledkom, išče bistveno bolje.

Sem pa opazil, da se namesto dvopščje : shrani string "&colon;".

root@debian:/# iptraf-ng
fatal: This program requires a screen size of at least 80 columns by 24 lines
Please resize your window

BigWhale :: 27. dec 2019, 10:44

Lahk nardis uporabis se html.unescape(), pa ti odstrani se HTML entities iz stringov.

Vredno ogleda ...

	Tema	Sporočila	Ogledi	Zadnje sporočilo
	Tema	Sporočila	Ogledi	Zadnje sporočilo
»	Slo-Tech userscripts hruske Oddelek: Izdelava spletišč	17	5955 (3407)	jype 15. maj 2018 18:08:07
»	SQL vprasanje (strani: 1 2 ) VelikiJanez Oddelek: Programiranje	68	9982 (6661)	BivšiUser2 3. okt 2017 11:38:33
»	12v napajalnik za LED trak za v dozo- obstaja? M-XXXX Oddelek: Elektrotehnika in elektronika	6	1251 (1027)	Invictus 13. jul 2017 19:40:38
»	počasno delovanje kompa Asus N76VZ WIngs Oddelek: Pomoč in nasveti	8	1551 (1379)	WIngs 2. jan 2014 17:22:46
»	MS Access (strani: 1 2 ) SmeskoSnezak Oddelek: Programiranje	64	8651 (6709)	travica 6. feb 2013 12:47:25

Več podobnih tem

Zadnje novice

Zadnji članki

Išči:

Forum » Programiranje »
[MariaDB] Kolikokrat se pojavi tekst v tekstu?

[MariaDB] Kolikokrat se pojavi tekst v tekstu?