Stavek, ki jim vsem vlada

Matej Huš :: 29. avg 2025 ob 23:00
Znanost in tehnologija

Slo-Tech - Z razmahom velikih jezikovnih modelov se je pojavila nova vrsta groženj, saj lahko v dokumente ali druge vire, ki jih ti modeli dobijo kot vhodne podatke, preprosto podtaknemo besedila z zlemi nameni. Ta jezikovne modele pretentajo, da bodisi ne delujejo tako, kot pričakuje uporabnik, ali pa delujejo drugače od želja in omejitev avtorjev. Raziskovalci iz podjetja za računalniško varnost Palo Alto Networks so pokazali, da za zlom okov zadostujejo že dovolj dolgi in napol razumljivi stavki.

Če poziv (prompt) oblikujemo tako, da je čim daljši in po možnosti napisan v polomljenem jeziku s slabo slovnico, lahko jezikovne modele prevaramo in se prebijemo mimo varovalk. Te vsebujejo vsi javno dostopni modeli velikih podjetij, ki si ne morejo privoščiti, da bi modeli ustvarjali sovražni govor, nezakonito pornografijo ali navodila za izdelavo razstreliv. Zanašajo se na odpornost varovalk, ki pa ni absolutna.

Raziskovalci so analizirali dejstvo, da trening ne prepreči ustvarjanja škodljivih odzivov, le zelo močno zmanjša verjetnost, da se to zgodi (refusal-affirmation logit gap). Pokazali so, da je to dejstvo moč izrabiti. Razlog se skriva v dejstvu, da ti modeli videzu navkljub ne znajo razmišljati in razumeti, zato tudi ne razumejo koncepta škodljivosti, čeprav lahko nekatere vsebine označijo kot take. Modeli zgolj iščejo nadaljevanje besedila, ki je najbolj verjetno. Škodljivih vsebin ne ustvarjajo, ker se med urjenjem naučijo, da takšno besedilo prinaša zelo malo točk. To pa se da prelisičiti, če nakopičimo stavke brez ločil in reda (run-on sentences). Ločila so tista ključna, ki ponovno vzpostavijo filtre in negativno ocenijo škodljive odzive. Če ločil ni, se navodila zgolj kopičijo.

Direktor raziskav umetne inteligence pri podjetju Billy Hewlett je dejal, da je možno verjetnost za škodljive odzive zmanjšati, nikoli pa ne bo nič. Praktična rešitev je zunanje ali ločeno preverjanje odziva modelov, ne pa zanašanje na benevolentnost modelov.

Kdo bi si mislil, da je rešitev za umetno inteligenco tako zelo običajna: zunanji nadzor in varovalke.

3 komentarji

garamond :: 29. avg 2025, 23:13

Poimenovanje dolgosti in s tem kratkosti kebrov relativno na njihov abdominalni del določa frekvenca uporabljane terminologije za vse termine v relevantnih in nerelevantih virih, ki pa temelji na nenatančno specificiranem in raznolikem vseživljenskem izkustvu subjektov, ki dotične termine uporabljajo.

Uporabo teh terminov lahko formaliziraš v obliki dodatkov k glavni vsebini kar na podlagi lastnih nevronskih struktur, ker vidimo, da je celotni terminološki sistem tako ali tako definiran subjektivno. Z jasno komunikacijo se izogneš informacijskem šumu, ki seveda izvira iz tvojega lastnega kaotično (vendar ne v smislu teorije kaosa) razumljenega sistema terminologije dolžin kebrov.

Opomba: Uporabljam samo en termin, kajti z določitvijo recimo dolgosti to implicitno pomeni neširokost. Podobno za kvadratastost.

A parody of extremism is impossible to differentiate from sincere extremism.

Mr.G. :: 30. avg 2025, 07:04

Laho pa tudi daš stavek oblikovati človeku iz skupne države, ki je v Sloveniji 5 let in jo ni zaščite,ki jo nebi obšel. Simpl.

Genetic :: 30. avg 2025, 11:59

To pa se da prelisičiti, če nakopičimo stavke brez ločil in reda (run-on sentences)

James Joyce attack.

Vredno ogleda ...

	Tema	Sporočila	Ogledi	Zadnje sporočilo
	Tema	Sporočila	Ogledi	Zadnje sporočilo
»	Osmina znanstvenih člankov ima prstne odtise umetne inteligence McHusch Oddelek: Novice / Znanost in tehnologija	17	4165 (2704)	Ales 10. jul 2025 14:47:35
»	Večina ne uporablja umetne inteligence (strani: 1 2 3 4 ) McHusch Oddelek: Novice / Znanost in tehnologija	176	29440 (22430)	Mr.B 6. jun 2024 17:01:02
»	Googlovo nadgrajeno iskanje ima sila neroden štart Aggressor Oddelek: Novice / Ostala programska oprema	30	6560 (4234)	SambaShare 31. maj 2024 12:32:05
»	Evropski parlament se je načeloma dogovoril o vsebini zakona o umetni inteligenci McHusch Oddelek: Novice / Tožbe	36	9681 (7165)	tomlin 6. maj 2023 21:51:09
»	Človeški jezik (strani: 1 2 ) kuall Oddelek: Znanost in tehnologija	73	23439 (19754)	kuall 25. apr 2017 21:26:51

Tema

Sporočila

Ogledi

Zadnje sporočilo

Tema

Sporočila

Ogledi

Zadnje sporočilo

Osmina znanstvenih člankov ima prstne odtise umetne inteligence

McHusch

Oddelek: Novice / Znanost in tehnologija

4165 (2704)

Ales 10. jul 2025 14:47:35

Večina ne uporablja umetne inteligence (strani: 1 2 3 4 )

McHusch

Oddelek: Novice / Znanost in tehnologija

176

29440 (22430)

Mr.B 6. jun 2024 17:01:02

Googlovo nadgrajeno iskanje ima sila neroden štart

Aggressor

Oddelek: Novice / Ostala programska oprema

6560 (4234)

SambaShare 31. maj 2024 12:32:05

Evropski parlament se je načeloma dogovoril o vsebini zakona o umetni inteligenci

McHusch

Oddelek: Novice / Tožbe

9681 (7165)

tomlin 6. maj 2023 21:51:09

Človeški jezik (strani: 1 2 )

kuall

Oddelek: Znanost in tehnologija

23439 (19754)

kuall 25. apr 2017 21:26:51

Zadnje novice

Zadnji članki

Išči:

Novice » Znanost in tehnologija »
Stavek, ki jim vsem vlada

Stavek, ki jim vsem vlada