Stavek, ki jim vsem vlada
Slo-Tech - Z razmahom velikih jezikovnih modelov se je pojavila nova vrsta groženj, saj lahko v dokumente ali druge vire, ki jih ti modeli dobijo kot vhodne podatke, preprosto podtaknemo besedila z zlemi nameni. Ta jezikovne modele pretentajo, da bodisi ne delujejo tako, kot pričakuje uporabnik, ali pa delujejo drugače od želja in omejitev avtorjev. Raziskovalci iz podjetja za računalniško varnost Palo Alto Networks so pokazali, da za zlom okov zadostujejo že dovolj dolgi in napol razumljivi stavki.
Če poziv (prompt) oblikujemo tako, da je čim daljši in po možnosti napisan v polomljenem jeziku s slabo slovnico, lahko jezikovne modele prevaramo in se prebijemo mimo varovalk. Te vsebujejo vsi javno dostopni modeli velikih podjetij, ki si ne morejo privoščiti, da bi modeli ustvarjali sovražni govor, nezakonito pornografijo ali navodila za izdelavo razstreliv. Zanašajo se na odpornost varovalk, ki pa ni absolutna.
Raziskovalci so analizirali dejstvo, da trening ne prepreči ustvarjanja...
Če poziv (prompt) oblikujemo tako, da je čim daljši in po možnosti napisan v polomljenem jeziku s slabo slovnico, lahko jezikovne modele prevaramo in se prebijemo mimo varovalk. Te vsebujejo vsi javno dostopni modeli velikih podjetij, ki si ne morejo privoščiti, da bi modeli ustvarjali sovražni govor, nezakonito pornografijo ali navodila za izdelavo razstreliv. Zanašajo se na odpornost varovalk, ki pa ni absolutna.
Raziskovalci so analizirali dejstvo, da trening ne prepreči ustvarjanja...