Anthropic ima tako dober LLM, da reši naloge na razgovoru za delo v Anthropicu

Matej Huš :: 23. jan 2026 ob 21:41
Znanost in tehnologija

Slo-Tech - Anthropicov Tristan Hume je opisal zanimiv metaproblem, ki ga imajo v podjetju pri preizkušanju novih kandidatov za zaposlitev. Zadnji dve leti uporabljajo test, ki ga lahko kandidati odnesejo domov in rešijo, kar je v dobu velikih jezikovnih modelov lahko problem. Z vsako novo izdajo Clauda morajo test prenoviti, saj ga Claude reši bolje kot velika večina kandidatov.

Od leta 2024 je test reševalo dobrih tisoč kandidatov, izmed katerih so jih več deset tudi zaposlili. To so inženirji, ki so razvijali vse nove verzije od Claude 3, pri čemer so se odlično odrezali. Vsak novi Claude je prejšnje teste v enakem časovnem oknu rešil bolje od velike večine ljudi. Claude 4 je bil boljši od večine, Claude 4.5 pa od vseh. Če so imeli ljudje na voljo neomejeni čas, so tisti najboljši še premagali Claude 4.5.

Konkretni testi so sprva trajali štiri ure, kasneje dve. Kandidati so reševali realistični problem, na voljo pa so imeli vsa orodja, tudi umetno inteligenco. To je smiselno, ker ta obsežnejših in kompleksnejših nalog še ne zna v celoti rešiti in jo tudi pri delu uporabljajo kot pomoč. A za 4-urni test več kot zadostuje.

Tako mora Anthropic z vsako novo generacijo Clauda prilagoditi tudi teste.

3 komentarji

BBB :: 24. jan 2026, 05:16

Dovolj usposobljen človek brez omejitve časa še lahko nadmodri Claude 4.5 pri reševanju testnih nalog. Ugibam, da pripravljajo razpise za razvijalce LLM/? modelov in agentov ter da so testne naloge po zahtevnosti vsaj enakovredne nivoju zahtevnosti dejanskega razvoja (obstaja sicer možnost, da je zahtevnost testov nižja oz. da preverjajo le specifične sposobnosti, prilagojene selekciji kandidatov).
Ali Cluade 4.5 z ustreznimi agenti lahko uspešno rekurzivno razvija modele in agente, da ti v nadaljnjih iteracijah samostojno proizvedejo, po ljudskih kriterijih, še boljše rezultate? Bomo v kratkem na stopnji, ko bodo ljudje potrebni le še za nadzor avtomatiziranega samorazvoja AI (kot trije zaposleni v izmišljeni avtomatizirani tovarni elektromotorjev), predvsem da ne spravi energetskega sistema na kolena? Agenti bodo verjetno potrebovali še kakšne sveže vhodne podatke in bodo verjetno koordinirali raziskave na raznih področjih - včasih je potrebno za pridobitev podatkov iz sveta narediti tudi kakšen eksperiment ali neumnost, da je iz pridobljenih podatkov moč povzeti morebitne nove uporabne ali neuporabne zakonitosti.

To bi sicer lahko vprašal LLM, pa sem se vseeno odločil, da kot antropofil kdaj pa kdaj brez smotrne potrebe komuniciram tudi z ljudmi.

Za uspešnem moškem stoji ženska, ki pravi, ali je moralo biti spet vse po tvoje.

Lanky2200 :: 24. jan 2026, 08:18

Naloge na razgovoru so dejansko zelo slab predstavnik inženirskega dela. So samo reševanje ali odgovarjanje v naprej dobro definiranega problema z dokaj majhnim "scope"om. Ja pri teh pogojih je llm kr soliden.

Zgodovina sprememb…

spremenilo: Lanky2200 (24. jan 2026 ob 08:19)

Ales :: 24. jan 2026, 17:27

Vsak marketing je dober marketnig, četudi glup. Še več, pogosto je glup marketing še najboljši...

Vredno ogleda ...

	Tema	Sporočila	Ogledi	Zadnje sporočilo
	Tema	Sporočila	Ogledi	Zadnje sporočilo
»	Ali umetna inteligenca zaposlenim res prihrani čas? (strani: 1 2 3 4 5 ) McHusch Oddelek: Novice / Znanost in tehnologija	202	21483 (12159)	PROTEINSKI 27. jan 2026 18:36:16
»	O tveganjih in stranskih učinkih se posvetujte s ChatGPT Healthom McHusch Oddelek: Novice / Znanost in tehnologija	39	6263 (3841)	ToniT 11. jan 2026 09:34:34
»	Najpopularnejše aplikacije na iPhonu so ChatGPT, Threads in Google McHusch Oddelek: Novice / Apple iPhone/iPad/iPod	25	3969 (2527)	endelin 12. dec 2025 19:51:02
»	Bing Copilot (strani: 1 2 ) dronyx Oddelek: Loža	85	11401 (9306)	Miki N 28. maj 2024 13:17:03
»	Anthropic lansiral tretjo generacijo modela Claude Aggressor Oddelek: Novice / Ostala programska oprema	25	5473 (3310)	sbawe64 28. mar 2024 19:34:03

Tema

Sporočila

Ogledi

Zadnje sporočilo

Tema

Sporočila

Ogledi

Zadnje sporočilo