» »

Anthropic ima tako dober LLM, da reši naloge na razgovoru za delo v Anthropicu

Anthropic ima tako dober LLM, da reši naloge na razgovoru za delo v Anthropicu

Slo-Tech - Anthropicov Tristan Hume je opisal zanimiv metaproblem, ki ga imajo v podjetju pri preizkušanju novih kandidatov za zaposlitev. Zadnji dve leti uporabljajo test, ki ga lahko kandidati odnesejo domov in rešijo, kar je v dobu velikih jezikovnih modelov lahko problem. Z vsako novo izdajo Clauda morajo test prenoviti, saj ga Claude reši bolje kot velika večina kandidatov.

Od leta 2024 je test reševalo dobrih tisoč kandidatov, izmed katerih so jih več deset tudi zaposlili. To so inženirji, ki so razvijali vse nove verzije od Claude 3, pri čemer so se odlično odrezali. Vsak novi Claude je prejšnje teste v enakem časovnem oknu rešil bolje od velike večine ljudi. Claude 4 je bil boljši od večine, Claude 4.5 pa od vseh. Če so imeli ljudje na voljo neomejeni čas, so tisti najboljši še premagali Claude 4.5.

Konkretni testi so sprva trajali štiri ure, kasneje dve. Kandidati so reševali realistični problem, na voljo pa so imeli vsa orodja, tudi umetno inteligenco. To je smiselno, ker ta obsežnejših in kompleksnejših nalog še ne zna v celoti rešiti in jo tudi pri delu uporabljajo kot pomoč. A za 4-urni test več kot zadostuje.

Tako mora Anthropic z vsako novo generacijo Clauda prilagoditi tudi teste.

3 komentarji

BBB ::

Dovolj usposobljen človek brez omejitve časa še lahko nadmodri Claude 4.5 pri reševanju testnih nalog. Ugibam, da pripravljajo razpise za razvijalce LLM/? modelov in agentov ter da so testne naloge po zahtevnosti vsaj enakovredne nivoju zahtevnosti dejanskega razvoja (obstaja sicer možnost, da je zahtevnost testov nižja oz. da preverjajo le specifične sposobnosti, prilagojene selekciji kandidatov).
Ali Cluade 4.5 z ustreznimi agenti lahko uspešno rekurzivno razvija modele in agente, da ti v nadaljnjih iteracijah samostojno proizvedejo, po ljudskih kriterijih, še boljše rezultate? Bomo v kratkem na stopnji, ko bodo ljudje potrebni le še za nadzor avtomatiziranega samorazvoja AI (kot trije zaposleni v izmišljeni avtomatizirani tovarni elektromotorjev), predvsem da ne spravi energetskega sistema na kolena? Agenti bodo verjetno potrebovali še kakšne sveže vhodne podatke in bodo verjetno koordinirali raziskave na raznih področjih - včasih je potrebno za pridobitev podatkov iz sveta narediti tudi kakšen eksperiment ali neumnost, da je iz pridobljenih podatkov moč povzeti morebitne nove uporabne ali neuporabne zakonitosti.

To bi sicer lahko vprašal LLM, pa sem se vseeno odločil, da kot antropofil kdaj pa kdaj brez smotrne potrebe komuniciram tudi z ljudmi.
 Za uspešnem moškem stoji ženska, ki pravi, ali je moralo biti spet vse po tvoje.

Za uspešnem moškem stoji ženska, ki pravi, ali je moralo biti spet vse po tvoje.

Lanky2200 ::

Naloge na razgovoru so dejansko zelo slab predstavnik inženirskega dela. So samo reševanje ali odgovarjanje v naprej dobro definiranega problema z dokaj majhnim "scope"om. Ja pri teh pogojih je llm kr soliden.

Zgodovina sprememb…

  • spremenilo: Lanky2200 ()

Ales ::

Vsak marketing je dober marketnig, četudi glup. Še več, pogosto je glup marketing še najboljši...


Vredno ogleda ...

TemaSporočilaOglediZadnje sporočilo
TemaSporočilaOglediZadnje sporočilo
»

Ali umetna inteligenca zaposlenim res prihrani čas? (strani: 1 2 3 4 5 )

Oddelek: Novice / Znanost in tehnologija
20211113 (1789) PROTEINSKI
»

O tveganjih in stranskih učinkih se posvetujte s ChatGPT Healthom

Oddelek: Novice / Znanost in tehnologija
394397 (1975) ToniT
»

Najpopularnejše aplikacije na iPhonu so ChatGPT, Threads in Google

Oddelek: Novice / Apple iPhone/iPad/iPod
253107 (1665) endelin
»

Bing Copilot (strani: 1 2 )

Oddelek: Loža
858653 (6558) Miki N
»

Anthropic lansiral tretjo generacijo modela Claude

Oddelek: Novice / Ostala programska oprema
254834 (2671) sbawe64

Več podobnih tem