Slo-Tech - Anthropicov Tristan Hume je opisal zanimiv metaproblem, ki ga imajo v podjetju pri preizkušanju novih kandidatov za zaposlitev. Zadnji dve leti uporabljajo test, ki ga lahko kandidati odnesejo domov in rešijo, kar je v dobu velikih jezikovnih modelov lahko problem. Z vsako novo izdajo Clauda morajo test prenoviti, saj ga Claude reši bolje kot velika večina kandidatov.
Od leta 2024 je test reševalo dobrih tisoč kandidatov, izmed katerih so jih več deset tudi zaposlili. To so inženirji, ki so razvijali vse nove verzije od Claude 3, pri čemer so se odlično odrezali. Vsak novi Claude je prejšnje teste v enakem časovnem oknu rešil bolje od velike večine ljudi. Claude 4 je bil boljši od večine, Claude 4.5 pa od vseh. Če so imeli ljudje na voljo neomejeni čas, so tisti najboljši še premagali Claude 4.5.
Konkretni testi so sprva trajali štiri ure, kasneje dve. Kandidati so reševali realistični problem, na voljo pa so imeli vsa orodja, tudi umetno inteligenco. To je smiselno, ker ta obsežnejših in kompleksnejših nalog še ne zna v celoti rešiti in jo tudi pri delu uporabljajo kot pomoč. A za 4-urni test več kot zadostuje.
Tako mora Anthropic z vsako novo generacijo Clauda prilagoditi tudi teste.
Novice » Znanost in tehnologija » Anthropic ima tako dober LLM, da reši naloge na razgovoru za delo v Anthropicu
BBB ::
Dovolj usposobljen človek brez omejitve časa še lahko nadmodri Claude 4.5 pri reševanju testnih nalog. Ugibam, da pripravljajo razpise za razvijalce LLM/? modelov in agentov ter da so testne naloge po zahtevnosti vsaj enakovredne nivoju zahtevnosti dejanskega razvoja (obstaja sicer možnost, da je zahtevnost testov nižja oz. da preverjajo le specifične sposobnosti, prilagojene selekciji kandidatov).
Ali Cluade 4.5 z ustreznimi agenti lahko uspešno rekurzivno razvija modele in agente, da ti v nadaljnjih iteracijah samostojno proizvedejo, po ljudskih kriterijih, še boljše rezultate? Bomo v kratkem na stopnji, ko bodo ljudje potrebni le še za nadzor avtomatiziranega samorazvoja AI (kot trije zaposleni v izmišljeni avtomatizirani tovarni elektromotorjev), predvsem da ne spravi energetskega sistema na kolena? Agenti bodo verjetno potrebovali še kakšne sveže vhodne podatke in bodo verjetno koordinirali raziskave na raznih področjih - včasih je potrebno za pridobitev podatkov iz sveta narediti tudi kakšen eksperiment ali neumnost, da je iz pridobljenih podatkov moč povzeti morebitne nove uporabne ali neuporabne zakonitosti.
To bi sicer lahko vprašal LLM, pa sem se vseeno odločil, da kot antropofil kdaj pa kdaj brez smotrne potrebe komuniciram tudi z ljudmi.
Ali Cluade 4.5 z ustreznimi agenti lahko uspešno rekurzivno razvija modele in agente, da ti v nadaljnjih iteracijah samostojno proizvedejo, po ljudskih kriterijih, še boljše rezultate? Bomo v kratkem na stopnji, ko bodo ljudje potrebni le še za nadzor avtomatiziranega samorazvoja AI (kot trije zaposleni v izmišljeni avtomatizirani tovarni elektromotorjev), predvsem da ne spravi energetskega sistema na kolena? Agenti bodo verjetno potrebovali še kakšne sveže vhodne podatke in bodo verjetno koordinirali raziskave na raznih področjih - včasih je potrebno za pridobitev podatkov iz sveta narediti tudi kakšen eksperiment ali neumnost, da je iz pridobljenih podatkov moč povzeti morebitne nove uporabne ali neuporabne zakonitosti.
To bi sicer lahko vprašal LLM, pa sem se vseeno odločil, da kot antropofil kdaj pa kdaj brez smotrne potrebe komuniciram tudi z ljudmi.
Lanky2200 ::
Naloge na razgovoru so dejansko zelo slab predstavnik inženirskega dela. So samo reševanje ali odgovarjanje v naprej dobro definiranega problema z dokaj majhnim "scope"om. Ja pri teh pogojih je llm kr soliden.
Zgodovina sprememb…
- spremenilo: Lanky2200 ()
Ales ::
Vsak marketing je dober marketnig, četudi glup. Še več, pogosto je glup marketing še najboljši...
Vredno ogleda ...
| Tema | Ogledi | Zadnje sporočilo | |
|---|---|---|---|
| Tema | Ogledi | Zadnje sporočilo | |
| » | Ali umetna inteligenca zaposlenim res prihrani čas? (strani: 1 2 3 4 5 )Oddelek: Novice / Znanost in tehnologija | 11113 (1789) | PROTEINSKI |
| » | O tveganjih in stranskih učinkih se posvetujte s ChatGPT HealthomOddelek: Novice / Znanost in tehnologija | 4397 (1975) | ToniT |
| » | Najpopularnejše aplikacije na iPhonu so ChatGPT, Threads in GoogleOddelek: Novice / Apple iPhone/iPad/iPod | 3107 (1665) | endelin |
| » | Bing Copilot (strani: 1 2 )Oddelek: Loža | 8653 (6558) | Miki N |
| » | Anthropic lansiral tretjo generacijo modela ClaudeOddelek: Novice / Ostala programska oprema | 4834 (2671) | sbawe64 |
