»

Kitajska družba DeepSeek razburkala področje umetne inteligence s poceni jezikovnim modelom R1

Slo-Tech - V približno tednu dni je dotlej malo znano kitajsko podjetje DeepSeek z lansiranjem naprednega velikega jezikovnega modela R1 področje generativnih algoritmov na videz postavilo na glavo: za bistveno nižjo ceno so namreč napravili izdelek, ki se lahko kosa z OpenAI o1.

Prejšnji ponedeljek - ravno na dan Trumpove druge prisege - je malo znano kitajsko zagonsko podjetje DeepSeek predstavilo družino jezikovnih modelov DeepSeek R1. Natančneje, gre za modele z določeno zmožnostjo sklepanja (simulated reasoning - SR), ki v fazi izvajanja postopek odgovarjanja strukturirajo v nekakšno zaporedje argumentiranega iskanja delnih odgovorov, zaradi česar so uporabni predvsem na področju znanosti, matematike in tehnologije. Prvi algoritem takšne sorte so pri OpenAI predstavili lanskega septembra v obliki o1 in torej veljajo za čelo napredka.

Posebnost R1 pa ni zgolj to, da naj bi kitajski startup v zgolj nekaj mesecih dohitel OpenAI, saj naj bi bil R1 po izkazu sila blizu o1, temveč še bolj v...

143 komentarjev

Microsoft razvija veliki jezkovni model MAI-1

Slo-Tech - Vendarle smo slišali pričakovane vesti iz Redmonda, da Microsoft vendarle razvija lasten veliki jezikovni model. Za zdaj poimenovan MAI-1 bo imel pol bilijona parametrov, s čimer bo konkuriral Googlovemu Geminiju in OpenAI-jevemu ChatGPT-ju četrte generacije. Predstaviti ga utegnejo že ta mesec na konferenci Build. Projekt vodi Mustafa Suleyman iz podjetja Inflection AI, ki ga je Microsoft prevzel marca letos.

Microsoftov poslovni odnos do umetne inteligence je zanimiv. Na pomembnost področja je Bill Gates opozoril že pred leti, podjetje pa je nato investiralo več kot deset milijard dolarjev v OpenAI. Odločitev se jim je izplačala, saj je njihov model GPT-4 med najbolj priljubljenimi na svetu, Microsoft pa ga je smel integrirati v svoj Copilot, Bing in druge izdelke. A vendarle bi bilo nenavadno, če bi Microsoft uporabljal zgolj tuje orodje, sam pa ne bi poizkušal ničesar razviti, razen če je dolgoročni načrt prevzeti OpenAI, kar pa zaradi kompleksne lastniške strukture ni prav...

7 komentarjev

Anthropic lansiral tretjo generacijo modela Claude

Anthropic - Pri Anthropicu so predstavili družino velikih jezikovnih modelov Claude 3, s katero neposredno žugajo Geminiju in GPT-4.

Medtem ko se pod soji luči vrši dvoboj med navezo OpenAI-Microsoft in Googlom, ter Meta v bližini nekaj motovili z lamami, si skuša na področju velikih jezikovnih modelov svoj kos pogače odrezati tudi kopica manjših izzivalcev. Med bolj prepoznavnimi je družba Anthropic, ki so jo pred tremi leti ustanovili odpadniki iz OpenAI, ki so Samu Altmanu po povezavi z Microsoftom očitali prehitro komercializacijo. Sami razvijajo modele družine Claude, katere posebnost je vdelava spiska dodatnih zavor in smernic, po katerih naj bi se strojna pamet ravnala, čemur pravijo "constitutional AI". Zanimiva je tudi njihova dolgoročna strategija, po kateri želijo prispeti do algoritmov, ki bi se znali - vsaj na določenem ožjem področju - učiti sami in bi bili lahko osnova močnim pametnim pomočnikom. To se pravi, podobno kot pri OpenAI, le da še kanec bolj ambiciozno.

Medtem ko...

25 komentarjev

Google lansiral odprt jezikovni model Gemma

vir: Google
Google - Pretekli teden so pri Googlu pokazali Gemmo, svoj prvi veliki jezikovni model z javnimi utežnimi parametri, ki je očitno namenjen predvsem spopadu z Metino družino odprtih modelov LLaMA.

Na področju velikih jezikovnih modelov poteka vrsta ideoloških bitk; poleg tiste med "doomerji", ki menijo, da lahko LLMji pripeljejo do nevarne splošne umetne inteligence, in njihovimi nasprotniki, pa spopada med podjetji in strokovnjaki za etiko, še najmanj tisti med pristaši zaprtih in odprtih modelov. Med prve spadajo trenutno najbolj razvpiti velikani, kot sta OpenAI in Google, ki v svoje programje ne dovolijo kdovekoliko vpogleda. Med drugimi so razvijalci LLMjev, ki o svojih stvaritvah objavijo več podatkov, v prvi vrsti strukturo nevronske mreže in pa "uteži" (weights), najpomembnejšo podmnožico parametrov nekega modela, ki določa, kaj se je mreža naučila iz podatkov. Malce ironično je tu glavni igralec Meta, po zaslugi svojega laboratorija FAIR, kjer razvoj vodi Yann LeCun, in modelov...

12 komentarjev

Microsoft uvaja lastne strežniške čipe

Microsoft - Pri Microsoftu so na konferenci Ignite 23 v Seattlu pokazali svoja prva čipa, v celoti oblikovana znotraj podjetja, ki sta namenjena njihovemu oblaku Azure in ju zaenkrat ne nameravajo tržiti.

S skokovitim razvojem in širjenjem storitev v oblaku so strežniške farme, ki predstavljajo njihovo tehnično hrbtenico, postale ogromni, kompleksni sistemi. Največji ponudniki zato že nekaj časa z namero optimizacij uvajajo vse več lastnih strojnih rešitev, kot so denimo Amazonovi procesorji Graviton. Z eksplozijo generativnih algoritmov in velikih jezikovnih modelov se je potreba po specializirani strojni opremi še povečala, saj v Nvidii ne uspejo dobaviti vseh naprav, ki jih za pospeševanje strojnega učenja potrebujejo njihove stranke - OpenAI naj bi zgolj za lansiranje ChatGPTja potreboval 30.000 čipov A100. Zato zeleni pospeševalci strojne pameti na Ebayu dosegajo astronomske zneske, podjetje pa nenehno beleži rast prihodkov. V Redmondu so zato pljunili v roke in oblikovali dva čipa za...

4 komentarji

OpenAI naznanil GPT-4

openai.com - Kot smo že nekaj časa pričakovali, so v OpenAI naposled najavili veliki jezikovni model GPT-4. Za rahlo presenečenje pa so obenem poskrbeli v Microsoftu, s priznanjem, da novi Bing Chat v bistvu na njem sloni že od začetka testiranja.

Skoraj 3 leta nas že ločijo od prvih vnašanj ukazov generativnemu jezikovnemu algoritmu, oziroma velikemu jezikovnemu modelu (LLM) GPT-3. Umotvor laboratorija OpenAI je postal eden od sinonimov za eksplozijo generativne strojne inteligence, ki je lani dosegla nove nivoje z generatorji slik in jesenskim lansiranjem pogovornega bota ChatGPT, letos pa z nebrzdano naglico poganja novo tekmo med tehnološkimi velikani. Posledica norije je bilo seveda mrzlično čakanje na novo različico GPTja, ki so ga sicer inženirji medtem iterativno nadgrajevali, tako da je bila lani v bistvu aktualna različica 3.5. Tudi šef OpenAIja, Sam Altman, je večkrat opozoril, da so pričakovanja bržkone prevelika in da bo GPT-4 nova evolucijska stopnja ter še daleč od kakšne...

27 komentarjev