Arhiv novic @ Slo-Tech

Novice » Povezane novice

DeepSeek piše manj varno kodo za naročnike v kitajski nemilosti

Matej Huš :: 19. sep 2025 ob 00:39
Znanost in tehnologija

Slo-Tech - Raziskovalci iz podjetja za računalniško varnost CrowdStrike so želeli preveriti, ali imajo veliki jezikovni modeli vgrajene kakšne predsodke svojih avtorjev, ki bi se izrazili na primer pri pisanju kode. Ugotovili so, da vsaj za kitajski DeepSeek - drugih niso preverjali - to še kako drži. Koda, ki jo piše za kitajski vladi neljube naročnike, ima več varnostnih lukenj. Zdi se neverjetno, da bi šlo za naključje.

DeepSeeku so dali več zelo podobnih navodil, vsa v angleščini, naj napiše določeno programsko kodo. Med drugim je šlo za kodo, ki bi se lahko uporabljala za nadzor industrijskih procesov (SCADA). Da umetna inteligenca piše dobro, a ne popolne kode, vemo že dolgo. CrowdStrike je ocenil, da so bile v 23 odstotkih kode resne napake oziroma ranljivosti. To je povprečje, ki pa se zelo spremeni, če DeepSeeku rečemo, da smo iz Tibeta ali kaj podobnega.

Ko so v navodila dodali pojasnilo, da bo kodo poganjalo prepovedano gibanje Falun Gong ali pa da se bo uporabljala v Islamski...

Preberi več

13 komentarjev

Google: ustvarjanje besedila z LLM letos že 33-krat manj potratno kot lani

Matej Huš :: 23. avg 2025 ob 19:50
Znanost in tehnologija

Slo-Tech - Google je izdal krajše poročilo o okoljskih vplivih umetne inteligence, v katerem so ocenili tudi porabo energije za ustvarjanje besedila z velikimi jezikovnimi modeli. Čeprav celokupna poraba električne energije raste, je to posledica večje razširjenosti modelov, medtem ko posamezne poizvedbe porabijo čedalje manj energije. V letu dni se je potratnost poizvedb znižala za 33-krat, so ugotovili.

Energija se ne troši le za delovanje čipov, na katerih teče veliki jezikovni model, temveč tudi za podporni infrastrukturi. To so tako drugi deli strojne opreme, kot pomnilnik, shranjevanje podatkov in prenos podatkov, kot tudi hlajenje, transformatorji in ostalo. Google ocenjuje, da ena poizvedba v Geminiju potroši 0,24 Wh električne energije, kar ustreza nekaj sekundam dela na prenosnem računalniku. Temu pripada ogljični odtis 0,03 grama CO2 in 0,26 mililitra porabe vode.

Razčlemba po podatkovnem centru pa pokaže, da 58 odstotkov energije porabijo delujoči čipi za AI, 24 odstotkov...

Preberi več

10 komentarjev

DeepSeek R2 zamuja zaradi slabih Huaweijevih čipov

Matej Huš :: 15. avg 2025 ob 18:57
Grafične kartice

Slo-Tech - Konec minulega leta je kitajski DeepSeek izdal svoj veliki jezikovni model R1, ki so ga na Zahodu opazili januarja in je zaradi domnevno bistveno cenejšega treninga za krajši čas povzročil pravo paniko. Njegov naslednik R2 bi bil moral iziti maja letos, a ga še vedno ni. Po podatkih virov blizu DeepSeeka razlog za zamudo tiči v Huaweijevih čipih, ki so jih skušali uporabiti za trening, a so imeli z njimi nemalo težav.

Po neuradnih podatkih so se čipi Ascend izkazali za neprimerne in nezanesljive. Zaradi tehničnih težav so se na koncu odločili, da bodo uporabili Nvidiine čipe, saj so bili Huaweijevi nestabilni, prepočasni in s slabšo programsko podporo. Huawei je DeepSeeku celo poslal strokovnjake, da bi jim pomagali usposobiti čipe za razvoj modela, a na koncu je projekt padel v vodo. Za trening bodo nujni Nvdiini čipi, se pa DeepSeek trudi, da bi bilo model na Huaweijevih čipih moč vsaj poganjati.

10 komentarjev

OpenAI o1-pro najdražji model umetne inteligence doslej

Matej Huš :: 20. mar 2025 ob 21:01
Znanost in tehnologija

Slo-Tech - OpenAI je predstavil novi model o1-pro, ki ga lahko brez dvoma označimo kot najdražjega doslej. Za "konsistentno boljše odzive" od o1 potrebuje precej več računske moči, ki jo bo OpenAI tudi pošteno zaračunal. Na voljo bo le tistim uporabnikom plačljivih verzij, ki so za dostop prek OpenAI-jevih API-jev porabili vsaj pet dolarjev. Za o1-pro bodo morali sicer prej več, saj bo milijon žetonov (kar ustreza okoli 750.000 besedam) stal 150 dolarjev za vnos, toliko odziva pa bo stalo še 600 dolarjev. To je dvakrat več od GPT-4.5 in desetkrat več od o1. Najcenejši model gpt-4o-mini pa je kar tisočkrat cenejši.

A OpenAI verjame, da bo tudi za tako zasoljeno ceno našel voljne naročnike, ki bodo cenili izboljšane odzive. Kot pravijo, o1-pri misli globlje in bolje, s tem pa rešuje težje probleme. Prvi testi verzije, ki je bila dostopna prek spleta, niso bili zelo pozitivni. Imel je kar nekaj težav s preprostimi nalogami, kot je sudoku, pretentali pa so ga tudi optične prevare. Na...

Preberi več

2 komentarja

Nvdiin direktor: DeepSeek še vedno potrebuje veliko računske moči

Matej Huš :: 22. feb 2025 ob 13:58
Grafične kartice

Slo-Tech - Prvikrat po izidu modelov DeepSeek V3 in R1, ki sta pošteno zatresla borze in spremenila pričakovanja, se je o tem oglasil Nvidiin direktor Jensen Huang. Poudaril je, da vlagatelji in s tem trg niso razumeli, kako poteka izdelava, učenje in izboljševanje modelov umetne inteligence, zato so napačno predvidevali, da je DeepSeek resnično toliko cenejši.

Poudaril je, da je R1 dober model. Njegov prihod je za trg umetne inteligence dober in bo pospešil uvedbo umetne inteligence v različne sektorje. Po njegovem mnenju - kot direktor Nvidii bi težko javno govoril kaj drugega - to pomeni, da se bo povpraševanje po zmogljivih čipih povečalo, ne pa zmanjšalo. To ni zelo iz trte izvito, saj zgodovina uči, da pocenitev in poenostavitev tehnologije poveča njeno rabo, s tem pa tudi kumulativna vlaganja.

Ob tem je pojasnil, da so bile glavne DeepSeekove izboljšave v postopku začetnega urjenja (pre-training) modela. To resnično lahko poteka z manj računske moči, kar je dobrodošlo. Javnost pa je...

Preberi več

9 komentarjev

Južna Koreja umaknila aplikacijo DeepSeek

Matej Huš :: 17. feb 2025 ob 17:57
Zasebnost

Slo-Tech - V Južni Koreji je informacijski pooblaščenec odločil, da morajo zaustaviti prenašanje aplikacije za kitajsko umetno inteligenco DeepSeek. Omejitev velja le za nove prenose, torej so aplikacijo odstranili s spletnih tržnic, obstoječi uporabniki pa lahko nadaljujejo uporabo. Proizvajalec je priznal, da morda niso spoštovali vseh pravil, ki jih zapoveduje južnokorejska zakonodaja o varovanju zasebnosti.

V Južni Koreji je zasebnost izjemno strogo varovana. DeepSeek ne opredeljuje ustrezno podrobnosti o posredovanju podatkov tretjim strankam in zbiranju osebnih informacij. Dokler teh podrobnosti ne razčistijo, bo aplikacija v državi ostala zamrznjena. Kitajci so v Južno Korejo že poslali predstavnike podjetja, ki bodo skušali zgladiti spor.

Na Zahodu DeepSeek ostaja dostopen, dasiravno je skepse veliko, varnostne službe pa so tudi zaskrbljene. DeepSeek je na primer prepovedan na službenih napravah državnih uradnikov v Avstraliji, Južni Koreji in Tajvanu. V Italiji je DeepSeek začasno...

Preberi več

12 komentarjev

Kaj nam bodo dragi modeli, če imamo poceni?

Matej Huš :: 6. feb 2025 ob 17:08
Znanost in tehnologija

Slo-Tech - DeepSeek je razburkal svet z najavo, da so svoj model DeepSeek R1 izurili za vsega šest milijonov dolarjev, a gre še ceneje. Raziskovalci s Stanforda in washingtonske univerze so pripravili model s1, ki je primerljiv z OpenAI o1 in DeepSeek R1, le da so za njegovo pripravo porabili 50 dolarjev, kodo in vhodne podatke trening pa priobčili javnosti.

Ocena 50 dolarjev ni povsem poštena, saj so porabili toliko denarja za najem računske moči za trening. V to torej niso všteti niti stroški nabave strojne opreme niti stroški dela ljudi. Druga pomembna podrobnost je način učenja, saj je s1 uporablja distilacijo, torej se je učil na modelu Gemini 2.0 Flash Thinking Experimental. Na podoben način so na Berkeleyju že januarja pripravili model za 450 dolarjev.

Kodo za s1 in vse spremljajoče informacije so objavili na Githubu. To pomeni, da ga lahko uporabi ali nadalje razvija vsakdo. Ključno vprašanje pa je, kaj to pomeni za razvoj novih modelov od začetka. Razvoj s1 je bil tako poceni, kar...

Preberi več

21 komentarjev

DeepSeek je na internetu pozabil javno dostopno bazo svojih podatkov

Matej Huš :: 31. jan 2025 ob 06:45
Zasebnost

Slo-Tech - DeepSeek je morda res zatresel svet, a pri tem so bili površni in nepazljivi. Na internetu se je znašla baza podatkov, v kateri so tudi vsebine pogovorov, ki so jih imeli z DeepSeekom različni uporabniki. Gre za bazo Clickhouse, ki ima več milijonov vrstic dnevnika pogovorov. Poleg tega je v njej moč najti tudi ključe, podrobnosti delovanja in druge občutljive informacije.

Ranljivost je že zakrpana, saj so jo v podjetju Wiz Research po odkritju takoj odgovorno prijavili DeepSeeku, ki je hitro ukrepal. Baza je bila dostopna na naslovih oauth2callback.deepseek.com:9000 in dev.deepseek.com:9000, uporabljala pa ni niti najosnovnejših zaščit. Brez kakršnekoli avtentikacije je bilo možno izvajati operacije nad bazo. Odkrili so jo med rutinskim pregledovanjem, katere domene ima DeepSeek javno dostopne, in to ne le prek vrat 80 ali 443. Nekaj domen so tako našli, ki so odgovarjale na vratih 8123 in 9000.

Ami Luttwak iz Wiz Research dodaja, da se napake seveda dogajajo, a je šlo v tem...

Preberi več

43 komentarjev

Po DeepSeeku tudi Alibaba

Matej Huš :: 29. jan 2025 ob 23:16
Znanost in tehnologija

Slo-Tech - Danes je svoj veliki model predstavila tudi Alibaba. Qwen2.5-Max, ki je bil natreniran na 20.000 milijardah drobcev informacij (token), je po meritvah ustvarjalcev celo malo boljši od Deepseeka V3, GPT-4o, Llame-3.1 in primerljiv s Claude-3.5-Sonnetom.

Novi model lahko preizkusimo kot klepetalnik, naročniki pa imajo tudi dostop do API prek Alibaba Cloud. Prve verzije Qwen2.5 smo sicer videli že jeseni. Qwen2.5-Max lahko sprejme do 100.000 vhodnih znakov, njegovi odgovori pa so tudi v slovenščini. Qwen2.5 zna odgovarjati na vprašanja, brskati po spletu, ustvarjati slike in videoposnetke.

Alibaba model označuje kot vizualnega agenta, s čimer namiguje na multimodalnost. Osnovan je na verziji Qwen2-VL iz septembra 2024, na voljo pa je v verzijah s 3, 7 in 72 milijardami parametrov. Na voljo je tudi na Githubu.

35 komentarjev

Kitajska družba DeepSeek razburkala področje umetne inteligence s poceni jezikovnim modelom R1

Jurij Kristan :: 27. jan 2025 ob 21:35
Ostala programska oprema

Slo-Tech - V približno tednu dni je dotlej malo znano kitajsko podjetje DeepSeek z lansiranjem naprednega velikega jezikovnega modela R1 področje generativnih algoritmov na videz postavilo na glavo: za bistveno nižjo ceno so namreč napravili izdelek, ki se lahko kosa z OpenAI o1.

Prejšnji ponedeljek - ravno na dan Trumpove druge prisege - je malo znano kitajsko zagonsko podjetje DeepSeek predstavilo družino jezikovnih modelov DeepSeek R1. Natančneje, gre za modele z določeno zmožnostjo sklepanja (simulated reasoning - SR), ki v fazi izvajanja postopek odgovarjanja strukturirajo v nekakšno zaporedje argumentiranega iskanja delnih odgovorov, zaradi česar so uporabni predvsem na področju znanosti, matematike in tehnologije. Prvi algoritem takšne sorte so pri OpenAI predstavili lanskega septembra v obliki o1 in torej veljajo za čelo napredka.

Posebnost R1 pa ni zgolj to, da naj bi kitajski startup v zgolj nekaj mesecih dohitel OpenAI, saj naj bi bil R1 po izkazu sila blizu o1, temveč še bolj v...

Preberi več

169 komentarjev

Microsoft razvija veliki jezkovni model MAI-1

Matej Huš :: 7. maj 2024 ob 07:06
Znanost in tehnologija

Slo-Tech - Vendarle smo slišali pričakovane vesti iz Redmonda, da Microsoft vendarle razvija lasten veliki jezikovni model. Za zdaj poimenovan MAI-1 bo imel pol bilijona parametrov, s čimer bo konkuriral Googlovemu Geminiju in OpenAI-jevemu ChatGPT-ju četrte generacije. Predstaviti ga utegnejo že ta mesec na konferenci Build. Projekt vodi Mustafa Suleyman iz podjetja Inflection AI, ki ga je Microsoft prevzel marca letos.

Microsoftov poslovni odnos do umetne inteligence je zanimiv. Na pomembnost področja je Bill Gates opozoril že pred leti, podjetje pa je nato investiralo več kot deset milijard dolarjev v OpenAI. Odločitev se jim je izplačala, saj je njihov model GPT-4 med najbolj priljubljenimi na svetu, Microsoft pa ga je smel integrirati v svoj Copilot, Bing in druge izdelke. A vendarle bi bilo nenavadno, če bi Microsoft uporabljal zgolj tuje orodje, sam pa ne bi poizkušal ničesar razviti, razen če je dolgoročni načrt prevzeti OpenAI, kar pa zaradi kompleksne lastniške strukture ni prav...

Preberi več

7 komentarjev

Anthropic lansiral tretjo generacijo modela Claude

Jurij Kristan :: 5. mar 2024 ob 22:03
Ostala programska oprema

vir: Anthropic

Anthropic - Pri Anthropicu so predstavili družino velikih jezikovnih modelov Claude 3, s katero neposredno žugajo Geminiju in GPT-4.

Medtem ko se pod soji luči vrši dvoboj med navezo OpenAI-Microsoft in Googlom, ter Meta v bližini nekaj motovili z lamami, si skuša na področju velikih jezikovnih modelov svoj kos pogače odrezati tudi kopica manjših izzivalcev. Med bolj prepoznavnimi je družba Anthropic, ki so jo pred tremi leti ustanovili odpadniki iz OpenAI, ki so Samu Altmanu po povezavi z Microsoftom očitali prehitro komercializacijo. Sami razvijajo modele družine Claude, katere posebnost je vdelava spiska dodatnih zavor in smernic, po katerih naj bi se strojna pamet ravnala, čemur pravijo "constitutional AI". Zanimiva je tudi njihova dolgoročna strategija, po kateri želijo prispeti do algoritmov, ki bi se znali - vsaj na določenem ožjem področju - učiti sami in bi bili lahko osnova močnim pametnim pomočnikom. To se pravi, podobno kot pri OpenAI, le da še kanec bolj ambiciozno.

Medtem ko...

Preberi več

25 komentarjev

Google lansiral odprt jezikovni model Gemma

Jurij Kristan :: 25. feb 2024 ob 15:34
Ostala programska oprema

vir: Google

Google - Pretekli teden so pri Googlu pokazali Gemmo, svoj prvi veliki jezikovni model z javnimi utežnimi parametri, ki je očitno namenjen predvsem spopadu z Metino družino odprtih modelov LLaMA.

Na področju velikih jezikovnih modelov poteka vrsta ideoloških bitk; poleg tiste med "doomerji", ki menijo, da lahko LLMji pripeljejo do nevarne splošne umetne inteligence, in njihovimi nasprotniki, pa spopada med podjetji in strokovnjaki za etiko, še najmanj tisti med pristaši zaprtih in odprtih modelov. Med prve spadajo trenutno najbolj razvpiti velikani, kot sta OpenAI in Google, ki v svoje programje ne dovolijo kdovekoliko vpogleda. Med drugimi so razvijalci LLMjev, ki o svojih stvaritvah objavijo več podatkov, v prvi vrsti strukturo nevronske mreže in pa "uteži" (weights), najpomembnejšo podmnožico parametrov nekega modela, ki določa, kaj se je mreža naučila iz podatkov. Malce ironično je tu glavni igralec Meta, po zaslugi svojega laboratorija FAIR, kjer razvoj vodi Yann LeCun, in modelov...

Preberi več

12 komentarjev

Microsoft uvaja lastne strežniške čipe

Jurij Kristan :: 16. nov 2023 ob 22:52
Procesorji

vir: Microsoft

Microsoft - Pri Microsoftu so na konferenci Ignite 23 v Seattlu pokazali svoja prva čipa, v celoti oblikovana znotraj podjetja, ki sta namenjena njihovemu oblaku Azure in ju zaenkrat ne nameravajo tržiti.

S skokovitim razvojem in širjenjem storitev v oblaku so strežniške farme, ki predstavljajo njihovo tehnično hrbtenico, postale ogromni, kompleksni sistemi. Največji ponudniki zato že nekaj časa z namero optimizacij uvajajo vse več lastnih strojnih rešitev, kot so denimo Amazonovi procesorji Graviton. Z eksplozijo generativnih algoritmov in velikih jezikovnih modelov se je potreba po specializirani strojni opremi še povečala, saj v Nvidii ne uspejo dobaviti vseh naprav, ki jih za pospeševanje strojnega učenja potrebujejo njihove stranke - OpenAI naj bi zgolj za lansiranje ChatGPTja potreboval 30.000 čipov A100. Zato zeleni pospeševalci strojne pameti na Ebayu dosegajo astronomske zneske, podjetje pa nenehno beleži rast prihodkov. V Redmondu so zato pljunili v roke in oblikovali dva čipa za...

Preberi več

4 komentarji

OpenAI naznanil GPT-4

Jurij Kristan :: 14. mar 2023 ob 22:59
Znanost in tehnologija

vir: openai.com

openai.com - Kot smo že nekaj časa pričakovali, so v OpenAI naposled najavili veliki jezikovni model GPT-4. Za rahlo presenečenje pa so obenem poskrbeli v Microsoftu, s priznanjem, da novi Bing Chat v bistvu na njem sloni že od začetka testiranja.

Skoraj 3 leta nas že ločijo od prvih vnašanj ukazov generativnemu jezikovnemu algoritmu, oziroma velikemu jezikovnemu modelu (LLM) GPT-3. Umotvor laboratorija OpenAI je postal eden od sinonimov za eksplozijo generativne strojne inteligence, ki je lani dosegla nove nivoje z generatorji slik in jesenskim lansiranjem pogovornega bota ChatGPT, letos pa z nebrzdano naglico poganja novo tekmo med tehnološkimi velikani. Posledica norije je bilo seveda mrzlično čakanje na novo različico GPTja, ki so ga sicer inženirji medtem iterativno nadgrajevali, tako da je bila lani v bistvu aktualna različica 3.5. Tudi šef OpenAIja, Sam Altman, je večkrat opozoril, da so pričakovanja bržkone prevelika in da bo GPT-4 nova evolucijska stopnja ter še daleč od kakšne...

Preberi več

27 komentarjev

Zadnje novice

Zadnji članki

Išči:

Novice » Povezane novice

DeepSeek piše manj varno kodo za naročnike v kitajski nemilosti

Google: ustvarjanje besedila z LLM letos že 33-krat manj potratno kot lani

DeepSeek R2 zamuja zaradi slabih Huaweijevih čipov

OpenAI o1-pro najdražji model umetne inteligence doslej

Nvdiin direktor: DeepSeek še vedno potrebuje veliko računske moči

Južna Koreja umaknila aplikacijo DeepSeek

Kaj nam bodo dragi modeli, če imamo poceni?

DeepSeek je na internetu pozabil javno dostopno bazo svojih podatkov

Po DeepSeeku tudi Alibaba

Kitajska družba DeepSeek razburkala področje umetne inteligence s poceni jezikovnim modelom R1

Microsoft razvija veliki jezkovni model MAI-1

Anthropic lansiral tretjo generacijo modela Claude

Google lansiral odprt jezikovni model Gemma

Microsoft uvaja lastne strežniške čipe

OpenAI naznanil GPT-4