» »

Intervju: Rafal Lukawiecki

Slo-Tech: Se lahko na hitro predstavite?

Rafal Lukawiecki: Vsekakor. Ime mi je Rafal Lukawiecki, delam pa v majhni irski svetovalni firmi Project Botticelli Ltd., kjer sem zaposlen kot strokovnjak za poslovno obveščanje ( business intelligence). Moje podjetje se s tem ukvarja že zadnjih pet let, prej pa smo se ukvarjali predvsem z varnostjo podatkov.

Slo-Tech: Kakšni so najnovejši trendi s področja poslovnega obveščanja?

Rafal Lukawiecki: Najnovejši trendi so se začeli že pred slabimi tremi leti pojavljati zunaj Microsofta, letos pa jih je širši javnosti predstavil tudi softverski velikan sam. Glavni poudarek je na odmiku od tradicionalnega poslovnega obveščanja na nivoju organizacije in približevanju samostojnemu poslovnemu obveščanju na nivoju vsakega posameznega delavca, ki ima opravka z obdelovanjem podatkov. Naša vizija je, da bodo do konca tega desetletja - torej imamo še približno devet let časa - vsi ljudje, ki uporabljajo računalnike v podjetjih, prevzeli določene naloge analitikov in bodo zmožni samostojne analize svojih podatkov. Danes si tega sploh ne moremo predstavljati, saj večina takih ljudi nima dovoljšnjih analitičnih kompetenc. Tudi če imajo dostop do podatkov, sami iz njih zelo težko izluščijo kaj koristnega. Nove tehnologije pa to spreminjajo in omogočajo ogromnemu številu uporabnikov, da sami pridobijo te podatke, ne da bi morali imeti zato kakšne posebne analitične sposobnosti.
Drugi pomembnejši trend, ki poteka vzporedno z zgoraj omenjenim, pa je nadzor in upravljanje s poslovnim obveščanjem, saj samostojno poslovno obveščanje zelo hitro lahko prinese tudi neizmerno veliko nedoslednosti, saj veliko različnih ljudi uporablja različne vrste poslovnega obveščanja in že rahlo različni odgovori lahko vodijo do nepredstavljivega kaosa. Po eni strani je pomembno, da ljudje dobijo orodja, s katerimi se lahko samostojno dokopljejo do odgovorov, še bolj pomembno pa je ta proces tudi nadzorovati. In pri obvladovanju te rastoče množice samostojnih analitikov poslovnega obveščanja nam lahko pomagajo tudi bolj tradicionalne tehnologije poslovnega obveščanja, npr. nova Microsoftova različica SharePoint Serverja.

Slo-Tech: Kaj pa najnovejši trendi na področju informacijskega poizvedovanja iz nestrukturiranih podatkov, npr. semantične tehnologije in podobno?

Rafal Lukawiecki: V bistvu gre tu predvsem za vprašanje, kaj je nestrukturirano. Z Microsoftovimi orodji, s katerimi smo najbolj vešči, se že dolgo ukvarjamo z analizo nestrukturiranih podatkov, npr. z orodji za podatkovno rudarjenje SQL Serverja 2008 pogosto pridobivamo smiselne enote iz e-pošte in nestrukturiranih besedil. Če ljudje v podatkovno bazo vnašajo take nestrukturirane podatke, je zelo težko kaj razumeti, če tega dejansko ne bereš. Vseeno pa obstajajo tudi določene tehnologije, ki zmorejo urediti nestrukturirane podatke in iz njih izluščiti določene podatke, npr. asociativna analiza, ki je del SQL Serverja. Bomo kdaj prišli do te točke, ko bomo lahko v nestrukturiranih podatkih našli ponavljajoče se vzorce? Tega ne vem, je pa to eden od naših največjih ciljev. S tem tudi "priznavamo", da tudi v navidez nestrukturiranih podatkih obstaja nekakšna struktura, ki se jo da izluščiti, vendar zaenkrat še nismo prišli tako daleč.
Za nekatere ljudi "nestrukturirano" pomeni že to, da podatki niso v podatkovni bazi, temveč v kakem poročilu, na spletni strani ali v tabeli. Ljudje si želijo vse te različne podatke nekako združiti in ugotoviti, ali med njimi obstajajo kakšne povezave. In ravno to je tisto, kar omogoča tehnologija PowerPivot, o kateri sem tudi predaval na tej NT konferenci. PowerPivot npr. omogoča uporabniku uvoz dela podatkov iz spletne strani, dela iz podatkovne baze in dela iz poročil, da lahko nato ugotovi, ali obstajajo med temi podatki določene povezave. To je precej nov način analize podatkov, ki jih nekateri ljudje smatrajo za nestrukturirane.

Slo-Tech: Kdaj bomo končni uporabniki deležni uporabnih orodij za prepoznavo in obdelavo naravnega jezika?

Rafal Lukawiecki: Odgovor na to vprašanje pravzaprav iščemo že več let. Že ko sem bil v 90. letih še na Poljskem, torej veliko preden sem začel študirati računalništvo v Londonu, sem v programskem jeziku SNOBOL4 napisal program za prepoznavo naravnega jezika. Ko so nas takrat vprašali, kdaj bo to kaj takega dejansko uporabno, je bil naš odgovor, da morda čez 10 do 15 let. No, zdaj pa vidite, da še nismo prišli do tega. Optimist v meni pravi, da bi lahko že v naslednjih 7 do 10 letih ustvarili uporabna orodja za prepoznavo pisanega naravnega jezika, ki temeljijo na tehnologiji približnega prepoznavanja namena. Natančnejše tehnologije, ki bi znale s skoraj 100 % verjetnostjo prepoznati namen in tudi preveriti, ali je to res tisto, kar je uporabnik želel povedati, pa verjetno ležijo kakih 30 do 40 let v prihodnosti.

Slo-Tech: Pred okrog 10 leti se je veliko govorilo okrog prepoznavanja govora, potem pa je vse kar nekako potihnilo, saj se je ves razvoj zataknil pri prepoznavanju govorčevega namena, torej prepoznavanju tega, kar je zares želel reči.

Rafal Lukawiecki: Res je. Prepoznavanje govora je zelo zanimivo, saj je odvisno od namena. Če je ta namen zelo specifičen in omejen, npr. dajanje ukazov računalniku, ki prepozna osem ukazov, je implementacija precej enostavna in z nekaj treninga tudi popolnoma zanesljivo deluje. Še en primer so orodja za diktiranje v Wordu, ki delujejo kar precej dobro.
Ko pa enkrat zajadramo v bolj nespecifične vode, se vse spremeni. Tu je zelo težko doseči zadovoljivo prepoznavanje govorčevega namena. Težava ni v popolnemu razumevanju jezika - računalniki to zmorejo - težava je v tem, da ljudje namen izražajo na zelo različne in neformalne načine, in ravno zaradi tega bo pot do prepoznavanja govorčevega namena še zelo dolga in zahteva pomembne napredke s področja ontologije in splošne reprezentacije znanja - tu gre za veliko več kot le za semantiko. Razvoj umetne inteligence se že 50 ukvarja prav s prepoznavanjem tega, kaj je uporabnik želel povedati, a tega ni izrecno rekel. Ali pa s paradoksom, ko je uporabnik želel povedati nekaj, rekel pa je ravno nekaj nasprotnega. Veliko ljudi zna nek ukaz podati na tak neformalen način, da bi z doslednim upoštevanjem ukazanega dosegli ravno nasprotno od tistega, kar je bil njihov namen. Ta izjemno trd oreh moramo najprej streti na nivoji zapisanega jezika, šele nato se lahko lotimo reševanja te težave pri prepoznavanju govora.

Slo-Tech: Kako daleč je prišlo sestavljanje ontologij iz nestrukturiranih podatkov?

Rafal Lukawiecki: Na to se kar dobro spoznam, saj sem v začetku tega tisočletja v to vložil kar precej denarja - in ga tudi izgubil. Leta 2000 sem vložil kapital v podjetje, ki se je ukvarjalo z raziskavami na področju ontologij, njihov cilj pa je bila izdelava matrice avtomatiziranega in precej avtonomnega softvera, ki bi gradil ontološko sliko uporabnikovih interesov preko prepoznavanja narave namena. Žal sem prepozno uvidel, da so bili šele v precej zgodnjih fazah akademskega raziskovanja in še daleč od cilja. Poglejte, kakšne hude težave je imel UDDI (Universal Description Discovery and Integration) s spletnimi servisi. Tehnologija spletnih servisov je učinkovita, težavno je le prepoznati, katere servise je treba uporabiti. Tudi semantično omrežje ima velike težave pri preboju. Zadovoljen sem, da se v tem trenutku veliko dela na tem področju, a bom raje pesimistično napovedal, da nas do cilja loči še vsaj 20 let.
Po drugi plati pa obstaja še alternativen način za reševanje te težave, in sicer ugibanje namena. To bi z upoštevanjem določenih odklonov in napak preko statistične analize vodilo do sklepanja, kaj je uporabnik želel doseči. Ta ideja ima potencial. Računalnik bi si v primeru nerazumljenega stavka lahko zastavil neko grobo hipotezo s tremi možnimi rešitvami, na podlagi statističnih podatkov pa bi prišel do sklepa, katera je najbolj verjetna. Tako dejansko razmišljamo tudi ljudje, sploh npr. na področju svetovalnih storitev. Če me nekdo na kakem predavanju kaj vpraša, pa nisem čisto točno razumel, kaj me je želel vprašati, a mu vseeno želim pomagati, se vprašam, kaj bi znalo biti najbolj verjetno vprašanje. Če sem takrat v bančni ustanovi, kjer so pravkar splavili nov sistem, se morda pojavljajo težave pri obdelavi bančnih kartic... in gre verjetno torej za neke težave z zanesljivostjo pri splovitvi novega in nepreizkušenega sistema. Takrat posežem po svojem znanju s področja bančništva, saj sem v takem okolju, to je moj kontekst. Vpeljevanje elementov verjetnosti v ontološke sisteme bo verjetno pospešilo proces in pripeljalo do nekih določenih uspehov ter vodilo do zanimivih rešitev.

Slo-Tech: Trenutno je najbolj vroča Bayesova statistika, kajne?

Rafal Lukawiecki: Vsekakor. To lahko spet navežem na poslovno obveščanje, o katerem sem že govoril - podatkovno rudarjenje je namreč želo bistra uporaba gole statistike z nekaj odkrivanja znanja, učenja in umetne inteligence; vse to pa poteka na nivoju uporabnikov, ki jim za ta namen ni nujno obvladati statistike. SQL Server ima orodja za podatkovno rudarjenje, ki uporabniku omogočajo enostavno iskanje izjem ali vzorcev v podatkih. Uporabniku ni treba vedeti, da v ozadju to pravzaprav počne precej zanimiv algoritem za gručenje, niti kako točno vse to deluje. Če preko te uporabe lahko sklepamo na namen, lahko sklepamo tudi, kaj leži izven tega namena in začrtamo nekakšne meje. Pravzaprav na tak način umetno inteligenco prikrito dvigujemo na uporabniško raven.

Slo-Tech: Prej ste omenili, da ima SQL Server orodja za podatkovno rudarjenje. Kaj pa bolj napredne zmogljivosti, npr. hitro gručenje, hierarhičen k-means algoritem in podobno? Katera druga orodja so še uporabna? Imate v načrtu ta orodja predstaviti tudi širši javnosti ali zaenkrat ostajajo v domeni specializirane programske opreme?

Rafal Lukawiecki: Izvrstno vprašanje. Kot sem že omenil na začetku intervjuja, se tradicionalno poslovno obveščanje nagiba proti ogromnemu številu informacijskih delavcev, torej ljudi, ki uporabljajo e-pošto, na analizo pa se ne spoznajo. SQL Server že dolgo vsebuje npr. orodja za izdelavo podatkovnih kock in orodja za analizo. Ta tehnologija je zdaj dosegla nov mejnik, saj sta SharePoint in Excel dobila orodje PowerPivot, ki omogoča tudi zelo netehničnemu uporabniku, da izdela podatkovno kocko - ne da bi se seveda zavedal, da jo izdeluje.

Slo-Tech: Kaj pa napredne metode za pridobivanje znanja iz teh podatkovnih domen?

Rafal Lukawiecki: To je predvsem naloga podatkovnega rudarjenja. V SQL Serverju je za to na voljo devet algoritmov za podatkovno rudarjenje, od odločitvenih dreves, gručenja, nevronskih mrež, naivnih Bayesovih klasifikatorjev, logistične in linearne regresije in drugih, ki pa se jih ta trenutek ne spomnim. Od vseh teh algoritmov, ki omogočajo uporabniku prečesavanje ogromnih količin podatkov, je za končnega uporabnika verjetno najbolj uporaben algoritem odločitvenih dreves. Odločitvenih dreves ni težko razumeti, saj algoritem ustvari očesu prijazno drevo, ki pokaže kombinacije povezav na tak način, da jih z nekaj malega vaje lahko razume prav vsakdo. Ta tehnologija je zdaj na voljo tudi v Excelu in je tako še bližje povprečnemu uporabniku, ki tako res ne potrebuje nobenega poznavanja SQL Serverja, da lahko uporablja ta orodja. Za Office Microsoft nudi tudi brezplačen plugin za podatkovno rudarjenje, tako da se lahko vsak uporabnik Excela 2007 ali 2010 s tem pluginom poveže na SQL Server in v svojih podatkih poišče nove informacije. Microsoft razvija tudi gručenju podobno tehnologijo, ki je pravzaprav ravno obratna od gručenja.
Pri poslovnem obveščanju se pojavlja še ena težava, in sicer se vse pogosteje pojavljajo situacije, ko ogromne količine podatkov ležijo v različnih podatkovnih skladiščih, a jih želimo združiti in analizirati kot eno bazo podatkov. Čeprav je SQL Server 2008 R2 prišel na police že prejšnji teden, bo Microsoft tehnologijo Parallel Data Warehouse oz. tehnologijo vzporednih podatkovnih skladišč širši javnosti predstavil šele kasneje poleti. Ta tehnologija omogoča izdelavo velikih logističnih podatkovnih skladišč iz velikega števila strežnikov, ki so lahko tudi fizično ločeni in podatke hranijo na različne načine. V bistvu ni težko videti, da med njimi obstaja logična povezava, izdelava takega podatkovnega skladišča pa je precej zahtevnejša.

Slo-Tech: Pa to deluje le na Microsoftovem SQL Serverju?

Rafal Lukawiecki: Tako je, Parallel Data Warehouse združi različne SQL Serverje v eno ogromno skupno podatkovno skladišče.

Slo-Tech: Če imam nekaj podatkov shranjenih na kakšen drugačen način, torej ne morem priti do njih?

Rafal Lukawiecki: V takem primeru lahko uporabite SQL Integration Services, ki omogoča uvoz kakršnihkoli podatkov iz baze kjerkoli na svetu v to skupno podatkovno skladišče. Tehnologija je zelo hitra in je zasnovana za obdelavo milijonov vrstic podatkov v nekaj urah, odvisno od strukture podatkovnih središč.
Tudi prihodnost zna biti zanimiva. Vse te tehnologije so sicer super in uporabniku omogočajo marsikaj, Microsoft pa se osredotoča predvsem na računalništvo v oblaku oz. cloud computing. Potem postane vprašanje o združevanju podatkov z različnih strežnikov še bolj relevantno, saj se razširi še na podatke iz zelo nestrukturiranih virov. Zaenkrat je vse to še v povojih, vendar ima Microsoft s tem velike načrte - v prihodnosti naj bi ves razvoj programske opreme potekal v Microsoftovemu oblaku. Dandanes Microsoft vlaga ogromno časa, denarja in ljudi v izgradnjo največjega in najbolj zmogljivega oblaka na svetu, ki bo praktično brez meja. Seveda pa to ne bo šlo kar z danes na jutri, temveč postopoma. Če pogledamo konkurenco, npr. Amazonov oblak Elastic Compute Cloud, vidimo, da gre za precej različno stvar. Pri Elastic Cloudu vse, kar ustvariš v lokalnem podatkovnem središču, preneseš v podatkovni center v oblaku, kjer teče le virtualizirana različica enake programske opreme kot na lokalnem strežniku. To se mi ne zdi niti najmanj zanimivo, saj smo to počeli že pred desetimi in celo dvajsetimi leti.
Microsoft načrtuje, da mu bo še pred ostalimi uspelo ustvariti popolnoma revolucionaren način razvoja programske opreme, kjer bo razvoj softvera v oblaku povsem drugačen in bo znal izkoriščati povezanost oblaka. V povezavi s poslovnim obveščanjem bi to prišlo v poštev v primeru referenčnih baz podatkov, ki jih potrebujemo praktično vsi. Če npr. nek razvijalec piše neko programsko opremo za Slovenijo, bo verjetno potreboval dostop do seznama vseh slovenskih mest ali kaj podobnega. Kje naj dobi take podatke? V bistvu to ni tako enostavno. Seznam bi lahko morda poiskal na Wikipediji ali pa kje drugje, vendar ga je težko dobiti. Trenutno torej nastaja ogromen trg za t.i. ponudnike referenčnih podatkov, ki bodo svoje storitve ponujali preko oblaka drugim uporabnikom. To je eden od poslov prihodnosti, ko bo natančnost določenih podatkov odvisna od dostopa do natančne referenčne baze podatkov. Microsoft npr. z razvojem teh referenčnih podatkov priznava pomembnost oblaka kot različnega modula oz. paradigme.

Slo-Tech: Kakšno pa je vaše mnenje o "goljufanju" oziroma sodelovalnem filtriranju (collaborative filtering) in drugih socialnih tehnologijah, ki namesto sklepanja o namenu omogočajo predalčkanje oseb v skupine glede na neke skupne podobnosti?

Rafal Lukawiecki: Tu gre za precej osnovno asociativno analizo rudarjenja podatkov, ki jo uporabljamo že precej časa. Enako lahko dosežem z orodji za podatkovno rudarjenje SQL Serverja 2008, kjer preko asociativne analize razvrstim kupce v skupine in z gručenjem pridem do podobnostmi med njimi. Če imam na voljo podatke, ne potrebujem socialnih omrežij - je pa res, da so socialna omrežja koristna, če podatkov ni na voljo. V tem vidim veliko priložnost, če bi bili ljudje, ki nadzorujejo podatke v socialnih omrežjih, želeli ustvariti posel z ponujanjem dostopa do teh podatkov. Tehnološko gledano tu ne gre za nobeno goljufijo, temveč za zelo inovativen pristop do posla. Edino, kar me precej skrbi, je varnost in varovanje osebnih podatkov, saj dostop do takih podatkov omogoča relativno enostavne zlorabe, kar se tiče osebne varnosti posameznikov. Dvomim, da se uporabniki socialnih omrežij sploh zavedajo potenciala informacij, ki jih dajejo v splet.

Slo-Tech: Recimo, da Facebook predstavlja konec zasebnosti za vsakogar, ki se mu pridruži. Kako to vpliva na vašo lastno varnost?

Rafal Lukawiecki: Dobro povedano, socialna omrežja so dandanes res postala način za popolno odpravo zasebnosti. Zelo sem zaskrbljen, da se mladi, ki danes odraščajo, s tem nepoznavanjem zasebnosti ne odrekajo le zasebnosti, temveč tudi svobodi. Kot je rekel že Franklin: "Kdor se odpove svoji svobodi na račun varnosti, si ne zasluži ne svobode in ne varnosti." Podobno mnenje imam sam o zasebnosti - če izgubimo svojo svobodo, ker smo izgubili svojo zasebnost, si tudi svobode ne zaslužimo. Mislim sicer, da se bo to spremenilo in da bodo ljudje čez kakih pet do deset let spoznali, da nikomur ne koristi ta pot proti Orwellovski družbi. Zaskrbljujoče pa je, da zdaj odrašča generacija, ki je izgubila svojo zasebnost. Ko bodo ti mladi ljudje stari 40 ali 50 let, bodo spoznali, da se jim lahko maščuje vse, kar so objavili na spletu pred 20 ali 30 leti. Dandanes sicer ne razmišljajo tako, a bodo kasneje verjetno spremenili svoje mnenje. Lahko pa se tudi zgodi, da bo prišlo do popolnoma drugačnega pristopa do svobode in zasebnosti...
Meni se ob tem para srce, zato pozivam vsakogar, ki mu je za to kaj mar, naj stori karkoli pač lahko, da bi se v njegovi domači državi bolje zavedali te izgube svobode in zasebnosti. To lahko storite preko različnih organizacij, npr. Electronic Frontiers Foundation. Skrajni čas je, da se zamislimo in o tem podučimo predvsem mlajšo generacijo.

Slo-Tech: Sem vas še kaj pozabil vprašati?

Rafal Lukawiecki: V bistvu sem dobil precej pomembnih vprašanj iz zelo širokega spektra področij. Morda bi le še omenil, da pri vsem tem ne gre le za neke ezoterične zadeve, ki bodo - ali pa tudi ne bodo - pomembne šele čez 20 ali 30 let. Tudi v današnjem svetu se morajo ljudje odločati na podlagi statistik in številk in morda sprejeti tudi kakšno dolgočasno odločitev, ki pa v končni fazi prispeva k uspehu organizacij. Ljudje morajo razumeti, da te odločitve lahko sprejemajo na podlagi odgovorov, do katerih pridejo sami in ne drugi, saj lahko iz svojih podatkov informacije pridobijo samostojno. Vse lepo vabim k obisku spletne strani http://www.powerpivot.com, kjer je zbranih mnogo zanimivih videoposnetkov in primerov uporabe. PowerPivot si lahko brezplačno prenesete na svoj računalnik z Officom 2010 in npr. preizkusite, kaj vse lahko novega odkrijete o Sloveniji, če si na računalnik prenesete tudi podatkovno bazo statističnega urada in jo čeznjo pošljete nekaj algoritmov. Morda boste presenečeni.

Slo-Tech: Rafalu Lukawieckemu se zahvaljujemo za intervju.
Intervju s Philipom Zimmermannom

Intervju s Philipom Zimmermannom

Philip Zimmermann je avtor šifrirnega programa (za šifriranje datotek in elektronske pošte) PGP (Pretty Good Privacy). Prvo različico programa je napisal leta 1991, program je tekel na popolnoma običajnih računalnikih PC in je bil za tedanje standarde uporabniške ...

Preberi cel članek »

Pogovor z Gorazdom Božičem, vodjo Si-CERT

Pogovor z Gorazdom Božičem, vodjo Si-CERT

Področje računalniške varnosti postaja čedalje bolj pereč problem, s katerim se v zadnjem času ukvarjajo tudi policija, tožilstvo in sodstvo. Računalniški strokovnjaki pa se s temi problemi srečujejo že dlje časa. Eden takih je tudi Gorazd Božič, ...

Preberi cel članek »

Zakoniti nadzor v Sloveniji (2.del)

Zakoniti nadzor v Sloveniji (2.del)

V soboto, 2. oktobra 2004, je v zgodnjih jutranjih urah, v času predvolilnega molka, več kot 70.000 uporabnikov Mobitela prejelo nezaželena in nenaročena sporočila SMS s politično vsebino. Iz fotografije spornega SMS sporočila, objavljene v Mladini, je razvidno, ...

Preberi cel članek »

Intervju: Chris Bryant

Intervju: Chris Bryant

Slo-Tech: Se lahko najprej predstavite? Kdo ste, kje delate in na kakšnem položaju? Chris Bryant: Ime mi je Chris Bryant in sem direktor produktnega vodenja za pisarniški paket Microsoft Office. Jaz in moja ekipa smo tisti del podjetja, ki najbolj tesno sodeluje z ekipo programerjev, ki delajo na posameznih ...

Preberi cel članek »