»

Računalniško prepoznavanje govora ni naučeno angleščine temnopoltih

Delež napačnih prepoznav besed (word error rate)

Slo-Tech - Sistemi za prepoznavanje govora so v zadnjih letih postali že zelo zmogljivi, tako da jih je možno uporabljati tudi v vsakdanjem življenju. K temu sta pripomogla povečanje korpusa za trening in razvoj metod za strojno učenje. Pet največjih razvijalcev teh sistemov je Amazon, Apple, Google, IBM in Microsoft. Raziskovalci s Stanforda so preverili, kako dobro ti sistemi razpoznavajo govorjeno besedo, in ugotovili, da obstajajo pomembne razlike med rasami (članek v PNAS).

Vseh pet sistemov je dobilo 19,8 ur posnetega materiala, ki je vključeval 42 belih govorcev in 73 temnopoltih. Govorili so z lokalnimi mestnimi govoricami petih mest v ZDA: Princeville (ruralno, večinoma temnopolto prebivalstvo), Rochester (srednje veliko mesto v državi New York), Washington DC, Sacramento (kalifornijska prestolnica) in Humboldt County (ruralno, večinoma belo prebivalstvo). Na koncu so uporabili 2141 izrezkov, ki so v povprečju trajali 17 sekund. Od teh je bilo 44 odstotkov moških, povprečna starost...

37 komentarjev

Onesnažen zrak poneumlja (in ubija)

Postaje za merjenje kakovosti zraka na Kitajskem

Slo-Tech - Velik del svetovnega prebivalstva živi v okolju, kjer je kakovost zraka slaba. Da ima to različne zdravstvene posledice, so v preteklosti dokazale že številne študije, čeprav je vsak pavšalen izračun, koliko smrtnih žrtev povzroča onesnaženost zraka, do neke mere špekulativen. Manj znano pa je, da ima onesnažen zrak vpliv tudi kognitivne sposobnosti. Najnovejša raziskava znanstvenikov z Yala in pekinške univerze, objavljena v PNAS, je dokazala povezavo med onesnaženostjo zraka na Kitajskem ter nižjimi matematičnimi in jezikovnimi sposobnostmi živečih v...

17 komentarjev

Simulacije pokazale, zakaj so veliki jeziki obširnejši in preprostejši

Slo-Tech - Angleščina je težka, angleška slovnica pa ni. Besedišče v angleškem jeziku je eno najbolj razgibanih in med največjimi na svetu, medtem ko so stavčne strukture v povprečju preproste. Na drugi strani so jeziki, kamor sodi tudi slovenščina, ki nimajo tako obširnega besedišča, a imajo zelo zapleteno slovnico s številnimi pregibnimi vrstami. Zdi se, da so jeziki z velikim številom govorcev kompleksni v besedišču in preprosti v slovnici (angleščina,...

43 komentarjev

Podatki iz iskanj po Googlu razkrivajo ekonomsko moč države

vir: Nature
Nature - Naraščajoče količine zbranih podatkov o ljudeh, za kar so v največji meri zaslužni internet in socialna omrežja, omogočajo izvedbo najrazličnejših raziskav in analiz, ki so jih v preteklosti lahko v omejenem obsegu izvajali le na podatkih, zbranih iz knjig in revij. Nadvse uporabna storitev je Google Trends, ki beleži iskalne termine. V preteklosti smo videli, da lahko z analizo iskanja podatkov o gripi zelo natančno napovemo, kdaj bo gripa najbolj razsajala. Sedaj so raziskovalci iz Bostona, Zürica in Londona raziskali, kako je naravnanost neke nacije v prihodnost ali preteklosti korelirana z njenim bogastvom.

Avtorji raziskave so za leta 2008, 2009 in 2010 na podlagi podatkov iz Google Trends ugotavljali, kako pogosto so ljudje iskali podatke o prihajajočem letu (2009, 2010, 2011) oziroma preteklem letu. Pri tem so se omejili na...

7 komentarjev

Jezik vpliva na varčevanje, ukvarjanje s športom, kajenje

Slo-Tech - Zamisel, da materni jezik v veliki meri vpliva na naše dojemanje sveta in posledično ravnanje v njem, ni nova. Že Wittgenstein je namreč leta 1921 v svojem Logično-filozofskem traktatu zapisal Die Grenzen meiner Sprache bedeuten die Grenzen meiner Welt (Meje mojega jezika so meje mojega sveta) in na koncu izpeljal Wovon man nicht sprechen kann, darüber muss man schweigen (O čemer človek ne more govoriti, o tem mora molčati). Utemeljitelj jezikoslovnega strukturalizma in semiotike Ferdinand de Saussure je leta 1916 to povedal nekoliko drugače, in sicer Si les mots tenus pour des concepts préexistants eux auraient des équivalents exacts dans la signification d'une langue au prochain et ce n'est pas aussi (Če bi besede opisovale predhodno obstoječe pojme,...

43 komentarjev

Jezik medmrežja še angleščina, bliža se ji kitajščina

Slo-Tech - Statistični podatki o številu strani na internetu po jeziku, v katerem so napisane, kažejo, da zaenkrat še vodi angleščina, a jo bo zdaj zdaj prehitela kitajščina. Trenutno je 27,3 odstotka uporabnikov medmrežja angleško govorečih, sledijo pa jim kitajsko govoreči z 22,6 odstotka. Na tretjem mestu so hispanofoni (7,8 odstotka), nato pa se zvrstijo še Japonci (5,0...

32 komentarjev

Človek lahko zazna šest okusov

Slashdot - Iz šol poznamo klasično pojmovanje okusa, ki pravi, da ljudje z jezikom zmoremo okusiti štiri različne okuse - sladko na sprednjem delu jezika, slano na konici in straneh, kislo ob straneh in grenko ob korenu jezika. Japonci so že pred več kot sto leti iz morskih alg izolirali posebno učinkovino, katere okus ni bil primerljiv z nobenim izmed do tedaj poznanih. Okus so poimenovali umami, kasneje pa so ugotovili, da gre za natrijev glutamat. Brbončice na jeziku namreč zaznavajo tudi glutamatni anion (anionska oblika neesencialne aminokisline glutamin s sistematskimi imenom 2-aminopentandiojska kislina), zato je ekstrakt teh alg klasični sestavni del japonske kuhinje.

Avstralski...

11 komentarjev

Google govori 41 jezikov

Slo-Tech - Google postaja iz dneva v dan boljši poliglot, saj mu inženirji in lingvisti pridno dodajajo nove jezike, ki jih razume. Z zadnjim dodatkom turščine, tajščine, madžarščine, estonščine, albanščine in galicijščine podpira prevajanje med 41 jeziki v poljubni kombinaciji (torej 1640 dvojic). Google trdi, da s tem dosega materne jezike 98 odstotkov vseh uporabnikov, kar je impresivna številka. Odveč je poudariti, da Google že od lani prevaja tudi v slovenščino in iz nje, kar so podjetni nigerijski lopovi že začeli izkoriščati.

Google ni prvi niti edini ponudnik strojnih prevodov na spletu, je pa zagotovo največji, najobširnejši in najbolj znani. Že dolgo časa je naokrog Babelfish oz. riba babilonka, ki jo je prvi odkril Arthur Dent, Slovenci pa se lahko za angleško-slovenske in obratne prevode zatečemo tudi k Amebisovi rešitvi. Prevajanje med jeziki je zahteven problem, ker jeziki uporabljajo različne načine opisa sveta, tako da ni moč postaviti bijektivne preslikave ali pa prevajati...

30 komentarjev

Predstavitev sistema za sintezo slovenskega govora

Lugos - Kiberpipa, četrtek 30.5 ob 19:00 Jure Leskovec bo predstavil sistem za sintezo slovenskega govora Govorec. Govorec je računalniški program, ki na vhodu sprejme besedilo v slovenskem jeziku in ga preko zvočnikov naglas prebere. Sistem je bil razvit na Inštitutu Jožef Stefan. Najprej si bomo ogledali osnovne probleme in postopke, ki jih je potrebno rešiti pri sintezi govora. Vsakega od štirih korakov, ki nastopijo pri sintezi govora, si bomo posebej ogledali: razčlemba besedila, pretvorba črk v glasove (foneme), nastavljanje govornih parametrov in naglaševanje ter združevanje osnovnih govornih enot. Na koncu bo sledilo še nekaj besed o Microsoftovem Speech APIju, s katerim je združljiv Govorec, ter obvezno poslušanje govora Govorca ter nekaterih tujih sintetizatorjev govora. Prosojnice za predavanje lahko najdete na http://ai.ijs.si/jure/mat/govorec-cyber...

13 komentarjev