» »

Prepoznavanje govora

Prepoznavanje govora

Enterprise ::

Zdravo,

včeraj sem peljal sina na pregled v pediatrično v Ljubljani. Sedimo pri zdravnici, na koncu ona izpod mize potegne mikrofon, da bo posnela potek pregleda, to kar pač vedno naredijo na koncu, in gre potem v kartoteko. Kakor vem, oni te stvari posnamejo, potem pa neka administratorka pač pretipka. No tokrat ni bilo tako - vse skupaj je bilo kot v nekem znanstvenofantastičnem filmu. S cirka dve sekundnim zamikom, ji je računalnik pretipkaval vse, kar je ona povedala. Vmes je govorila "vejica, pika, nova vrstica", vse funkcionira, strokovna terminologija, ni problem. Na koncu je le popravila napako v začetku enega stavka in vse skupaj shranila.

Mi lahko nekdo razloži, kako hudiča to funkcionira?! Vem, da to ni nič takega za angleščino, nemščino, ampak kdo je tako profesionalno programsko opremo razvil za tako majhen trg kot smo mi? In koliko denarja je šlo za to? Mislim, da je imela odprt program ThinkClinic nekaj, nekaj v tem smislu.

Dejansko je bilo vse skupaj napisano brez napake, vsi skloni, izrazi, vse je funkcioniralo. Kot da bi neka navidezna oseba sedela zraven, in tipkala.

...:TOMI:... ::

O hudo ;)
Tomi

Unknown_001 ::

Moja laično posplošena razlaga:
Po mojem ima zadeva zajetno knjižnico ukazov in zelo dobro poštimano logiko povezovanja ukazov in slovničnih pravil. Največji haklc tuki je po mojem ravno prepoznava izgovorjave, kar seveda ob primerno kvalitetnem mikrofonu in močnim programom za analizo zvoka kjer ima shranjene vzorce za zloge/besede/črke/ukaze. Seveda potem vseskupaj tako narejeno kot recimo glasovno iskanje Google, le da je zadeva komercialna in ne deluje tako dobro, kar pa je po mojem posledica tehničnih omejitev: nejasno govorjenje, nepravilna izgovorjava in naglaševanje (pogosto pomembno pri tujih jezikih), mikrofon (mislim da vsi vemo da so tiste zadevice v telefonih daleč od kakšnih resnejših zadev, a za osnovno komunikacijo povsem zadostujejo.

Sedaj lahko filozofiram dalje ampak meni se zdi tak sistem realen in smiseln. AI po mojem odpade, ker je vseskupaj še vedno ni sposobno samostojne interpretacije, razen preverjanja in analize ujemanj z prednapisanimi vrednostmi, kar pa zgoraj opisan postopek je.

Ni ravno neko čudo. Kvečjem dolgo poznana zadeva, ki je primerno narejena tudi za profesionalno rabo.

Drugače pa če se čudiš, kdo bi to razvil za slovenijo... Nič takega, za dober denar se vse zrihta. Za splošno uporabo bojo pa še leta minila preden se bo komu splačalo za prosto uporabo med rajo narest. Tako da vse je vprašanje denarja za take projekte, če si pripravljen ponuditi dovolj da se tak projekt splača, se ga bo izvedlo, če ne pa no money no funny :)
Wie nennt man einen Moderator mit der Hälfte des Gehirnis ?

Begabt

Zgodovina sprememb…

Enterprise ::

Mikrofon je v bistvu bil bolj podoben diktafonu, priklopljenemu na računalnik. Je pa zadeva izgledala precej kvalitetno. Podobne velikosti, kot električni brivnik.

Jaz pa močno dvomim da je zadeva tako nekomplicirana. Nekaj časa nazaj sem naletel na Amebisovega Govorca. Sample je slišati profesionalno, kot bi poslušal živega človeka. Ko pa program enkrat zares probaš v akciji, je pa v bistvu precej pod nivojem Microsoft Sama, tistega polomljenega govorca iz XP-jev. Prepoznavanje govora zna tehnično morda res biti malo lažja stvar kot branje besedila, pa vendarle, slovenščina je slovnično precej bolj kompliciran jezik od nemščine, da ga z angleščino sploh ne primerjamo. Meni se je res zdela znanstvena fantastika, da so se poklapale vse sklanjatve, strokovna terminologija, itd. Sploh pa, zakaj tega ni razvilo že kako drugo podjetje, ala Google, Microsoft? Ali pa pač neko slovensko podjetje, ki bi s tem lahko precej mastno služilo. Mislim da bi taka programska oprema v marsikaterem podjetju pohitrila pisarniška opravila in s tem pripomogla k večji učinkovitosti delavcev?

In še: se ti zdi da ima slovensko zdravstvo toliko denarja, da si lahko privošči razvoj take programske opreme?

Zgodovina sprememb…

Irbis ::

V Sobotni prilogi (30. oktobra) je bilo v enem intervjuju omenjeno, da pride licenca 2000 evrov na mesec na osebo. Je pa sistem naučen za vsako osebo posebej in ima omejen nabor besed, zato je razpoznava potem zelo dobra.

SeMiNeSanja ::

2000/mesec? Pa tolko te pride tipkarica...... ki poleg pisanja narekov zna tudi kavo skuhat (pa še kaj drugega). Očitno ima naše zdravstvo veliiiiiiiiiiiiko denarja?

Zgodovina sprememb…

M.B. ::

Tako velik problem to dandanes ni več.
Primer brezplačen festival škotski glas je zelo dober. Za MBrolo obstaja tudi hrvaški glas, ki tudi slovenščino kar dobro skupaj spravi, seveda delno s hrvaškim naglasom, kar se najbolj pozna pri številkah.

Pri prepoznavi je stvar seveda težja. Navodila za izdelavo prepoznave govora pogona Sphinx s pomočjo člankov Wikipedije. Če temu potem dodamo še relativno omejen besednjak je lahko prepoznava zelo dobra. Kar bi verjetno ustrezalo pri medicini.

Sam se zadnje čase igram z Jasperjem, ki zapakira okoli razne pogone za prepoznavo zvoka in TTS. (lahko uporablja tudi Google TTS in STT) Glede na to da na začetku zgenerira katere besede pričakuje mu je še malo lažje.

Za narek obstaja tudi Simon.

Potem pa imaš še "lene" ljudi ki so se spravili programirat samo z zvokom.
VIM kontroliran z zvokom (Desno zgoraj je pognana komanda)

In vse opisano je prosta oprema, ki je sicer iz raznih inštitutov ampak ima manj $$ za sabo kot Google in podobni, ki je najprej zbiral glasove v storitvi GOOG potem pa na podlagi tega razvil prepoznavo govora s pomočjo globokih nevronskih mrež. (deep learning)
Največji napredek je razvoj algoritmov, ki omogočajo učenje na podlagi neoznačenih primerkov in močnejši hardware.
Everyone started out as a newbie.
Sadly only a handful ever progress past that point.

Zgodovina sprememb…

  • spremenil: M.B. ()

jype ::

Android mojo angleščino razume dovolj dobro, da lahko ircam.

SeMiNeSanja ::

jype je izjavil:

Android mojo angleščino razume dovolj dobro, da lahko ircam.

Danes še kdo I R C A ?!?!? Sem mislil, da se to uporablja samo še za krmiljenje botnetov.... (pa ne, da se na irc-u pogovarjaš sam s sabo?)

Invictus ::

Nič posebnega.

To sem delal leta 1999. Prepoznava govora.

Sicer je bila bolj slaba, za reda 30 komand, v angleščini z ameriškim naglasom, ampak je delovalo.

Je šla pač tehnika dalje.
"Life is hard; it's even harder when you're stupid."

http://goo.gl/2YuS2x

SeMiNeSanja ::

Invictus je izjavil:

Nič posebnega.

To sem delal leta 1999. Prepoznava govora.

Sicer je bila bolj slaba, za reda 30 komand, v angleščini z ameriškim naglasom, ampak je delovalo.

Je šla pač tehnika dalje.

Tehnika že tehnika - ampak očitno je šla dalje tudi cena? Predvidevam, da ti nisi dobil po 2000€/mesec/uporabnika? Najbrž tudi 200$ ne (če upoštevamo 'nekaj malega' inflacije)...?

popster ::

Cena je produktu primerna.. bi blo pa fajn če bi ti potem dal doktor izpis da bi lahko naštudiral kaj ti je svetoval. Pri težjih stvareh ne razumeš prav dosti, čeprat ti potem ostane v pisni obliki Mayo clinic...

SeMiNeSanja ::

Dokler se narekuje max. 2 uri na dan, se meni zdi zelo vprašljivo, če je cena upravičena - tudi če je morda primerna.

Verzirana tipkarica bi mesečno stala ravno toliko - bi pa lahko tipkala za najmanj dva zdravnika, poleg pa počela še kaj drugega koristnega.

Drugače pa - če bi ponudil zdravniku, da lahko pobaše 2000€ v žep, če bo tipkal sam, bi vsi takoj začeli googlati za pojmom 'tečaj hitrega tipkanja'.

Ob tem, da zdravstvo nonstop jamra, kako nima denarja ne za diagnostično opremo, ne za zdravila, se meni zdi ta investicija zelo sporna.

2x'=2 ::

O tem sem pred leti bral v Monitorju:
http://www.monitor.si/clanek/razumeti-s...

dunda ::

@Enterprise:
Sinteza govora Amebis Govorec - tale vzorec je primer slovenske sinteze govora. Gre za novo verzijo, ki še ni dokončana (torej bodo še izboljšave, pa tudi sam zaključni del še ni narejen). Verzija, ki pa je sicer trenutno v prodaji na Amebisovi strani, pa je nekaj let starejša in občutno slabša. Zato razlika, ki si jo opazil. Za novo verzijo še ni "poljubnih" izvozov.
Razvoj sicer traja že vrsto let (Amebis + IJS) in se sooča s težavami zaradi majhnosti trga.

@vsi:
Razpoznavanje govora pa je še težja zadeva. Nekaj poskusov je v Sloveniji (še najdlje so verjetno na mariborskem FERIju). Bolj kot ne gre za precej omejen nabor glasov, ki jih spozna. Tudi oni se trudijo že vrsto let z razvojem.
Tole v zdravstvu (zanimiv članek v Sobotni prilogi) pa je - vsaj po mojem - Philipsov sistem, ki ga je zlobiral Interexport in so ga dopolnili s posameznimi prilagoditvami. Dela menda solidno, je pa drago kot pes. Podrobnosti sicer ne poznam.
https://www.kacnje.eu

Cacamas ::

SeMiNeSanja je izjavil:

2000/mesec? Pa tolko te pride tipkarica...... ki poleg pisanja narekov zna tudi kavo skuhat (pa še kaj drugega). Očitno ima naše zdravstvo veliiiiiiiiiiiiko denarja?


Očitno ne veš koliko stroškov je z zaposlenimi :)

Irbis ::

Drugače je pa prepoznavalnik za slovenščino bil narejen tudi v projektu https://www.translectures.eu/
Tukaj lahko pogledati, kako dobro deluje: http://helium.ijs.si/lectures_with_tran...

jype ::

SeMiNeSanja> Danes še kdo I R C A ?!?!? Sem mislil, da se to uporablja samo še za krmiljenje botnetov.... (pa ne, da se na irc-u pogovarjaš sam s sabo?)

20:23[freenode] -!- 29 IRC Operators online
20:23[freenode] -!- 58478 channels formed
20:23[freenode] -!- 88834 98793 Current global users 88834, max 98793

stb ::

Irbis je izjavil:

Drugače je pa prepoznavalnik za slovenščino bil narejen tudi v projektu https://www.translectures.eu/
Tukaj lahko pogledati, kako dobro deluje: http://helium.ijs.si/lectures_with_tran...

He, torta štajerščina mu dela pižame :D sicer pa impresivno!

Zgodovina sprememb…

  • spremenil: stb ()

SeMiNeSanja ::

jype je izjavil:

SeMiNeSanja> Danes še kdo I R C A ?!?!? Sem mislil, da se to uporablja samo še za krmiljenje botnetov.... (pa ne, da se na irc-u pogovarjaš sam s sabo?)

20:23[freenode] -!- 29 IRC Operators online
20:23[freenode] -!- 58478 channels formed
20:23[freenode] -!- 88834 98793 Current global users 88834, max 98793

Ko sem nazadnje pogledal na irc.arnes.si, je zadeva izgledala, kot da bo čas, da se jo ugasne, vsaj glede na aktivnost v slovenskih kanalih. Po kanalih 2/3 botov, kar pa je uporabnikov, pa skoraj vsi na idle....beda.

M.B. ::

@dunda: veš mogoče kateri laboratorij na FERI?

To mi je namreč največji problem naših univerz. MIT vem da ima prav blog al nekaj podobnega, kjer se hvalijo z svojimi dosežki pri nas tu pa tam kaj slišiš med novicami v večini pa nič. Pa zagotovo imamo neke uspehe. Kak PR oddelek univerz manjka.

Za te prepoznavalnike, ki delajo zapise iz predavanj pa nisem vedel.

Seveda pa mamo kot majhna država z kompleksnim jezikom problem.
Na Slovenscina.eu je zbrano vse kar obstaja zgleda.

Mogoče bi lahko bila prva faza da se financira kakšen MBrola zvok ali kaj podobnega, bi lahko olajšal starost marsikateremu starostniku, ki ne vidi več dovolj da bi lahko normalno bral, ali pa slepemu. Cena pa tudi ne prevelika. Nekomu je treba plačati da govori besede, ko se definira jezikovni model.
Stvar je potem na voljo na Windowsu in Linuxu.

Za prepoznavo pa za prvo silo Wikipedia + Sphinx, kar nebi bilo tako drago, potem pa če je treba res kaj samo za slovenijo razvit.

Sam se spomnim kakšnih 12-13 let nazaj v muzeju v Bistri nek Linux laptop s KDE, na katerem je bil slovenski TTS, ki je znal brati vremenske napovedi.
Everyone started out as a newbie.
Sadly only a handful ever progress past that point.

Okapi ::

Prepoznavanje govora deluje zelo dobro, če je besednjak dovolj omejen, da ga program v celoti obvlada. Medicinske diagnoze so dovolj standardizirane, da je to mogoče. Pri prostem spisu bi se pa tisti program verjetno precej slabše obnesel. Podobno velja za prevajanje. V Kanadi recimo vremenske napovedi že nekaj časa računalniki prevajajo iz angleščine v francoščino (in obratno).

dunda ::

M.B. je izjavil:

@dunda: veš mogoče kateri laboratorij na FERI?


Ti sporočim.

M.B. je izjavil:

@dunda:
Seveda pa mamo kot majhna država z kompleksnim jezikom problem.
Na Slovenscina.eu je zbrano vse kar obstaja zgleda.


Za večino teh stvari stoji Amebis ... znanje imajo, ni pa dovolj soldov, da bi se financiralo nadaljevanje.
https://www.kacnje.eu

Zgodovina sprememb…

  • spremenil: dunda ()

dunda ::

M.B. je izjavil:

@dunda: veš mogoče kateri laboratorij na FERI?


Mislim, da je Inštitut za elektroniko in telekomunikacije.
https://www.kacnje.eu

kr1ženska ::

OP, članek o sistemu za prepoznavo govora ki ga uporabljajo v UKC-Lj.

Pri slovenskem sistemu za prepoznavo govora je bil poleg financiranja (majhna država, velika investicija), največji problem šumniki, katere ima slovenščina. Ko izgovoriš č, ž, š, običajno v mikrofonu rahlo zašumi, in postane beseda nerazločna. Pred časom sem brala članek, da so na sodišču dosegli že 97% natančnost. V Slo. so pričeli uporabljati sistem v zdravstvu predvsem zato, ker se uporablja veliko latinskih izrazov, in je nekoliko manj šumnikov. (vsak slovar sistema za prepoznavo govora je prilagojen določeni stroki).Na sodiščih so očitno to že kar dobro odpravili tele napake najbrž pa so se tudi nekoliko bolj osredotočili na izšolane govorce (Sodni zapisnikarji - znani tudi kot stenografi) kjer skupaj z posebno masko v kateri so mikrofoni, ki eliminirajo ves hrup iz okolice omogočijo take rezultate.

(V Ameriki obstajajo posebne zasebne šole kjer lahko osvojiš NCRA certifikat. Programi zahtevajo od diplomantov, da ti ujamejo najmanj 225 besed na minuto, obvladat pa morajo tudi nekatere računalniško podprte transkripcije (CAT).. Sodeč po statističnih podatkih Department of Labor, Bureau of Labor Statistics (BLS) so v letu 2006 zaposlili približno 19.000 sodnih zapisnikarjev, v lokalni samoupravi, sodnih poročevalskih agencijah in televizijskih mrežah. Okoli 8 odstotkov sodnih poročevalcev se je samozaposlilo. Plače 45.000 dolarjev in 75.000 dolarjev letno, odvisno kje delajo in koliko ur.)

A Ameriki je šlo zdravstvo še korak naprej. Tam imajo elektronske kartoteke. Ko zdravnik narekuje bolezensko stanje se ta zapisujejo direktno v njegovo kartoteko, ki se shranjujejo na strežnik in so tako podatki ene bolnišnice dostopi v vseh bolnišnicah. Prav tako lahko zdravniki v sistemom narekujejo simptome bolezni pacienta pa jim sistem sam predlaga morebitno bolezen na podlagi njegove zdravstveno kartoteka preteklih bolezenskih stanj.

V telefoniji je sistem nekoliko drugačen. Pa bom kar citirala iz svoje diplomske naloge:
»Ko prvič govorimo po telefonu, ustvarimo na svoji napravi piškotek (neke vrste digitalno oznako). Ko uporabnik izgovori kako besedo, prikličemo vaš osebni jezikovni model iz našega strežnika in ga uporabimo, s čimer ustvarjamo večjo natančnost,« je povedal Dave Grannen, predsednik in izvršni direktor za prepoznavanje govora ter ustvarjalec programske opreme Vlingo, ki ponuja tudi aplikacijo za iPhone. Glasovni model posameznika med drugim vsebuje informacije o njegovem naglasu in edinstven način izgovorjave določenih besed. Strežniki lahko združujejo govorne modele več govornikov, ki imajo podobne poudarke in s tem sistem ustvari izboljšanje natančnosti pri tej populaciji. »Če ste iz Indije in je vaš drugi jezik Vlingo angleščina, sitem prepozna besede presneto dobro. Če ste iz Nemčije in govorite angleško, sistem ne deluje tako dobro,« je povedal Grannan za Tech News Daily. Razlog za slabšo prepoznavo se skriva v tem, da ima Vlingo veliko več indijsko kot nemško govorečih uporabnikov. Posledica tega pa je, da je glasovni model za Indijce na splošno boljši, kot za nemško govoreče osebe.

Sicer pa sistem za prepoznavo govora se v tujini uporablja še pri: letalstvu (bojingi), nekoliko več težav imajo z helikopterji zaradi hrupa ki se ustvarja, Robotika, invalidi za poganjanje njihovih invalidskih vozIčkov ter pri slepih in težje govorečih ljudeh, v avtomobilih-kjer je hup še vedno nekoliko problem.

Še en argument (Star watch. 2010): Sistemi za prepoznavo govora ne bodo nikoli 100% natančni. Navsezadnje, tudi ko se ti pogovarjaš s sočlovekom te ne razume vsega 100%. Po raziskavi naj bi bilo odstopanje med 2-4%.


p.s. Sistem je zelo kompleksan stvar. Izračunava karakteristike izgovorjenih besed, vrjetnosti izgovorjave besed (slovarji, osebni slovarji) itd.. polek tega so še prepreke-prehlad, čustvena stanje ko človek govori drugače, hrupi iz okolice (kaj je krup in kaj je beseda, kaj je tišina? Kaj gre z glasom dol-naglas, pika vejica, samoglasik?? etc.

Luštne stvari :)
Do not take life too seriously. You will never get out of it alive.
Elbert Hubbard

Zgodovina sprememb…

M.B. ::

@dunda: Hvala.

Za stenografijo se lahko uporabi tido Plover, ki je cenejši kot stenografska tipkovnica je pa primerljiv.

What is stenography? It's a phonetic-mnemonic text input system. It's been around since about 1911, and to be a professional stenographer, like me, you basically need a speed of 240 words per minute, with 99.9% accuracy. That means an error or omission about every thousand words or four pages. You can see this old-fashioned steno machine obviously doesn't hook up to a computer. That's from around 1930. Cost about 40.25€ ($50.). This much bigger sort of split, ergonomic steno machine, which is the one I use professionally, costs 3,220.09€ ($4,000.). But this one down here, which just looks like a regular qwerty keyboard, except for some mysterious rectangular keys pasted onto it, costs about 40.25€ ($50) for the keyboard and 16.1€ ($20) for our laser cut steno keys, which we sell through the Plover store. That is the main innovation of Plover, that we're basically cutting the hardware cost from 3,220.09€ ($4,000) down to 40.25€ ($50.).

Iz videa.
Everyone started out as a newbie.
Sadly only a handful ever progress past that point.

DixieFlatline ::

Mogoče zadeva ni več tako nova, ampak opazil sem, da prepoznava govora (slovenščine) sedaj deluje tudi na Androidu (zadnja verzija aplikacije Google Search https://play.google.com/store/apps/deta...

Zadeva deluje povsem zadovoljivo, tako da je uporabna pri nareku SMSov, emailov, ...
The sky above the port was the color of television, tuned to a dead channel.

dunda ::

To je po mojem isto, kot je Google Now na novejših Androidih. Tam pa mislim, da ni slovenščine (je pa slovenčina, kar ni isto 8-)).
Ali na tem starem sistemu (no, čeprav je posodobljen v februarju) je slovenščina podprta?
https://www.kacnje.eu

DixieFlatline ::

Ravno to sem hotel povedati, da Google Now (Google Search app) v zadnji verziji podpira prepoznavo slovenščine.
The sky above the port was the color of television, tuned to a dead channel.

Blop ::

Zdravo,

v službi smo se pogovarjali, da bi nam aplikacija/program ki prepozna govorjene besede in jih zapiše prišla zelo prav. Če se ne motim, v zdravstvu to že uporabljajo. Ali to obstaja tudi za poslovne namene v slovenskem jeziku? Kje lahko kaj povprašam o tem?

M.B. ::

Simpl stvar lahko uporabiš Google Docs v katerem lahko narekuješ tudi v Slovenščini.
Everyone started out as a newbie.
Sadly only a handful ever progress past that point.

mare_ ::

Blop ::

M.B. je izjavil:

Simpl stvar lahko uporabiš Google Docs v katerem lahko narekuješ tudi v Slovenščini.


Wou! Super tole prepozna besede :) Hvala! :)

dunda ::

Za razpoznavo je Nuance ali Google v redu zadeva. Na Androidu čisto uporabno, samo malo počasneje izgovoriš, pa je kul.
Za sintezo govora pa eBralec.
https://www.kacnje.eu

srus ::

Se spominjam, da so pred leti ameriške bolnišnice pošiljale tonske zapise v Indijo, kjer so jih transkribirali lokalci. Šolali so pa te Indijce tako, da so gledali ER in podobne nadaljevanke.

Ne se ne hecam, res je.

Blop ::

Imam zvočni posnetek na diktafonu. Kljub dokaj kvalitetnemu posnetku, Google Docs precej slabo prepozna govorjen tekst. Ali mogoče kdo priporoča kak zastonjski program s katerim bi lahko preprosto uredila zvok do te mere, da ga bo Google Docs čimbolj natančno zapisal?

Zgodovina sprememb…

  • spremenila: Blop ()


Vredno ogleda ...

TemaSporočilaOglediZadnje sporočilo
TemaSporočilaOglediZadnje sporočilo
»

Program govor v text

Oddelek: Loža
9985 (834) Invictus
»

Adobe Voco je 'Photoshop za zvok'

Oddelek: Novice / Ostala programska oprema
389248 (7019) bMozart
»

Google želi v dnevne sobe s Chirpom

Oddelek: Novice / Ostalo
3510036 (7164) poweroff
»

Prepoznavanje govora

Oddelek: Znanost in tehnologija
141892 (1687) shock
»

Razpoznava govora

Oddelek: Loža
101731 (1437) BaRtMaN

Več podobnih tem