C++ voice input @ Slo-Tech

Forum » Programiranje »
C++ voice input

C++ voice input

urg :: 17. apr 2014, 16:32

C++ spoznavam šele nekaj mesecev (kakor znese) in se srečavam z raznimi vprašanji...
torej zagoovo poznate razne programe in aplikacije, s katerimi se lahko pogovarjaš. Recimo iPhonu lahko le ukažeš kaj naj naredi /tell me somethnik about, call ...). Torej tako sem se odločil narediti nekaj takega tudi za moj računalnik, ampak seveda ne v taki razsežnosti.
Rad bi dodal le majhno glasovno bazo, recimo odpri mi officev dokument fime dokumenta] , odpri mi sliko oz. film z tem in tem predvajalnikom, odpri mi crome.

Nekako sem že naredil sistem za odpiranje željenega, zdaj hpa hočem narediti sistem, ki bo iz inputa prebral glas, ga po možnosti spremenil v tekst, ter ga (že narejenemu) sistemu, ki bo ukaz izvršil, oz ugotovil,da ga ni v bazi podatkov.
torej potrebujem le sistem ki bo tistih nekaj ukazov lahko spremenil v primerno obliko za drig sistem.

delovanje programa:
program zazna glas (recimo: "PEPE, ODPRI MI GOOGLE CHROME."). Program Pepe torej zvok prepozna, ter prepozna besedo Pepe, besedno zvezo odpri mi, in zadnji del besede in odpre aplikacijo z imenom google chrome (v bazi podfatkov je zapisano da je to chrome.exe).
TOREJ, PEPE, ODPRI MI pomeni da bo pšrogram moral nekaj odpreti, in ime tega bo sledilo za tem.

spremenilo: urg (17. apr 2014 ob 16:38)

Yacked2 :: 17. apr 2014, 17:14

urg je 17. apr 2014 ob 16:32 izjavil:

C++ spoznavam šele nekaj mesecev (kakor znese) in se srečavam z raznimi vprašanji...
torej zagoovo poznate razne programe in aplikacije, s katerimi se lahko pogovarjaš. Recimo iPhonu lahko le ukažeš kaj naj naredi /tell me somethnik about, call ...). Torej tako sem se odločil narediti nekaj takega tudi za moj računalnik, ampak seveda ne v taki razsežnosti.
Rad bi dodal le majhno glasovno bazo, recimo odpri mi officev dokument fime dokumenta] , odpri mi sliko oz. film z tem in tem predvajalnikom, odpri mi crome.

Nekako sem že naredil sistem za odpiranje željenega, zdaj hpa hočem narediti sistem, ki bo iz inputa prebral glas, ga po možnosti spremenil v tekst, ter ga (že narejenemu) sistemu, ki bo ukaz izvršil, oz ugotovil,da ga ni v bazi podatkov.
torej potrebujem le sistem ki bo tistih nekaj ukazov lahko spremenil v primerno obliko za drig sistem.

delovanje programa:
program zazna glas (recimo: "PEPE, ODPRI MI GOOGLE CHROME."). Program Pepe torej zvok prepozna, ter prepozna besedo Pepe, besedno zvezo odpri mi, in zadnji del besede in odpre aplikacijo z imenom google chrome (v bazi podfatkov je zapisano da je to chrome.exe).
TOREJ, PEPE, ODPRI MI pomeni da bo pšrogram moral nekaj odpreti, in ime tega bo sledilo za tem.

Za to kar želiš doseči ti, bo treba malo več kot nekaj mesecev.

Korak naprej ni vedno ustrezen...sploh če si na robu prepada!

tripsy :: 18. apr 2014, 00:30

Zanimiva izbira projekta za začetnika.

Posnami nabor ukazov, zvok pretvori v bite (do sem je trivialno) slednje shrani v bazo. Sedaj enako narediš z podajanjem ukaza in sicer na mikrofonu poslušaš dokler oseba govori to lahko kontroliraš z GUI gumbom ali pa tako za izključuješ (backgound noise). Ko je ukaz izvršen pretvoriš audio v bite in nato narediš query v svoji bazi za podoben pattern bitov tu bi ti super pomagal če bi bite posnetkov hranil v strukturi kot je TRIE Drevo.

Problem, ki ga boš imel je zajemanje zvoka tu boš moral uporabit eno od knjižnjic portaudio, directsound, fmod itd..

Zgodovina sprememb…

spremenilo: tripsy (18. apr 2014 ob 00:31)

Vesoljc :: 18. apr 2014, 08:37

tripsy je 18. apr 2014 ob 00:30 izjavil:

nato narediš query v svoji bazi za podoben pattern bitov

bit pattern ti ne bo nic pomagal, ce hoces ugotovit "podobnost" moras analizirat zvocni zapis.

@OP
imho je bolje da vzames kak open voice recognition sdk (ce najdes kako tako, ki ima dobro podporo za slovenski jezik, ce to rabis seveda).

Abnormal behavior of abnormal brain makes me normal...

tripsy :: 18. apr 2014, 13:37

Vesoljc je 18. apr 2014 ob 08:37 izjavil:

tripsy je 18. apr 2014 ob 00:30 izjavil:
nato narediš query v svoji bazi za podoben pattern bitov

bit pattern ti ne bo nic pomagal, ce hoces ugotovit "podobnost" moras analizirat zvocni zapis.

@OP
imho je bolje da vzames kak open voice recognition sdk (ce najdes kako tako, ki ima dobro podporo za slovenski jezik, ce to rabis seveda).

Um kaj ti nebo pomagal... Vzames zvocni zapis v bitih nato pa primerjas bite zajetega zvocnega zapisa z tistimi shranjenimi v bazi. Primerjas po segmentih in tistega, ki ima najvec segmentov podobnih potegnes ven. Podobno kot pri analogni telefoniji...

Sploh pa voice recognition sdk ? nima smisla vzemat za mali projekt upravem sploh nima smisla ga uporabit tle. Itak ma svojo bazo z tistimi parimi zvocnimi zapisi v bitih vse kar potrebuje je en API/LIB za zajemanje zvoka in to je to.

Randomness :: 18. apr 2014, 13:42

tripsy je 18. apr 2014 ob 13:37 izjavil:

Um kaj ti nebo pomagal... Vzames zvocni zapis v bitih nato pa primerjas bite zajetega zvocnega zapisa z tistimi shranjenimi v bazi. Primerjas po segmentih in tistega, ki ima najvec segmentov podobnih potegnes ven. Podobno kot pri analogni telefoniji...

Sanja svinja ...

urg :: 19. apr 2014, 11:15

mho je bolje da vzames kak open voice recognition sdk (ce najdes kako tako, ki ima dobro podporo za slovenski jezik, ce to rabis seveda).

se mi zdi dobra ideja... kšn primer sdkja?

našel sem nek voce
ga kdo pozna?

Zgodovina sprememb…

spremenilo: urg (19. apr 2014 ob 11:26)

DOOM_er :: 19. apr 2014, 19:47

tripsy je 18. apr 2014 ob 13:37 izjavil:

Vesoljc je 18. apr 2014 ob 08:37 izjavil:
tripsy je 18. apr 2014 ob 00:30 izjavil:
nato narediš query v svoji bazi za podoben pattern bitov

bit pattern ti ne bo nic pomagal, ce hoces ugotovit "podobnost" moras analizirat zvocni zapis.

@OP
imho je bolje da vzames kak open voice recognition sdk (ce najdes kako tako, ki ima dobro podporo za slovenski jezik, ce to rabis seveda).

Um kaj ti nebo pomagal... Vzames zvocni zapis v bitih nato pa primerjas bite zajetega zvocnega zapisa z tistimi shranjenimi v bazi. Primerjas po segmentih in tistega, ki ima najvec segmentov podobnih potegnes ven. Podobno kot pri analogni telefoniji...

Sploh pa voice recognition sdk ? nima smisla vzemat za mali projekt upravem sploh nima smisla ga uporabit tle. Itak ma svojo bazo z tistimi parimi zvocnimi zapisi v bitih vse kar potrebuje je en API/LIB za zajemanje zvoka in to je to.

Good luck with that, oziroma bolje rečeno god luck with that. Ni tako enostavno, če ne bi se najbrž z računalniki pogovarjal že vsaj 20 let.

Robots will steal your job. But that's OK

urg :: 20. apr 2014, 10:04

ok, odločm se za VOCE . (open voice recognition sdk, kot ste mi rekl).
in zej, zgleda lahka knižnca, samo, kko jo setupat?
Uporablam dev cpp, in sm dal lib fajle v lib mapo v dev cpp mapi, include fiajle (voce.h) pa v include mapo v dev cpp mapi. napišem en lahk program za probo... in morje napak pr prevajanu.
KODA:

#include "voce.h"
#include <iostream>
int main(){
    std::cout << "blabla";
    // tole je copy iz voce strani
    while (voce::getRecognizerQueueSize() > 0)
{
      std::string s = voce::popRecognizedString();
      std::cout << "You said: " << s << std::endl;
}
}

Kšna ideja, koko bi to popravu?
Al pa še kšn open voice recognition sdk, ka dela?
P.S.: tole je glavna stran od VOCE

Vesoljc :: 20. apr 2014, 21:44

v linker nastavitvah moras dodat lib-e

Abnormal behavior of abnormal brain makes me normal...

Isotropic :: 21. apr 2014, 05:58

raje za zacetek naredi kaksen torrent client skupaj s GUI (QT)

Vredno ogleda ...

	Tema	Sporočila	Ogledi	Zadnje sporočilo
	Tema	Sporočila	Ogledi	Zadnje sporočilo
»	SLO sinhronizirane risanke (strani: 1 2 ) Dekinio Oddelek: Loža	53	19232 (9465)	Tidule 24. jan 2024 03:33:27
»	Adobe Voco je 'Photoshop za zvok' McHusch Oddelek: Novice / Ostala programska oprema	38	11185 (8956)	bMozart 8. nov 2016 21:43:59
»	Samsung predstavil novo pametno uro Gear S2 McHusch Oddelek: Novice / Android	12	11181 (8186)	branc 29. nov 2015 18:58:56
»	Natal za 150 dolarjev? McHusch Oddelek: Novice / Igre	14	6045 (4737)	roli 31. maj 2010 20:25:15

Več podobnih tem

Zadnje novice

Zadnji članki

Išči:

Forum » Programiranje »
C++ voice input

C++ voice input

C++ voice input

urg :: 17. apr 2014, 16:32

Yacked2 :: 17. apr 2014, 17:14

tripsy :: 18. apr 2014, 00:30

Vesoljc :: 18. apr 2014, 08:37

tripsy :: 18. apr 2014, 13:37

Randomness :: 18. apr 2014, 13:42

urg :: 19. apr 2014, 11:15

DOOM_er :: 19. apr 2014, 19:47

urg :: 20. apr 2014, 10:04

Vesoljc :: 20. apr 2014, 21:44

Isotropic :: 21. apr 2014, 05:58

Vredno ogleda ...

SLO sinhronizirane risanke (strani: 1 2 )

Adobe Voco je 'Photoshop za zvok'

Samsung predstavil novo pametno uro Gear S2

Natal za 150 dolarjev?

Forum » Programiranje » C++ voice input

C++ voice input

C++ voice input

urg :: 17. apr 2014, 16:32

Yacked2 :: 17. apr 2014, 17:14

tripsy :: 18. apr 2014, 00:30

Vesoljc :: 18. apr 2014, 08:37

tripsy :: 18. apr 2014, 13:37

Randomness :: 18. apr 2014, 13:42

urg :: 19. apr 2014, 11:15

DOOM_er :: 19. apr 2014, 19:47

urg :: 20. apr 2014, 10:04

Vesoljc :: 20. apr 2014, 21:44

Isotropic :: 21. apr 2014, 05:58

Vredno ogleda ...

SLO sinhronizirane risanke (strani: 1 2 )

Forum » Programiranje »
C++ voice input