Forum » Programska oprema » zaznava pozicije govora v zvočni datoteki
zaznava pozicije govora v zvočni datoteki
c3p0 ::
Imamo daljše zvočne datoteke (tam 5-10h na dan), na njih je posnet dokaj glasen promet, vmes pa se lahko pojavi človeški govor, ki je večinoma tišji od prometa.
Vprašanje je, ali obstaja nek toolkit, ki bi v teh datotekah zaznal kje je govor, npr. na timestampih 1:23:22, 2:45:30 itd. Kaj je povedano, me ne zanima, zanima me le, da je nekdo govoril.
Nekaj sem se igral s Pocketsphinx, a ne deluje dovolj dobro, pa želi angleščino transcribat in hrup večkrat prebere kot neke random angleške besede.
Vprašanje je, ali obstaja nek toolkit, ki bi v teh datotekah zaznal kje je govor, npr. na timestampih 1:23:22, 2:45:30 itd. Kaj je povedano, me ne zanima, zanima me le, da je nekdo govoril.
Nekaj sem se igral s Pocketsphinx, a ne deluje dovolj dobro, pa želi angleščino transcribat in hrup večkrat prebere kot neke random angleške besede.
energetik ::
Čisto laično bi odprl file z Audacity, našel daljši odsek, kjer je samo promet in ga odštel celotnemu posnetku. Če se ne motim, to Audacity zna. Potem bi ti recimo ostali samo še nenavadni dogodki, kot so govor, hupanje, ki bi štrleli iz posnetka. Recimo.
V kakšnem formatu imaš posneto?
V kakšnem formatu imaš posneto?
vires in numeris
c3p0 ::
File se kreira kot mp3, konvert v wav mi ni problem. Problem je, da je zvok prometa precej različen, pač različni tovornjaki, avto pospešuje ipd., nekaj sem se že igral z Audacitiy in Reaperjem, pa mi rezultati niso dovolj dobri.
Speech to text je problem, ker večinoma je podprta le angleščina in nekako najde neke random angleške besede tudi v hrupu, bo potrebno poskusit še kaj druga.
Sem mislil, da imamo že kak deep learning VST, ki bi zadevo znal boljše analizirat, iščem naprej.
Speech to text je problem, ker večinoma je podprta le angleščina in nekako najde neke random angleške besede tudi v hrupu, bo potrebno poskusit še kaj druga.
Sem mislil, da imamo že kak deep learning VST, ki bi zadevo znal boljše analizirat, iščem naprej.
c3p0 ::
Close, but no cigar :) Gre za varnostni sistem, ki ima tudi kamere z mikrofoni in opcijo alarma ob povišani glasnosti. Problem je, da je lokacija glasna in se je alarm konstantno prožil, posledično je zdaj off. Izziv je filtracija vseh zvokov, ki niso govor in proženje alarma le v teh primerih.
A trenutno sem še v fazi detektirat govor na predposnetem posnetku, detekcija (skoraj) v živo pa bo next step (obesit se na stream iz kamere), če kdaj projektič pride tako daleč.
A trenutno sem še v fazi detektirat govor na predposnetem posnetku, detekcija (skoraj) v živo pa bo next step (obesit se na stream iz kamere), če kdaj projektič pride tako daleč.
energetik ::
File se kreira kot mp3, konvert v wav mi ni problem. Problem je, da je zvok prometa precej različen, pač različni tovornjaki, avto pospešuje ipd., nekaj sem se že igral z Audacitiy in Reaperjem, pa mi rezultati niso dovolj dobri.Jah če je hrup zelo različen, potem je problem. Sem pa denimo z Audacity odlično sfiltriral šum kasetofona, ko sem snemal muzko s kaset, odštel sem šum iz prvega odseka ko še ni glasbe.
Za tvoj primer bo očitno potrebno nekaj več, prepoznavanje slo besed ali kaj podobnega.
vires in numeris
link_up ::
To bi kaksnega fourierja pognal, da ti spice pokaze, potem pa frekvencni razpon za govor isces? Napake gotovo bojo, lahko pa semplas veckrat in potem bos scasoma dobival bolj in bolj pravilne podatke?
In and Out
residual ::
poskusiš izolirat zvok od prometnega šuma (hrupa)... kaksen machine leraning s konvolucijsko NN ...
ali če imaš več sourcev - prostorsko razporejenih kamer z zajetim zvokom, lahko poskusiš Blind source separation (BSS) tehnike (ICA coctail party problem) in en izmed izluščenih zvokov bo govor. Seveda real time v praksi bo jeba ;)
ali če imaš več sourcev - prostorsko razporejenih kamer z zajetim zvokom, lahko poskusiš Blind source separation (BSS) tehnike (ICA coctail party problem) in en izmed izluščenih zvokov bo govor. Seveda real time v praksi bo jeba ;)
Jure14 ::
DamijanD ::
Pozabil sem točno kdo ima to: ampak razvili so sistem, ki iz poljubne pesmi izlušči karkoli, recimo samo kitaro, samo vokal, ipd... Vem, da je ML v ozadju. Mislim, da se da brezplačno ene tri datoteke preizkusit. Mogoče bi bilo za preverit.
TheBlueOne ::
Ce potrebujes samo funkcijo in ne razvijas tehnologije, potem morda filtriraj skozi katero od noise canceling naprav, kjer lahko izoliras vokal. Je dosti takih slusalk.
Ce bo datoteka bolj cista bo dosti lazje. Je pa taka uporaba verjetno izven dovoljene uporabe izdelka.
Ce bo datoteka bolj cista bo dosti lazje. Je pa taka uporaba verjetno izven dovoljene uporabe izdelka.
srus ::
Recurrent neural networks z Long short term metodo. Jaz sem uporabil tistega iz Tensorflowa.
Jirzy ::
Kakšen pa je frekvenčni spekter, se da ločit? Lahko poskusiš v Reaperju s plugini.
Lahko spremeniš pozicijo (in mogoče tip) mikrofona?
Lahko spremeniš pozicijo (in mogoče tip) mikrofona?
c3p0 ::
Ne, mikrofon je fiksen. No, dalo se bi v teoriji, ampak ne bi šel v to. Neka huda kvaliteta mikrofona gotovo ni, ker gre za par 100EUR kamere, kvaliteten mic je sam vreden več kot to.
S filtri sem se že igral, morda premalo. Se da precej zmanjšat glasnost prometa, a mi precej popači tudi govor, četudi sem v freq. range govora malo posegal.
Hvala za ideje, mogoče mi pa kaj uspe z NN. Ključno je ugotovit kje se nahaja govor.
>> Pozabil sem točno kdo ima to: ampak razvili so sistem, ki iz poljubne pesmi izlušči karkoli, recimo samo kitaro, samo vokal, ipd... Vem, da je ML v ozadju. Mislim, da se da brezplačno ene tri datoteke preizkusit. Mogoče bi bilo za preverit.
A to? https://songtostems.com/
Impresivno, a mora bit nekaj kar lahko lokalno uporabljam.
S filtri sem se že igral, morda premalo. Se da precej zmanjšat glasnost prometa, a mi precej popači tudi govor, četudi sem v freq. range govora malo posegal.
Hvala za ideje, mogoče mi pa kaj uspe z NN. Ključno je ugotovit kje se nahaja govor.
>> Pozabil sem točno kdo ima to: ampak razvili so sistem, ki iz poljubne pesmi izlušči karkoli, recimo samo kitaro, samo vokal, ipd... Vem, da je ML v ozadju. Mislim, da se da brezplačno ene tri datoteke preizkusit. Mogoče bi bilo za preverit.
A to? https://songtostems.com/
Impresivno, a mora bit nekaj kar lahko lokalno uporabljam.
Zgodovina sprememb…
- spremenil: c3p0 ()
DamijanD ::
Možno, da je to ta songtostems - saj ni bila ideja, da bi to uporabljal. Ampak, če ti to da OK rezultat, potem se splača iti v isti način reševanja problema.
andmer99 ::
Trenutno nimam časa za kaj več, zato na kratko: pogooglaj DCase Challenge iz različnih let. Tam so se šli takšne zadeve, ponavadi je na voljo baseline sistem, ki bi lahko bil za tebe dovolj. Pogosto pa so potem objavljena tudi izboljšanja.
Aja, pa razne filtre pozabi, to moraš rešiti na nivoju časovne segmentacije s kakšno UI ali pa ML metodo, ki je tudi lahko čisto dovolj dobra.
Aja, pa razne filtre pozabi, to moraš rešiti na nivoju časovne segmentacije s kakšno UI ali pa ML metodo, ki je tudi lahko čisto dovolj dobra.
Zgodovina sprememb…
- spremenil: andmer99 ()
Vredno ogleda ...
Tema | Ogledi | Zadnje sporočilo | |
---|---|---|---|
Tema | Ogledi | Zadnje sporočilo | |
» | potrebujem program za snemanje vokalovOddelek: Pomoč in nasveti | 5624 (4649) | Ijus |
» | Domači snemalni studioOddelek: Loža | 3584 (1038) | midiboss |
» | Pri snemanju govora prihaja do šumovOddelek: Pomoč in nasveti | 1255 (998) | RatedR |
» | Team Speak posneti pogovori, predelava, kako?Oddelek: Programska oprema | 1752 (1494) | pegasus |
» | Snemanje klaviatureOddelek: Zvok in slika | 1263 (1063) | dkrast |