» »

zaznava pozicije govora v zvočni datoteki

zaznava pozicije govora v zvočni datoteki

c3p0 ::

Imamo daljše zvočne datoteke (tam 5-10h na dan), na njih je posnet dokaj glasen promet, vmes pa se lahko pojavi človeški govor, ki je večinoma tišji od prometa.

Vprašanje je, ali obstaja nek toolkit, ki bi v teh datotekah zaznal kje je govor, npr. na timestampih 1:23:22, 2:45:30 itd. Kaj je povedano, me ne zanima, zanima me le, da je nekdo govoril.

Nekaj sem se igral s Pocketsphinx, a ne deluje dovolj dobro, pa želi angleščino transcribat in hrup večkrat prebere kot neke random angleške besede.

energetik ::

Čisto laično bi odprl file z Audacity, našel daljši odsek, kjer je samo promet in ga odštel celotnemu posnetku. Če se ne motim, to Audacity zna. Potem bi ti recimo ostali samo še nenavadni dogodki, kot so govor, hupanje, ki bi štrleli iz posnetka. Recimo.
V kakšnem formatu imaš posneto?
vires in numeris

TheBlueOne ::

Verjetno najlazje kaksen speech to text program, ki dela timestampe.

c3p0 ::

File se kreira kot mp3, konvert v wav mi ni problem. Problem je, da je zvok prometa precej različen, pač različni tovornjaki, avto pospešuje ipd., nekaj sem se že igral z Audacitiy in Reaperjem, pa mi rezultati niso dovolj dobri.

Speech to text je problem, ker večinoma je podprta le angleščina in nekako najde neke random angleške besede tudi v hrupu, bo potrebno poskusit še kaj druga.

Sem mislil, da imamo že kak deep learning VST, ki bi zadevo znal boljše analizirat, iščem naprej.

Vesoljc ::

prisluskujes ne? :)
Abnormal behavior of abnormal brain makes me normal...

c3p0 ::

Close, but no cigar :) Gre za varnostni sistem, ki ima tudi kamere z mikrofoni in opcijo alarma ob povišani glasnosti. Problem je, da je lokacija glasna in se je alarm konstantno prožil, posledično je zdaj off. Izziv je filtracija vseh zvokov, ki niso govor in proženje alarma le v teh primerih.

A trenutno sem še v fazi detektirat govor na predposnetem posnetku, detekcija (skoraj) v živo pa bo next step (obesit se na stream iz kamere), če kdaj projektič pride tako daleč.

energetik ::

c3p0 je izjavil:

File se kreira kot mp3, konvert v wav mi ni problem. Problem je, da je zvok prometa precej različen, pač različni tovornjaki, avto pospešuje ipd., nekaj sem se že igral z Audacitiy in Reaperjem, pa mi rezultati niso dovolj dobri.
Jah če je hrup zelo različen, potem je problem. Sem pa denimo z Audacity odlično sfiltriral šum kasetofona, ko sem snemal muzko s kaset, odštel sem šum iz prvega odseka ko še ni glasbe.

Za tvoj primer bo očitno potrebno nekaj več, prepoznavanje slo besed ali kaj podobnega.
vires in numeris

link_up ::

To bi kaksnega fourierja pognal, da ti spice pokaze, potem pa frekvencni razpon za govor isces? Napake gotovo bojo, lahko pa semplas veckrat in potem bos scasoma dobival bolj in bolj pravilne podatke?
In and Out

residual ::

poskusiš izolirat zvok od prometnega šuma (hrupa)... kaksen machine leraning s konvolucijsko NN ...

ali če imaš več sourcev - prostorsko razporejenih kamer z zajetim zvokom, lahko poskusiš Blind source separation (BSS) tehnike (ICA coctail party problem) in en izmed izluščenih zvokov bo govor. Seveda real time v praksi bo jeba ;)

b3D_950 ::

Zdaj ko je mir, jemo samo krompir.

Jure14 ::

c3p0 je izjavil:

Gre za varnostni sistem, ki ima tudi kamere z mikrofoni in opcijo alarma ob povišani glasnosti.

Lopovi so ponavadi tiho.
A ni bolj enostavno, da ti kamera detektira ljudi? Ki pa lahko dogovrijo ali pa ne.

DamijanD ::

Pozabil sem točno kdo ima to: ampak razvili so sistem, ki iz poljubne pesmi izlušči karkoli, recimo samo kitaro, samo vokal, ipd... Vem, da je ML v ozadju. Mislim, da se da brezplačno ene tri datoteke preizkusit. Mogoče bi bilo za preverit.

TheBlueOne ::

Ce potrebujes samo funkcijo in ne razvijas tehnologije, potem morda filtriraj skozi katero od noise canceling naprav, kjer lahko izoliras vokal. Je dosti takih slusalk.

Ce bo datoteka bolj cista bo dosti lazje. Je pa taka uporaba verjetno izven dovoljene uporabe izdelka. :)

srus ::

Recurrent neural networks z Long short term metodo. Jaz sem uporabil tistega iz Tensorflowa.

Jirzy ::

Kakšen pa je frekvenčni spekter, se da ločit? Lahko poskusiš v Reaperju s plugini.

Lahko spremeniš pozicijo (in mogoče tip) mikrofona?

c3p0 ::

Ne, mikrofon je fiksen. No, dalo se bi v teoriji, ampak ne bi šel v to. Neka huda kvaliteta mikrofona gotovo ni, ker gre za par 100EUR kamere, kvaliteten mic je sam vreden več kot to.

S filtri sem se že igral, morda premalo. Se da precej zmanjšat glasnost prometa, a mi precej popači tudi govor, četudi sem v freq. range govora malo posegal.

Hvala za ideje, mogoče mi pa kaj uspe z NN. Ključno je ugotovit kje se nahaja govor.

>> Pozabil sem točno kdo ima to: ampak razvili so sistem, ki iz poljubne pesmi izlušči karkoli, recimo samo kitaro, samo vokal, ipd... Vem, da je ML v ozadju. Mislim, da se da brezplačno ene tri datoteke preizkusit. Mogoče bi bilo za preverit.

A to? https://songtostems.com/

Impresivno, a mora bit nekaj kar lahko lokalno uporabljam.

Zgodovina sprememb…

  • spremenil: c3p0 ()

DamijanD ::

Možno, da je to ta songtostems - saj ni bila ideja, da bi to uporabljal. Ampak, če ti to da OK rezultat, potem se splača iti v isti način reševanja problema.

andmer99 ::

Trenutno nimam časa za kaj več, zato na kratko: pogooglaj DCase Challenge iz različnih let. Tam so se šli takšne zadeve, ponavadi je na voljo baseline sistem, ki bi lahko bil za tebe dovolj. Pogosto pa so potem objavljena tudi izboljšanja.

Aja, pa razne filtre pozabi, to moraš rešiti na nivoju časovne segmentacije s kakšno UI ali pa ML metodo, ki je tudi lahko čisto dovolj dobra.

Zgodovina sprememb…

  • spremenil: andmer99 ()

c3p0 ::

Zelo zanimiva vsebina tudi brez tega problema, hvala.


Vredno ogleda ...

TemaSporočilaOglediZadnje sporočilo
TemaSporočilaOglediZadnje sporočilo
»

potrebujem program za snemanje vokalov

Oddelek: Pomoč in nasveti
455624 (4649) Ijus
»

Domači snemalni studio

Oddelek: Loža
123585 (1039) midiboss
»

Pri snemanju govora prihaja do šumov

Oddelek: Pomoč in nasveti
111255 (998) RatedR
»

Team Speak posneti pogovori, predelava, kako?

Oddelek: Programska oprema
121752 (1494) pegasus
»

Snemanje klaviature

Oddelek: Zvok in slika
81263 (1063) dkrast

Več podobnih tem