zaznava pozicije govora v zvočni datoteki @ Slo-Tech

Forum » Programska oprema »
zaznava pozicije govora v zvočni datoteki

zaznava pozicije govora v zvočni datoteki

c3p0 :: 27. sep 2022, 08:58

Imamo daljše zvočne datoteke (tam 5-10h na dan), na njih je posnet dokaj glasen promet, vmes pa se lahko pojavi človeški govor, ki je večinoma tišji od prometa.

Vprašanje je, ali obstaja nek toolkit, ki bi v teh datotekah zaznal kje je govor, npr. na timestampih 1:23:22, 2:45:30 itd. Kaj je povedano, me ne zanima, zanima me le, da je nekdo govoril.

Nekaj sem se igral s Pocketsphinx, a ne deluje dovolj dobro, pa želi angleščino transcribat in hrup večkrat prebere kot neke random angleške besede.

energetik :: 27. sep 2022, 09:08

Čisto laično bi odprl file z Audacity, našel daljši odsek, kjer je samo promet in ga odštel celotnemu posnetku. Če se ne motim, to Audacity zna. Potem bi ti recimo ostali samo še nenavadni dogodki, kot so govor, hupanje, ki bi štrleli iz posnetka. Recimo.
V kakšnem formatu imaš posneto?

vires in numeris

TheBlueOne :: 27. sep 2022, 09:19

Verjetno najlazje kaksen speech to text program, ki dela timestampe.

c3p0 :: 27. sep 2022, 09:26

File se kreira kot mp3, konvert v wav mi ni problem. Problem je, da je zvok prometa precej različen, pač različni tovornjaki, avto pospešuje ipd., nekaj sem se že igral z Audacitiy in Reaperjem, pa mi rezultati niso dovolj dobri.

Speech to text je problem, ker večinoma je podprta le angleščina in nekako najde neke random angleške besede tudi v hrupu, bo potrebno poskusit še kaj druga.

Sem mislil, da imamo že kak deep learning VST, ki bi zadevo znal boljše analizirat, iščem naprej.

Vesoljc :: 27. sep 2022, 09:27

prisluskujes ne? :)

Abnormal behavior of abnormal brain makes me normal...

c3p0 :: 27. sep 2022, 09:46

Close, but no cigar :) Gre za varnostni sistem, ki ima tudi kamere z mikrofoni in opcijo alarma ob povišani glasnosti. Problem je, da je lokacija glasna in se je alarm konstantno prožil, posledično je zdaj off. Izziv je filtracija vseh zvokov, ki niso govor in proženje alarma le v teh primerih.

A trenutno sem še v fazi detektirat govor na predposnetem posnetku, detekcija (skoraj) v živo pa bo next step (obesit se na stream iz kamere), če kdaj projektič pride tako daleč.

energetik :: 27. sep 2022, 09:51

c3p0 je 27. sep 2022 ob 09:26 izjavil:

File se kreira kot mp3, konvert v wav mi ni problem. Problem je, da je zvok prometa precej različen, pač različni tovornjaki, avto pospešuje ipd., nekaj sem se že igral z Audacitiy in Reaperjem, pa mi rezultati niso dovolj dobri.

Jah če je hrup zelo različen, potem je problem. Sem pa denimo z Audacity odlično sfiltriral šum kasetofona, ko sem snemal muzko s kaset, odštel sem šum iz prvega odseka ko še ni glasbe.

Za tvoj primer bo očitno potrebno nekaj več, prepoznavanje slo besed ali kaj podobnega.

vires in numeris

link_up :: 27. sep 2022, 10:17

To bi kaksnega fourierja pognal, da ti spice pokaze, potem pa frekvencni razpon za govor isces? Napake gotovo bojo, lahko pa semplas veckrat in potem bos scasoma dobival bolj in bolj pravilne podatke?

In and Out

residual :: 27. sep 2022, 10:42

poskusiš izolirat zvok od prometnega šuma (hrupa)... kaksen machine leraning s konvolucijsko NN ...

ali če imaš več sourcev - prostorsko razporejenih kamer z zajetim zvokom, lahko poskusiš Blind source separation (BSS) tehnike (ICA coctail party problem) in en izmed izluščenih zvokov bo govor. Seveda real time v praksi bo jeba ;)

b3D_950 :: 27. sep 2022, 10:46

Zdaj ko je mir, jemo samo krompir.

Jure14 :: 27. sep 2022, 10:59

c3p0 je 27. sep 2022 ob 09:46 izjavil:

Gre za varnostni sistem, ki ima tudi kamere z mikrofoni in opcijo alarma ob povišani glasnosti.

Lopovi so ponavadi tiho.
A ni bolj enostavno, da ti kamera detektira ljudi? Ki pa lahko dogovrijo ali pa ne.

DamijanD :: 27. sep 2022, 13:20

Pozabil sem točno kdo ima to: ampak razvili so sistem, ki iz poljubne pesmi izlušči karkoli, recimo samo kitaro, samo vokal, ipd... Vem, da je ML v ozadju. Mislim, da se da brezplačno ene tri datoteke preizkusit. Mogoče bi bilo za preverit.

TheBlueOne :: 27. sep 2022, 13:34

Ce potrebujes samo funkcijo in ne razvijas tehnologije, potem morda filtriraj skozi katero od noise canceling naprav, kjer lahko izoliras vokal. Je dosti takih slusalk.

Ce bo datoteka bolj cista bo dosti lazje. Je pa taka uporaba verjetno izven dovoljene uporabe izdelka.

srus :: 27. sep 2022, 21:44

Recurrent neural networks z Long short term metodo. Jaz sem uporabil tistega iz Tensorflowa.

Jirzy :: 27. sep 2022, 21:49

Kakšen pa je frekvenčni spekter, se da ločit? Lahko poskusiš v Reaperju s plugini.

Lahko spremeniš pozicijo (in mogoče tip) mikrofona?

c3p0 :: 28. sep 2022, 07:40

Ne, mikrofon je fiksen. No, dalo se bi v teoriji, ampak ne bi šel v to. Neka huda kvaliteta mikrofona gotovo ni, ker gre za par 100EUR kamere, kvaliteten mic je sam vreden več kot to.

S filtri sem se že igral, morda premalo. Se da precej zmanjšat glasnost prometa, a mi precej popači tudi govor, četudi sem v freq. range govora malo posegal.

Hvala za ideje, mogoče mi pa kaj uspe z NN. Ključno je ugotovit kje se nahaja govor.

>> Pozabil sem točno kdo ima to: ampak razvili so sistem, ki iz poljubne pesmi izlušči karkoli, recimo samo kitaro, samo vokal, ipd... Vem, da je ML v ozadju. Mislim, da se da brezplačno ene tri datoteke preizkusit. Mogoče bi bilo za preverit.

A to? https://songtostems.com/

Impresivno, a mora bit nekaj kar lahko lokalno uporabljam.

Zgodovina sprememb…

spremenil: c3p0 (28. sep 2022 ob 07:41)

DamijanD :: 28. sep 2022, 10:14

Možno, da je to ta songtostems - saj ni bila ideja, da bi to uporabljal. Ampak, če ti to da OK rezultat, potem se splača iti v isti način reševanja problema.

andmer99 :: 28. sep 2022, 18:51

Trenutno nimam časa za kaj več, zato na kratko: pogooglaj DCase Challenge iz različnih let. Tam so se šli takšne zadeve, ponavadi je na voljo baseline sistem, ki bi lahko bil za tebe dovolj. Pogosto pa so potem objavljena tudi izboljšanja.

Aja, pa razne filtre pozabi, to moraš rešiti na nivoju časovne segmentacije s kakšno UI ali pa ML metodo, ki je tudi lahko čisto dovolj dobra.

Zgodovina sprememb…

spremenil: andmer99 (28. sep 2022 ob 18:54)

c3p0 :: 28. sep 2022, 20:47

Zelo zanimiva vsebina tudi brez tega problema, hvala.

Vredno ogleda ...

	Tema	Sporočila	Ogledi	Zadnje sporočilo
	Tema	Sporočila	Ogledi	Zadnje sporočilo
»	potrebujem program za snemanje vokalov Ijus Oddelek: Pomoč in nasveti	45	7546 (6571)	Ijus 24. apr 2022 07:40:38
»	Domači snemalni studio sci3nc3 Oddelek: Loža	12	4247 (1701)	midiboss 8. feb 2018 18:40:21
»	Pri snemanju govora prihaja do šumov Skarje Oddelek: Pomoč in nasveti	11	1617 (1360)	RatedR 2. maj 2017 22:48:57
»	Team Speak posneti pogovori, predelava, kako? Rokomah Oddelek: Programska oprema	12	2256 (1998)	pegasus 27. apr 2016 14:45:15
»	Snemanje klaviature sarak1990 Oddelek: Zvok in slika	8	1509 (1309)	dkrast 6. okt 2013 11:54:18

Več podobnih tem

Zadnje novice

Zadnji članki

Išči:

Forum » Programska oprema »
zaznava pozicije govora v zvočni datoteki

zaznava pozicije govora v zvočni datoteki