Strávil jsem spoustu času zkoumáním článků a poměrně často myslím na předmět článku, při chůzi na vlakové nádraží nebo při práci obecně.
Jednoho večera při procházce 1,5 mil na stanici z mé práce jsem si myslel, že "by nebylo dobré, kdybych mohl nahrát to, co jsem chtěl říct, a pak ji nechal automaticky přepisovat do textového souboru, který bych mohl později upravovat a formátovat" .
Strávil jsem mnoho dlouhých hodin při pohledu na různé možnosti, které jsou k dispozici pro rozpoznávání a diktování hlasu, včetně nahrávání přímo přes mikrofon pomocí softwaru pro diktování v Linuxu, nahrávání souboru do formátu MP3 nebo WAV a jeho převod pomocí příkazového řádku, stejně jako pomocí prohlížeče Chrome a aplikací pro Android.
Tento článek zdůrazňuje mé poznatky po dnech tvrdé práce.
Možnosti Linux
Snažit se najít software pro diktování a rozpoznávání hlasu v Linuxu není tak snadné, jak by to mohlo být a dostupné možnosti nejsou tak chytré.
Tato stránka wikipedie obsahuje seznam možných možností, včetně CMF Sphinx, Julius a Simon.
Používám SparkyLinux, který je v současné době založen na testování Debianu, a mohu vám říci, že jediný balík rozpoznávání hlasu dostupný v úložištích je Sphinx.
Nativní programy Linuxu, které jsem nakonec zkoušel, byly PocketSphinx, který jsem použil ke konverzi souborů WAV na text a Freespeech-VR, což je aplikace typu python, která vám umožňuje nahrávat přímo z mikrofonu.
Také jsem vyzkoušel několik aplikací Chrome včetně hlasových záznamů VoiceNote II a Dictanote.
Nakonec jsem vyzkoušel aplikaci Android Apps pro "Diktát a e-mail" a "Talk And Talk Dictation".
Freespeech-VR
Freespeech-VR není k dispozici ve standardních úložištích. Zde jsem stáhl soubory.
Po stažení a extrahování obsahu zip souboru jsem otevřel terminál a navigoval do složky, do které byly soubory extrahovány. Zadal jsem následující příkaz pro otevření freespeech-vr.
sudo python freespeech-vr
Mám sluchátka s slušným mikrofonem a poměrně jasným akcentem na jihu Anglie.
V okně freespeech-vr se objevil následující text:
Vítejte na jednotkách psů výsledku Dnes se ujistěte, jak řízené testy Musí otestovat Kdy text Použije systémovou cestou Řeč I já K jednomu každý byl Jen v To doufat, že zůstanou A prostředky k jednomu kuřata zlatý jako systém Ea, když to moje jméno příští of'ch telefonuje Tento soubor Čoskoro telefony případů do Hands-Space Sphinx Going To není telefon bude sdílena Vyškolený a a nástroje Použijte mluvení Když jste skončili Say Použitý soubor Poslední příběh A A pomocí toho, když je to velmi, jak úspěch Tento Linux byl jako Vy vyhnout se je
Rád bych nyní řekl, že toto není webová stránka Unit of Dogs a v žádném případě jsem nezmínil nic společného se zlatými kuřaty. Ve skutečnosti jsem se snažil popsat proces používání softwaru pro rozpoznávání hlasu.
Zkoušel jsem software několikrát, včetně různého rozteče a rychlosti, ale přesnost byla špatná.
PocketSphinx
PocketSphinx je schopen převzít soubor WAV a převést ho na text pomocí příkazového řádku. PocketSphinx je k dispozici prostřednictvím repozitářů Debianu a měl by být k dispozici pro většinu distribucí.
Hlavním problémem, který jsem nalezl s programem PocketSphinx, je skutečnost, že potřebujete určitou míru v pojmech rozpoznávání hlasu, jazykových souborů, slovníků a školení systému.
Po instalaci programu PocketSphinx byste měli navštívit webové stránky CMF Sphinx a přečíst co nejvíce informací. Také je třeba stáhnout následující modelový soubor.
- Americký anglický generický jazykový model
(Pokud nejste rodilý mluvčí angličtiny, vyberte si jazykový model, který je pro vás vhodný).
Dokumentace pro PocketSphinx a Sphinx obecně je pro laika obtížně srozumitelná, ale z toho, co mohu udělat, slovníkové soubory slouží k poskytnutí seznamu možných slov, a jazykové modely mají seznam možných výslovností.
Pro testování PocketSphinx jsem použil záznam vlastního hlasu, úryvek z Al Pacino v "The Devils Advocate" a úryvek z "Morgan Freeman". Cílem bylo vyzkoušet různé hlasy a pro mě neexistuje nikdo, kdo by mohl vyprávět příběh tak jasně jako Morgan Freeman a nikdo neposkytne linii jako Al Pacino.
Pro práci s PocketSphinx potřebuje soubor WAV a musí být v určitém formátu. Pokud je soubor ve formátu MP3, použijte příkaz ffmpeg a převeďte jej do formátu WAV:
ffmpeg -i inputfilename.mp3 -adodec pcm_s16le -ar 16000 outputfilename.wav
Chcete-li spustit program PocketSphinx, použijte následující příkaz:
pocketsphinx_continuous -dict /usr/share/pocketsphinx/model/lm/en_US/cmu07a.dic -infile hlas2.wav -lm cmusphinx-5.0-cz-us.lm 2> voice2.log
pocketsphinx_continuous převezme soubor WAV a převede jej na text.
V příkazu nad pocketsphinx je řečeno použít slovníkový soubor s názvem "/usr/share/pocketsphinx/model/lm/en_US/cmu07a.dic" s jazykovým modelem "cmusphinx-5.0-en-us.lm". Soubor, který se převede na text, se nazývá hlas2.wav (což je záznam, který jsem vytvořil s mým hlasem). Nakonec 2> umístí veškerý podrobný výstup, který nemusí nutně potřebovat do souboru nazvaného voice2.log. Aktuální výsledky testu se zobrazují v okně terminálu.
Výsledky pomocí mého hlasu jsou následující:
vítejte na další o tom, že tento týden není předmět o tom, který rozpoznávací software za minutu
Výsledky nejsou tak hrozné jako u freespeech-vr, ale stále nejsou skutečně použitelné. Pak jsem se snažil používat PocketSphinx s Al Pacino, ale to vůbec nevzniklo.
Nakonec jsem se pokusil použít hlas Morgana Freemana z filmu "Bruce Všemohoucího" a tady jsou výsledky:
000000000: Budeme na ní000000001: jsou to všechno to těžké jo, že ten den teď to jo je tohle nejvíce jsme byli naživu Jsem součástí horké000000002: ve výtahu, který je klíčem z trochu baseballu, nebo ví co dělat v životě000000003: jaké jsou ty, které se zotaví000000004: nepíše to000000005: mají na mě hned000000006: musíte být pravidlami000000007: Očekával jsem vás000000008: a dozvěděl se, že to byla ilustrace, byla vražedná vánoční večírek000000009: Ukáže se jedna ze způsobů, jak napsat o. Ass, myslel jsem si, že málokdo vždy nosí jeden000000010: jako problém sjednocený nebude dát to dobrý já jsem odhadoval je v tom okamžiku, kdy jsme neměli všechno, co si myslíte, že jsem ve světě bude domovy a já jsem viděl, že000000011: otec, který ho má000000012: Co je toho hodně000000013: udělá to000000014: všechno ty ty, které neklesají hodně000000015: přímo na podzim000000016: dobře držte jen pro mě000000017: Je to nešťastné, když si myslím taky, že budou mít to, že to všechno, které se oženil na a nebylo to, že se mi líbí, na rozdíl od cesty
Můj test se sotva může považovat za vědecký a vývojáři PocketSphinxu mohou uvádět, že software správně nepoužívám. K dispozici je také technika nazvaná hlasový výcvik, který lze použít k vytváření lepších slovníků a jazykových souborů.
Můj nadřazený názor však je, že je příliš obtížné pro každodenní používání.
VoiceNote II
Aplikace VoiceNote II je aplikace Chrome, která používá rozhraní API pro rozpoznávání Google Voice.
Používáte-li prohlížeče Chrome nebo Chromium, můžete nainstalovat službu VoiceNote II prostřednictvím webového obchodu.
Ikony na VoiceNote II jsou vyloženy podivně, protože je třeba nastavit jazyk v dolní části okna a tlačítko pro úpravy je také v dolní části, ale tlačítko nahrávání je v pravé horní poloze.
První věc, kterou musíte udělat, je vybrat jazyk a to lze dosáhnout kliknutím na ikonu světa.
Chcete-li zahájit nahrávání, klepněte na ikonu mikrofonu a začněte mluvit do mikrofonu. Nejlepší výsledky, které jsem zjistil, že pomalý hovor byl klíčový, takže software by měl šanci držet krok.
Výsledky nebyly výborné, jak je vidět níže:
Dobrý den a vítám vás, abyste se připojili. Go-Travels.com dnešní články o konverzi hlasu na text dunelm farrell recese 2008 jako konverze a říkal, že dobře podpořil nejlepší způsob, jak jsem našel hlasový text addon ukázat 2014debian nebo rpm balíček otevřít jej hlasový typ na řeč do textu otevřít jej, pokud chcete vybrat vs vybral v edinburgh francouzsky němčina dostat vám čas v united kingdomstart na moři microphonewhat jste skončili psát svůj text jako textový soubor k jeho úspěchu a to je velmi standardní anglický přízvuk z jihu Anglie nejlépe pro to ale jdu na textvia tento torrentalong s aktuálním dokumentem a můžete vidět chyby, které vás činí za posluchači
Dictanote
Dictanote je další aplikace Chrome, která může být použita pro diktátové účely a narazila na intuitivnější výsledky, ale výsledky nebyly lepší než VoiceNote II.
Použil jsem pouze demo verzi Dictanote, která vám brání v vytváření nových dokumentů, ale umožňuje vám mluvit nad textem, který je již v editoru. Byl jsem schopen otestovat rozpoznávání hlasu, ale výsledky nebyly lepší než VoiceNote II a tak jsem se nepodpořil na verzi pro.
Diktování a pošta
"Diktování a pošta" je aplikace pro Android, která používá rozhraní API pro rozpoznávání hlasu Google.
Výsledky z "Diktátu a pošty" byly mnohem lepší než jakýkoli jiný program, který se k tomuto bodu pokusil.
ahoj vítám vás do života Linuxu. Dnes mluvíme o konverzi zvuku na text
Trik s "Diktát a pošta" je mluvit pomalu a vyslovovat, stejně jako můžete s rovným přízvukem.
Po skončení hovoru můžete výsledky zaslat emailem.
Talk and Talk diktování
Další Android Aplikace, kterou jsem zkoušel, byl "Talk And Talk Dictation".
Rozhraní pro tuto aplikaci bylo nejlepší ze skupiny a rozpoznávání hlasu fungovalo velmi dobře. Po nahrání diktátu jsem mohl výsledky sdílet různými způsoby, včetně e-mailu.
Vítejte na linuxu Go-Travels.com dnes mluvíme o konverzi řeči na text
Jak můžete vidět výše uvedený text, je asi tak jasné, jak můžete očekávat. Hovořit pomalu je klíč.
souhrn
Nativní Linux má nějaký způsob, jak jít s ohledem na rozpoznávání hlasu a konkrétně diktování. Některé aplikace používají rozhraní Google Voice API, ale dosud nejsou uvedeny v úložištích.
Aplikace ChromeOS jsou trochu lepší, ale zdaleka nejlepší výsledky byly dosaženy pomocí telefonu Android. Možná, že telefon má lepší mikrofon, a proto software pro rozpoznávání hlasu má větší šanci na konverzi.
Aby bylo rozpoznávání hlasu skutečně použitelné, musí být více intuitivní a vyžaduje méně nastavení. Neměli byste se potýkat s jazykovými modely a slovníky tak, abyste byli srozumitelní.
Oceňuji ovšem, že celé umění rozpoznávání hlasu je velmi náročné, protože každý má jiný hlas a existuje tolik dialektů od regionu k regionu v jedné zemi, aniž by se znepokojovalo stovky jazyků používaných po celém světě.
Moje analýza proto spočívá v tom, že software pro rozpoznávání hlasu stále pracuje.