Linuxi riigi hääle äratundmine

Sissejuhatus

Ma kulutan palju aega artiklite uurimiseks ja tihti mõtlen mulle artikli teemat rongijaamast kõndides või üldse.

Ühel õhtul, kui jalutuskäigu kaugusel minu jaotisest jõudis raadiojaam umbes 1,5 miili kaugusele, mõtlesin, et "poleks hea, kui ma saaksin salvestada seda, mida ma tahtsin öelda ja seejärel automaatselt transkribeerida tekstifaili, mida hiljem saaksin muuta ja vormindada" .

Olen veetnud palju pikki tunde, et vaadata hääletuvastus- ja dikteerimisvõimalusi, sealhulgas salvestada otse mikrofoni kasutades Linuxi dikteerimis tarkvara, salvestades faili MP3- või WAV-vormingusse ja muutes selle käsurealt ning kasutades Chrome'i ja Android-rakendusi.

See artikkel toob esile minu leiud pärast raske tööpäeva.

Linuxi valikud

Linuxi dikteerimis- ja häälsuunduvuse tarkvara leidmine ei ole nii lihtne kui võimalik ja võimalused pole nii targad.

Sellel Wikipedia leheküljel on loetelu võimalikest valikutest, sealhulgas CMU Sphinx, Julius ja Simon.

Ma kasutan SparkyLinuxit, mis põhineb praegu Debian Testingil ja võin teile öelda, et ainus repositooriumides olev häältuvastuspakett on Sphinx.

Loodud Linuxi programmid, mida ma lõpuks proovisin, olid PocketSphinx, mida kasutasin WAV-failide teisendamiseks teksti ja Freespeech-VR-i, mis on pythoni rakendus, mis võimaldab salvestada otse mikrofonist.

Proovin ka paari Chrome'i rakendusi, sealhulgas VoiceNote II ja Dictanote'i.

Lõpuks proovisin ka Android-rakendusi "Dikteerimine ja e-post" ning "Talk and talk dictation".

Freespeech-VR

Freespeech-VR ei ole standardvarustuses saadaval. Laadisin failid siia.

Pärast ZIP-faili sisu allalaadimist ja väljavõtmist avasin terminali ja liikusin kausta, kuhu failid ekstraktiti.

Ma kirjutan järgmise käsu, et avada freespeech-vr.

sudo python freespeech-vr

Mul on paar kõrvaklappe üsna korraliku mikrofoniga ja üsna selge Lõuna-Inglise aktsent.

Freespeech-vr aknas ilmus järgmine tekst:

Tere tulemast koertele, kellel on tulemusi. Täna on tagatud testide läbiviimise juhtimine. Tuleb testida. Kui teksti kasutamine Kasutab süsteemset teed Kõne I Kõigile üks oli ainult Aastal Loodan, et viibib ja ühe kana tähendab kuldset süsteemi Ea, kui see on minu nimi, järgmine telefon küsib seda telefoni. See fail on varsti juhtunud telefoni käeshoitavate ruumidega. Sphinxi läheb, et pole telefoni jagatud. Koolitatud ja tööriistad. Rääkimine. Kui olete lõpetanud, öelge kasutatud fail. Viimane lugu A ja kasutades seda, kui see on väga edukas. See Linux oli nii nagu te vältite

Tahaksin lihtsalt öelda nüüd, et see ei ole koerakogude veebisaiti ega maininud kunagi kuldkanadega midagi. Ma püüdsin tegelikult kirjeldada hääletuvastusprogrammi kasutamist.

Proovin tarkvara paar korda, sealhulgas erinevat pigi ja kiirust, kuid täpsus oli halb.

PocketSphinx

PocketSphinx suudab võtta WAV-faili ja teisendada see teksti käsurea abil.

PocketSphinx on saadaval Debiani hoidlate kaudu ja peaks olema saadaval enamuse levitajate jaoks.

Peamine probleem, mida ma PocketSphinxiga leidsin, on see, et teil on peaaegu vaja tunnustamist hääle tuvastamise, keelefailide, sõnastike ja süsteemi koolitamise kontseptsioonides.

Pärast PocketSphinxi installimist peaksite minema CMU Sphinxi veebisaidile ja lugema nii palju teavet kui võimalik. Samuti peate alla laadima järgmise mudeli faili.

(Kui te ei ole inglise keelt emakeelena kõneleja, valige sobiv sobiv keelemudel).

PocketSphinxi ja Sphinxi dokumentatsioon on üldiselt laitmatu jaoks raskesti mõistetav, kuid sellest, mida võin välja selgitada, kasutatakse sõnastikufailide nimekirja koostamiseks võimalike sõnade ja keelemudelite nimekirja potentsiaalsete sõnade loendist.

PocketSphinxi testimiseks kasutasin oma enda häält, Al Pacino lõiget "The Devils Advocate" ja fragmentat "Morgan Freeman". Selle eesmärk oli proovida erinevaid hääli ja minu jaoks pole keegi, kes suudaks öelda lugu nii selgelt nagu Morgan Freeman ja keegi ei paku sellist joont nagu Al Pacino.

Selleks, et PocketSphinx saaks töötada, vajab see WAV-faili ja see peab olema teatud formaadis. Kui fail on MP3-vormingus, kasuta seda faili teisendamiseks WAV-vormingus käsuga ffmpeg:

ffmpeg-i sisendfailinimi.mp3 -acodec pcm_s16le -a 16000 väljundfaili nimi.wav

PocketSphinxi käivitamiseks kasutage järgmist käsku:

pocketsphinx_continuous -dict /usr/share/pocketsphinx/model/lm/en_US/cmu07a.dic -infile voice2.wav -lm cmusphinx-5.0-ee-us.lm 2> voice2.log

pocketsphinx_continuous võtab WAV-faili ja teisendab selle tekstiks.

Pocketsphinxi käskluses öeldakse kasutada keelemudelit "cmusphinx-5.0-en-us.lm", mille nimi on "/usr/share/pocketsphinx/model/lm/en_US/cmu07a.dic". Tekstile konverteeritav fail on nimega voice2.wav (see on minu häälega tehtud salvestus). Lõpuks paneb 2> kogu loogiline väljund, mida te ei pea tingimata vajalikuks failina nimega voice2.log. Testi tegelikud tulemused kuvatakse terminali aknas.

Minu häälega seotud tulemused on järgmised:

Tere tulemast järgmisele umbes kahtlusi selle nädala teemal, mille tunnustamise tarkvara minut

Tulemused ei ole nii hirmsad kui freespeech-vr, kuid see pole ikka veel kasutatav. Seejärel proovisin kasutada Al Pacino PocketSphinxit, kuid see ei andnud tulemusi üldse.

Lõpuks proovisin filmi "Bruce Almighty" abil kasutada Morgan Freemani häält ja siin on järgmised tulemused:

000000000: me teda
000000001: on kõik nii karm jah terve päev, et just praegu on see kõige rohkem me oleme olnud elus, ma olen osa kuumast
000000002: liftis, kes on võtmeks natuke pesapalli kellaajast või teadma, mida teha elus
000000003: mis on need, mis taastub
000000004: nad ei kirjutanud seda
000000005: nad on mulle otse välja
000000006: peate olema reeglid
000000007: ma ootasin sind
000000008: ja ta õppis siin, et oli näide on tapja jõulupidu
000000009: selgub üks võimalus kirjutada o. perse arvasin, et kedagi alati kanda
000000010: nagu ühine probleem ei anna talle head, mida ma nende arvates hindasin sel hetkel, kui me ei teinud kõike, mida arvate, et ma olen maailmas, kodud ja ma olen seda näinud
000000011: isa, kellel on see
000000012: mida palju sellest
000000013: kas see on antud
000000014: kõik, mida teid ei võta palju
000000015: otse sügisel
000000016: hoidke hästi minu jaoks
000000017: see on õnnetu, kui ma arvan ka, et neil on, et see kõik, kes abielus on, ei oleks meile meeldiv, erinevalt viisist

Minu katset ei saa pidada teaduslikuks ja PocketSphinxi arendajad võivad väita, et ma ei kasuta tarkvara õigesti. Samuti on olemas selline tehnika, mida nimetatakse häälkoolituseks, mida saab kasutada paremate sõnaraamatud ja keelefailide loomiseks.

Kuid minu ülekaalukad arvamus on see, et tavapäraseks igapäevaseks kasutamiseks on see lihtsalt liiga raske.

VoiceNote II

VoiceNote II on Chrome'i rakendus, mis kasutab Google Voice'i tuvastamise API-d.

Kui kasutate Chrome'i või Chromiumi brauserit, võite installida VoiceNote II veebipoodi .

VoiceNote II ikoonid on kummaliselt kujundatud, kuna teil on vaja akna allservas olevat keelt seadistada ja redigeerimisnupp on samuti allosas, aga rekordnupp asub paremas ülanurgas.

Esimene asi, mida peate tegema, on keele valimine ja selle saavutamiseks klõpsake maailma ikoonil.

Salvestamise alustamiseks klõpsake mikrofoniikoonil ja hakake oma mikrofonist rääkima. Parimate tulemuste saamiseks, mida ma ütlesin aeglaselt, oli oluline, et tarkvara oleks võimalus sammu pidada.

Tulemused ei olnud nii head, nagu allpool näha:

Tere ja teretulnud ühenduse loomiseks. About.com tänapäeva artiklid hääle kohta tekstitöötluseks dunelm farrell recession 2008 kui konversioonid ja see ütles hästi toetas parim viis, kuidas ma leidsin häälteksti lisandit, et näidata 2014debian või rpm paketti, avage selle häältüüp kõnele teksti avamiseks, kui soovite valida vs Edinburghis valis prantsuse-saksa keele, saan sind aega mere karmima mikrofoni ühendatud kuningriigis, mida sa lõppesid oma teksti tekstifaili edukaks edutamiseks. See on väga tavaline ingliskeelne aktsent Lõuna-Inglismaalt kõige paremini, kuid ma lähen tekstivõistlusele selle torrentalongi koos tegeliku dokumendiga ja näete vigade eest, mis annavad sulle kuulamisfriendid

Dictanote

Dictanote on veel üks Chrome'i rakendus, mida saab kasutada dikteerimise eesmärgil ja mis on tuntum kui intuitiivne, kuid tulemused ei olnud paremad kui VoiceNote II.

Kasutasin ainult Dictanote'i demo versiooni, mis takistab teil uute dokumentide loomist, kuid võimaldab teil rääkida tekstist, mis on juba redaktoris. Mul oli võimalik hääletuvastust testida, kuid tulemused ei olnud paremad kui VoiceNote II, mistõttu ma ei registreerinud pro versiooni.

Dikteerimine ja post

"Dikteerimine ja post" on Android-rakendus, mis kasutab Google'i hääletuvastusfunktsiooni.

"Dikteerimis- ja kirja" tulemused olid palju paremad kui mõni muu programm, mis pidi seda punkti tegema.

Tere tulemast Linuxisse umbes. Täna räägime heli teisendamisest teksti

Dikteerimise ja postituse trikk on rääkida aeglaselt ja prantsuse keeles, samuti saate seda isegi rõhutades.

Kui olete rääkimise lõpetanud, võite ise tulemusi saata.

Rääkige ja räägi dikteerimist

Teine Android-rakendus, mida ma proovisin, oli "Talk and Talk Dictation".

Selle rakenduse liides oli parim seeria ja hääletuvastus tõesti töötas väga hästi. Pärast dikteerimise salvestamist sain tulemusi jagada mitmel viisil, sealhulgas e-posti teel.

Tere tulemast Linuxi umbes.com-is, räägime teksti kõne konverteerimisest

Nagu näete, on ülaltoodud tekst umbes sama selge, mida võite eeldada saada. Rääkimine aeglaselt on võti.

Kokkuvõte

Native Linuxil on mõni võimalus hääle tuvastamiseks ja eriti dikteerimiseks. On olemas mõned rakendused, mis kasutavad Google Voice'i API-d, kuid need ei ole veel hoidlates loetletud.

ChromeOS-i rakendused on natuke paremad, kuid minu Android-telefoni abil saavutati parimad tulemused. Võibolla on telefonil parem mikrofon ja seetõttu on hääle tuvastamise tarkvara parem konversiooni võimalus.

Hääletuvastuse tõeliselt kasutatavaks muutmiseks peab see olema intuitiivsem ja vajalik on vähem häälestust. Selleks, et muuta see arusaadavaks, ei tohiks teid segada keelemudelite ja sõnaraamatud.

Ma hindan siiski, et kogu häältunnustamise kunst on väga keeruline, sest kõigil on erinev hääl ja ühes riigis on piirkonnast kuni piirkonnast nii palju murdvaid mälestusi, et muretseda sadade kogu maailmas kasutatavate keelte pärast.

Minu analüüsiks on seetõttu, et hääletuvastus tarkvara on veel pooleli.