Abonare Newsletter

Selecteaza Domeniu:

10 Termeni de Control Vocal pe Care Trebuie sa ii Stiti

 

Controlul vocal devine acum o interfata populara cu capabilitati hands-free, facand sarcinile zilnice mai usoare si mai rapide. Cum functioneaza exact aceasta tehnologie inovatoare pentru a raspunde in mod magic la fiecare comanda a clientului dvs.? Iata 16 cuvinte cheie de control vocal care va vor ajuta sa explicati cum functioneaza.

 

1. Microfoane Far-Field

 

Dispozitivele personale de calcul au microfoane de mult timp, dar nu functioneaza bine de la distanta. Microfoanele far-field, in schimb, sunt o serie de microfoane care utilizeaza locatia lor in spatiu pentru a amplifica si a reduce semnalele. Acest lucru face posibila vorbirea din intreaga camera intr-un mediu “hands-free”. Prin suprimarea anumitor zgomote din mediul inconjurator, aceste microfoane utilizeaza algoritmi pentru a ajuta la furnizarea unui semnal clar si inteligibil. Experienta vocala far-field este imbunatatita de alte tehnologii, definite mai jos, care includ barge-in, beamforming, reducerea zgomotului, atenuarea acustica si recunoasterea automata a vorbirii. Deoarece acest algoritm utilizeaza distanta dintre microfoane in calculele sale, este greu sa faci aceste dispozitive mai mici decat un prag minim.

 

2. Barge-In

 

Imaginati-va ca redati muzica sau va uitati la televizor cu un microfon far-field din apropiere. Incercarea de a tipa peste zgomot poate fi destul de dificila. Aici intra tehnologia “barge-in”. Cu “barge-in”, microfonul de ascultare este constient de sursa audio si o poate elimina digital, reducand astfel zgomotul si sporind acuratetea. Amazon Echo este un exemplu foarte bun al acestei tehnologii. 

 

3. Beamforming

 

Imaginati-va ca aveti un microfon far-field intr-o camera cu un televizor pe o parte si dvs. pe cealalta parte. Chiar daca sonorul televizorului este relativ tare, tehnologia beamforming permite microfoanelor sa va amplifice discursul/ vorbirea si sa reduca zgomotul de la televizor. Astfel, veti fi auzit foarte bine intr-un mediu zgomotos. Tehnologia beamforming este deosebit de utila in aplicatiile auto unde soferul este intotdeauna intr-o locatie fixa, iar zgomotul din fata masinii poate fi redus. 

 

4. Microfon Array

 

Am mentionat acest termen de cateva ori, dar este important sa definim termenul independent. Microfonul de tip array este o singura piesa hardware cu mai multe microfoane individuale care functioneaza in tandem. Acest lucru creste acuratetea vocii, avand capacitatea de a accepta sunete din mai multe directii, indiferent de zgomotul de fundal, pozitia microfonului si amplasarea difuzoarelor.

 
5. Recunoasterea Automata a Vorbirii

 

Adesea abreviat ca (ASR), acest termen reprezinta conversia limbii vorbite in text scris. Cand spui “Hei Siri” umat de “… trimite un text”, vezi ASR in actiune. Cu alte cuvinte, recunoasterea vorbirii da posibilitatea computerelor sa stie ce spui.

 

6. Recunoasterea Oratorului

 

Desi usor de confundat cu SR, recunoasterea oratorului este arta specifica de a determina cine vorbeste. Acest lucru se realizeaza pe baza caracteristicilor vocii si a unei varietati de tehnologii, inclusiv a modelelor Markov, a algoritmilor de recunoastere a modelelor si a retelelor neuronale (definite mai jos). Un alt termen pe care il puteti auzi referitor la recunoasterea oratorilor este “Voice Biometrics”, care defineste tehnologia din spatele recunoasterii oratorilor. Exista doua aplicatii majore de recunoastere a oratorilor: 1) verificarea, care urmareste sa verifice daca vorbitorul este cine pretinde ca este, si 2) identificarea, sarcina de a determina identitatea unui orator necunoscut.
 

7. Modelele Markov

 

Inradacinat in teoria probabilitatilor, un model Markov foloseste sisteme de repartizare aleatorie pentru a prognoza viitoarele stari. Un exemplu excelent este textul predictiv pe care l-ati văzut probabil pe iPhone. Daca tastati “I love”, sistemul poate prezice ca urmatorul cuvant va fi “you” pe baza probabilitatii. Exista patru tipuri de modele Markov, inclusiv lanturile ascunse si lanturile Markov. Modelele Markov sunt foarte importante in recunoasterea vorbirii, deoarece sunt similare cu modul in care oamenii proceseaza textul. Propozitiile “make the lights red” si “make the lights read” se pronunta la fel, dar intelegerea probabilitatii asigura recunoasterea corecta a vorbirii.

 

8. Recunoasterea Tiparelor

 

Dupa cum sugereaza si numele, aceasta este o ramura a invatarii programate care utilizeaza tipare si regularitati in sistemele de date pentru trenuri. Exista o multime de tipare, cu algoritmi care ajuta la clasificare, grupare, invatare, predictie, regresie, secventiere si multe altele. 
 

9. Retele neuronale artificiale

 

Un sistem informatic bazat pe modul in care credem ca functionează creierul uman, retelele neuronale utilizeaza neuroni artificiali pentru a invata cum sa rezolve problemele cu care se confrunta sistemele tipice bazate pe reguli. De exemplu, retelele neuronale sunt imperative pentru recunoasterea faciala, masinilecu pilot automat si, bineinteles, pentru controlul vocal.

 

10. Procesarea limbajului natural (NLP)

 

Atunci cand un calculator poate analiza, intelege si obtine un inteles din limbajul uman, utilizeaza procesarea limbajului natural. NLP acopera o serie de aplicatii, inclusiv sintaxa, semantica, discursul si vorbirea. De exemplu, ia în considerare acest exemplu de recunoaștere a entității numit de la Stanford CoreNLP: