Un point essentiel du processus de conversion de la parole en texte concerne la capture du signal acoustique par le système. En d’autres termes, pour transcrire ce que nous lui dictons, l’ordinateur doit d’abord nous entendre. Ce traitement se compose de quatre étapes clés :
Commençons par distinguer deux notions souvent confondues : la voix et la parole.
Chaîne d'acquisition du signal de parole
Il existe une différence fondamentale entre voix et parole.
Les algorithmes de “transcription de la parole” se focalisent sur la reconnaissance du message et sa conversion en texte.
A contrario, les technologies de “reconnaissance vocale” sont utilisées, par exemple dans une investigation policière, pour identifier quelqu’un grâce à sa voix.
En résumé, une même parole peut sans aucun doute être produite par plusieurs voix, mais votre voix est en général unique car elle est intimement liée à votre morphologie. Ceci nous amène tout de suite à introduire quelques notions concernant le système de production de la parole.
phonatoire
La production de la parole relève de phénomènes complexes largement étudiés pour leur rôle dans les processus cognitifs humains. Nous nous limiterons ici aux aspects physiologiques.
L'être humain sain produit un son en chassant l'air de ses poumons. Plus précisément, c’est l’appareil phonatoire, c’est à dire le couplage entre les poumons, les cordes vocales, le conduit vocal, les cavités buccale et nasale, avec la position de la langue, de la mâchoire, des lèvres, des dents, qui nous permet de modifier notre voix de manière à répartir l’énergie déployée sur des modes vibratoires correspondant aux sons d’un langage.
En posant simplement votre main sur votre gorge, vous pourrez distinguer deux types de sons.
Les sons voisés, tout d’abord, sont produits par vibration des cordes vocales et correspondent aux voyelles comme /a/ et /o/. Sur la gauche des courbes en rouge sur la figure ci-dessous, ces sons voisés présentent des pics de résonance dans les basses et moyennes fréquences.
Les sons non-voisés comme la sifflante /s/ et l’explosive /p/ ne requiert pas de vibration des cordes vocales. C’est la position de la langue et des lèvres qui vont mener à une répartition de l’énergie dans des gammes de fréquences différentes.
Ces différences sont exploitées par les algorithmes de transcription automatique de la parole.
Merci de votre attention !
Comment un programme informatique est-il capable de convertir la parole en texte?
C’est le thème des articles que nous continuons de développer sur le blog d' Authôt cet été. Restez à l’écoute !
Authôt : Vous parlez. Nous écrivons.