Accueil | AID | Actualités | ACDC : améliorer les systèmes de reconnaissance vocale dans un cockpit d’avion AID ... Actualités | ACDC : améliorer les systèmes de reconnaissance vocale dans un cockpit d’avion

ACDC : améliorer les systèmes de reconnaissance vocale dans un cockpit d’avion

Mise à jour  : 01/12/2020 - Direction : AID

Le projet ACDC (Audio Cockpit denoising for voice command) a pour objectif de concevoir un système performant de reconnaissance vocale dans un cockpit d’avion. Il est porté par le laboratoire Lorrain de Recherche en Informatique et ses Applications (Loria-Inria) en partenariat avec Thales Avionics. Ce projet s’inscrit dans le cadre de l’initiative Man Machine Teaming (MMT) lancée par la Direction générale de l’armement (DGA) avec Thales et Dassault Aviation.  

Crédits : Richard Nicolas-Nelson / Armée de l'air

 

Des systèmes de reconnaissance automatique de la parole pas toujours précis.

Si le dialogue vocal est présent dans notre vie quotidienne, et malgré des avancées récentes, les systèmes de Reconnaissance Automatique de le Parole commettent toujours des erreurs, surtout en milieu bruyant. C’est tout particulièrement le cas dans un cockpit d’avion où obtenir de bonnes performances en reconnaissance vocale est un véritable défi, lié entre autres à l’emploi d’un masque à oxygène par le pilote ou encore aux bruits de l’avion. Le projet ACDC a ainsi pour principal objectif de concevoir un système performant de débruitage dans un cockpit pour faciliter la reconnaissance de la parole. 

Un système de transcription de la parole en milieu bruité se divise en quatre modules : un premier module de débruitage consistant à isoler la voix des bruits qui l’entourent, un module acoustique qui va reconnaitre dans le signal reçu les unités phonétiques composant la phrase, un module lexical qui contient l’ensemble des mots qui pourront être reconnus par le système et enfin un module de langage qui permet de prendre en compte la cohérence de la suite de mots reconnus. 

L’enjeu principal d’un système de Reconnaissance Automatique de la Parole repose donc sur l’aptitude à atténuer les bruits ambiants dans le signal et à les prendre en compte dans le modèle acoustique utilisé. Les systèmes actuels voient leurs performances diminuer de manière significative lorsque les conditions dans lesquelles ils ont été entrainés et celles dans lesquelles ils sont utilisés, diffèrent. Des incertitudes demeurent donc même après avoir effectué l’opération de débruitage. 

Crédit : Interaction pilote/machine LORIA

ACDC : aller au-delà des erreurs de reconnaissance vocale

La première partie des travaux a consisté à étudier les techniques existantes et innovantes de traitement de la parole et du bruit. L’étape de débruitage a été analysée en fonction des limites connues et a été améliorée en utilisant des concepts émergents pour la robustesse au bruit, comme par exemple l’utilisation de réseaux de neurones pour isoler le signal de la parole. Cette partie s’est divisée en deux étapes. La  première a consisté à rehausser la parole enregistrée, c’est-à-dire à la rendre plus intelligible pour le système de reconnaissance. Or, après le rehaussement de la parole, les différents modules à travers lesquels le signal est passé peuvent faire des erreurs qui peuvent se propager (déformation des mots, mauvaise reconnaissance des sons…). Le système ACDC va donc prendre donc en compte dans la deuxième étape l’incertitude du signal lors de la reconnaissance des phonèmes (unité élémentaire de la parole). Pour cela, un réseau de neurones a été entrainé à calculer les différences entre un signal qui a été débruité et le signal propre.

La deuxième partie de l’étude a ensuite été consacrée à la prise en compte novatrice de la sémantique à travers des représentations prédictives ou « représentations sémantiques » (word embeddings1) qui capturent les caractéristiques sémantiques des mots et de leur contexte. Les algorithmes utilisés dans le projet ACDC sont Word2Vec et BERT. Des recherches ont été menées sur la combinaison des informations sémantiques avec des informations issues de la reconnaissance, en vue d’améliorer les performances de la reconnaissance de la parole. 

La commande via le dialogue vocal complèterait efficacement les commandes déjà mises en œuvre dans le cockpit d’un avion d’attaque (commandes temps réel HOTAS – Mains sur manche et manette2, commandes tactiles, rotateurs, boutons…).

 

1Méthode d’apprentissage d’une représentation des mots par des chiffres, notamment dans les systèmes de reconnaissance de la parole. 

2HOTAS est une contraction pour dire « Hands On Throttle And Stick ». Un HOTAS se compose d’un joystick et d’une manette des gaz, qui permettent de piloter et de contrôler l’appareil. 


Droits : AID