C’est un grand jour pour l’équipe de Microsoft Research (sur la photo plus bas). Cette équipe travaille sur la reconnaissance vocale et elle vient de franchir un sacré cap avec un système capable d’entendre ce que les gens disent, « aussi bien que vous » !
Plus précisément, le système a un « taux d’erreur de mot » de 5,9%, à égalité avec les transcripteurs humains professionnels. Même eux n’entendent des les choses parfaitement, bien sûr, mais 94% de précision c’est plus que suffisant pour avoir une conversation.
« Cette réalisation est l’aboutissement de plus de vingt années d’efforts », a déclaré Geoffrey Zweig, l’un des chercheurs, dans un communiqué sur le blog de Microsoft.
La reconnaissance vocale fait partie de ces choses sur lesquelles à peu près toutes les entreprises et les recherches technologiques majeures se sont penchées pendant des décennies. La qualité s’est régulièrement améliorée au fil des ans, et les dernières avancées viennent certainement à point nommé pour l’avancée des Réseaux de Neurones Artificiels et l’Intelligence Artificielle.
Tout naturellement, l’équipe de recherche de Microsoft se base sur des résultats obtenus dans les meilleures conditions d’écoute. Car ces systèmes sont encore incapables d’entendre aussi bien que nous dans des environnements bruyants, par exemple, et ils peuvent se heurter à la problématique des accents. Mais ce dernier problème peut être facilement abordée aujourd’hui grâce aux réseaux de neurones artificiels.