Suivez-nous :

Les synthèses vocales disponibles en français

Un dossier comparatif complet

ISO 22 21 12

Print Friendly, PDF & Email

Partager sur les réseaux

Introduction

S’il est un sujet que l’on n’aborde que trop rarement lors du choix d’une aide à la communication, c’est bien celui de la voix de synthèse. On se contente bien souvent du “par défaut”, c’est-à-dire de la voix proposée par le distributeur ou le fabriquant. Or, même si ce n’est pas très connu, et s’il n’est pas toujours facile de trouver de l’information, il existe une large variété de voix disponibles sur le marché. Quel est l’intérêt de proposer une voix différente ? Au moins deux bonnes raisons :

    • laisser le choix à l’usager au lieu d’imposer le “par défaut”,
    • permettre à l’usager de mieux s’approprier son outil de communication en choisissant une voix qui correspond à son âge, son caractère, voire son ethnie et d’affirmer sa personnalité : la voix est le reflet de l’âme. Des études scientifiques ont montré que la voix seule donnait des indices suffisants sur l’orientation et l’attirance sexuelle, l’âge du locuteur et même sa taille !

Il n’est pas rare aujourd’hui de rencontrer lors d’un atelier AAC plusieurs usagers s’exprimant avec la même voix. Ce dossier doit permettre à tous d’éviter cela et de ne pas céder à la facilité du « par défaut » ! Nous allons dans ce dossier vous présenter un large panorama des voix disponibles en français, mais aussi les critères auxquels il faut être sensible lorsqu’on choisit une voix ainsi que quelques utilitaires faisant un usage de ces voix de synthèse.
Un autre usage très courant des voix de synthèse est la lecture d’écran pour les non ou mal voyants, les « dys » et tous les autres cas où la compréhension peut être améliorée ou renforcée par un retour auditif.

Une voix, c’est une voix, non ?

Quelle que soit la voix que l’on écoute, naturelle ou synthétique, on peut la qualifier d’une multitude de façons. Mais à quoi faut-il faire réellement attention lorsqu’on va choisir une voix de synthèse pour un patient ?

Premier critère : la fiabilité et l’intelligibilité. Le logiciel doit restituer fidèlement le message écrit, et de manière audible. Notre conseil : commencer par tester quelques classiques (des chiffres arabes et romains, des dates, des homographes non homophones ; par exemple « Le fils coupe les fils. ») et ensuite, les noms propres de l’entourage de l’usager : la synthèse va sans doute prononcer plusieurs fois par jour certains prénoms, il n’y a pas de pire obstacle à l’appropriation qu’un prénom écorché. Si l’on ne s’intéresse qu’à un usage « Lecteur d’écran », l’intelligibilité de la voix est le critère principal : la voix doit être claire et parfaitement compréhensible.

 

Editeur

Voix disponibles

Commentaires Prix indicatif

Site

Acapela

Infovox

Elise (enfant)
Valentin (enfant)
Antoine
Alice
Claire

Julie
Margaux
Manon
Anaïs
Bruno

Les voix Acapela sont disponibles pour les développeurs sur tous les systèmes d’exploitation. On trouve donc plusieurs applications utilisant les voix acapela (Proloquo / TextAloud), mais il ne s’agit pas de voix « système ». Elles ne sont utilisables qu’avec l’application liée. La restitution est de grande qualité, et les voix sont très naturelles.

Non disponible à l’unité,

430 € clef usb CIMIS

lien

Amazon / Ivona

Mathieu

Céline

Ivona est une startup polonaise qui a été racheté en 2013. Leurs voix sont de qualité, et sont disponibles au format standard de Microsoft SAPI. Néanmoins, il est devenu très difficile de se les procurer depuis le rachat…

39 € pour la version SAPI

lien

Cereproc

Laurent

Suzanne

Cereproc est une entreprise émanant du laboratoire de synthèse vocale de l’université d’Edimbourg. Leurs voix sont vraiment très naturelles. Par ailleurs, on les trouve sur la plupart des systèmes d’exploitation (Windows, Mac OS, Android)

30 € pour la version SAPI

lien

Microsoft

Hortense

Paul

Julie

Microsoft propose gratuitement la voix Hortense depuis la version 8 de Windows. Il est possible d’ajouter les voix « mobile » Paul et Julie grâce à une astuce présentée dans un article de ce dossier. Si l’intelligibilité des voix Microsoft est bonne, la fiabilité n’est pas extraordinaire : certaines subtilités du français ne sont pas correctement prises en compte.

Inclus dans Windows

Nuance

RealSpeak Scansoft

Audrey

Aurélie

Thomas

Sébastien

Virginie

Nuance est le leader mondial de la synthèse vocale. Partenaire d’Apple, ce sont ses voix qui sont proposées par défaut dans le système MacOS. Ses voix sont vendues sous divers noms : RealSpeak, ScanSoft… Elles sont remarquablement fiables, mais ne « sonnent » pas toujours très naturelles.

Inclus dans MacOS

39 € pour la version SAPI

lien

Voxygen

Emma (enfant)

Mattéo (enfant)

Romain (ado)

Camille (ado)

Alain

Michel

Adama

Mendo’o

Moussa

Jean

John

Basée en Bretagne, la société Voxygen propose une douzaine de voix en français, disponible sur Windows et sur Google Play. La société dispose des versions Mac OS mais ne les commercialise pas via sa plateforme. Les voix Voxygen sont extrêmement typées et naturelles : voix jeunes ou âgées, accents, éléments paralangagiers (reprise de souffle ou de salive).

De 39 à 60 €

pour la version SAPI

lien

Deuxième critère : le naturel. Si les technologies ont considérablement évolué, il n’est pas rare d’encore écouter des voix un peu métalliques, avec des distorsions parfois surprenantes sur certains termes. Certains éditeurs proposent des voix parfaitement naturelles, et il devient quasi impossible de distinguer la phrase prononcée par une voix synthétique d’un enregistrement d’une voix naturelle.

Troisième critère : l’adéquation entre la voix et l’usager. Il est inadmissible d’équiper une petite fille d’une voix de grand père, ou un ado d’une voix d’outre-tombe. Ethnie, accents régionaux, âge, les éditeurs de voix de synthèse proposent à leur catalogue des voix correspondant aux besoins des usagers.

Quatrième critère : la disponibilité et le prix. Il faut compter en moyenne une quarantaine d’euros pour une voix, et il faut surtout s’assurer que la voix choisie puisse être installée sur le dispositif d’aide à la communication utilisé ou envisagé.

À savoir

Il est fréquent de trouver des voix portant le même nom en version Windows SAPI et en version Android pour un prix très inférieur. En général, en raison des limites de taille imposées par Google, la version Android est une version à la qualité audio inférieure. Néanmoins, c’est une façon relativement bon marché de tester une voix.
Par ailleurs, il paraît important de rappeler que, dans la plupart des logiciels d’aide à la communication, la voix est un paramètre réglable. Il est donc envisageable de faire évoluer la voix d’un patient lorsque celuici vieillit et ce, en lui permettant de conserver son logiciel sans bouleverser ses habitudes de communication. Notez que, pour la réalisation de tests en situation, certaines voix sont disponibles en version d’essai.

Pour aller plus loin ?

Plusieurs initiatives sont apparues ces dernières années pour proposer la réalisation de voix de synthèse sur mesure à moindre coût.
VocalID est une initiative américaine de Rupal Patel qui fait appel à la foule pour collecter des enregistrements vocaux (crowdsourcing).
Deux options sont possibles : enregistrer sa propre voix et en récupérer une version synthétique, ou faire appel à un « donneur ».
vocalid.co

Cerevoice Me est une initiative conjointe de l’éditeur SmartBox et de Cereproc : une plateforme web permet à tout un chacun de s’enregistrer et d’obtenir une voix synthétique en quelques heures d’enregistrement.
cereproc.com

L’éditeur Acapela propose également une solution dite de « Voice Banking », my-own-voice. Il faut enregistrer 1500 phrases sur une plateforme en ligne, ces enregistrements sont ensuite traités afin de générer une voix de synthèse.
acapela-group.com
Ces trois solutions ne sont disponibles qu’en anglais.

En français, la société Voxygen dispose d’une technologie similaire, et a effectué plusieurs essais ayant abouti à la création de voix auprès de plusieurs patients atteints d’une Sclérose Latérale Amyotrophique. Le point fort de la solution proposée : un énorme travail d’optimisation a été réalisé, ce qui a permis de réduire le nombre de phrases que doit lire le patient à moins de 500, soit environ 3 heures d’enregistrement.
En français également, la société CandyVoice propose un service de sauvegarde de la voix basée sur une technologie originale. A partir d’un enregistrement qui peut être relativement court, le logiciel de CandyVoice calcule un modèle de déformation du signal acoustique qui, appliqué sur le signal sonore généré par une synthèse vocale « classique », reproduit la voix enregistrée. Cette solution combinée à une synthèse vocale de qualité est donc capable d’imiter n’importe quelle voix.
candyvoice.com
webapp.candyvoice.com
Il reste un frein majeur à lever pour que ces solutions se démocratisent : leur prix. Le coût de ces voix « sur mesure » varie de 650 à 2 000 €.
Il faut également mentionner le système ModelTalker mis au point par le Nemours Speech Research Laboratory qui propose une chaîne complète de création de voix de synthèse en ligne. Tout le monde peut s’enregistrer et obtenir sa voix de synthèse, et ce sans aucun frais. Cela nécessite l’enregistrement de près de 1600 phrases et requiert plusieurs heures d’enregistrement. Le système ne fonctionne malheureusement à l’heure actuelle qu’en anglais.
modeltalker.org

Un critère n’a pas été évoqué : l’expressivité. Certains éditeurs proposent des voix dites « multi-expressives ». En utilisant un balisage spécifique, il est possible de préciser le ton que la voix de synthèse doit utiliser. Hélas, très peu de logiciels de communication exploitent cette possibilité. Pour vous faire une idée du résultat, essayez l’ExpressivePower™ d’Assistive- Ware.
assistiveware.com

La société CandyVoice nous a présenté plusieurs innovations que nous ne manquerons pas de vous faire partager lorsqu’elles seront commercialisées, notamment la possibilité de faire évoluer la voix de synthèse selon l’âge du locuteur.
Un dernier point, trop souvent négligé : la qualité de restitution acoustique du dispositif utilisé. La plus belle voix du monde dans le plus mauvais haut-parleur du monde passera complètement inaperçue, alors que l’inverse n’est pas vraie. On trouve dans le commerce d’excellentes enceintes portables qui permettront d’amplifier correctement votre voix de synthèse, et donc de tenir une conversation dans un contexte bruyant sans peine.

Conclusion

Cet article dresse un rapide panorama des voix disponibles en français. Le choix d’une voix pour et avec son patient n’est pas anodin.
Nous espérons vous avoir convaincu de passer un peu de temps sur cette étape importante lors de la mise en place d’un outil de communication numérique et nous vous incitons à consulter les sites internet mentionnés dans l’article pour vous faire une idée des performances des voix actuelles.

remonter en haut de page