Accueil > Fiches techniques > Fiches techniques > Les synthèses vocales disponibles en français
Accueil > Fiches techniques > Fiches techniques > Les synthèses vocales disponibles en français
Un dossier comparatif complet
Un dossier comparatif complet
Partager sur les réseaux
S’il est un sujet que l’on n’aborde que trop rarement lors du choix d’une aide à la communication, c’est bien celui de la voix de synthèse. On se contente bien souvent du “par défaut”, c’est-à-dire de la voix proposée par le distributeur ou le fabriquant. Or, même si ce n’est pas très connu, et s’il n’est pas toujours facile de trouver de l’information, il existe une large variété de voix disponibles sur le marché. Quel est l’intérêt de proposer une voix différente ? Au moins deux bonnes raisons :
Il n’est pas rare aujourd’hui de rencontrer lors d’un atelier AAC plusieurs usagers s’exprimant avec la même voix. Ce dossier doit permettre à tous d’éviter cela et de ne pas céder à la facilité du « par défaut » ! Nous allons dans ce dossier vous présenter un large panorama des voix disponibles en français, mais aussi les critères auxquels il faut être sensible lorsqu’on choisit une voix ainsi que quelques utilitaires faisant un usage de ces voix de synthèse.
Un autre usage très courant des voix de synthèse est la lecture d’écran pour les non ou mal voyants, les « dys » et tous les autres cas où la compréhension peut être améliorée ou renforcée par un retour auditif.
Quelle que soit la voix que l’on écoute, naturelle ou synthétique, on peut la qualifier d’une multitude de façons. Mais à quoi faut-il faire réellement attention lorsqu’on va choisir une voix de synthèse pour un patient ?
Premier critère : la fiabilité et l’intelligibilité. Le logiciel doit restituer fidèlement le message écrit, et de manière audible. Notre conseil : commencer par tester quelques classiques (des chiffres arabes et romains, des dates, des homographes non homophones ; par exemple « Le fils coupe les fils. ») et ensuite, les noms propres de l’entourage de l’usager : la synthèse va sans doute prononcer plusieurs fois par jour certains prénoms, il n’y a pas de pire obstacle à l’appropriation qu’un prénom écorché. Si l’on ne s’intéresse qu’à un usage « Lecteur d’écran », l’intelligibilité de la voix est le critère principal : la voix doit être claire et parfaitement compréhensible.
Editeur |
Voix disponibles |
Commentaires | Prix indicatif |
Site |
|
Acapela Infovox |
Elise (enfant) |
Julie |
Les voix Acapela sont disponibles pour les développeurs sur tous les systèmes d’exploitation. On trouve donc plusieurs applications utilisant les voix acapela (Proloquo / TextAloud), mais il ne s’agit pas de voix « système ». Elles ne sont utilisables qu’avec l’application liée. La restitution est de grande qualité, et les voix sont très naturelles. |
Non disponible à l’unité, 430 € clef usb CIMIS |
|
Amazon / Ivona |
Mathieu Céline |
Ivona est une startup polonaise qui a été racheté en 2013. Leurs voix sont de qualité, et sont disponibles au format standard de Microsoft SAPI. Néanmoins, il est devenu très difficile de se les procurer depuis le rachat… |
39 € pour la version SAPI |
||
Cereproc |
Laurent Suzanne |
Cereproc est une entreprise émanant du laboratoire de synthèse vocale de l’université d’Edimbourg. Leurs voix sont vraiment très naturelles. Par ailleurs, on les trouve sur la plupart des systèmes d’exploitation (Windows, Mac OS, Android) |
30 € pour la version SAPI |
||
Microsoft |
Hortense Paul Julie |
Microsoft propose gratuitement la voix Hortense depuis la version 8 de Windows. Il est possible d’ajouter les voix « mobile » Paul et Julie grâce à une astuce présentée dans un article de ce dossier. Si l’intelligibilité des voix Microsoft est bonne, la fiabilité n’est pas extraordinaire : certaines subtilités du français ne sont pas correctement prises en compte. |
Inclus dans Windows |
||
Nuance RealSpeak Scansoft |
Audrey Aurélie Thomas Sébastien Virginie |
Nuance est le leader mondial de la synthèse vocale. Partenaire d’Apple, ce sont ses voix qui sont proposées par défaut dans le système MacOS. Ses voix sont vendues sous divers noms : RealSpeak, ScanSoft… Elles sont remarquablement fiables, mais ne « sonnent » pas toujours très naturelles. |
Inclus dans MacOS 39 € pour la version SAPI |
||
Voxygen |
Emma (enfant) Mattéo (enfant) Romain (ado) Camille (ado) Alain Michel |
Adama Mendo’o Moussa Jean John |
Basée en Bretagne, la société Voxygen propose une douzaine de voix en français, disponible sur Windows et sur Google Play. La société dispose des versions Mac OS mais ne les commercialise pas via sa plateforme. Les voix Voxygen sont extrêmement typées et naturelles : voix jeunes ou âgées, accents, éléments paralangagiers (reprise de souffle ou de salive). |
De 39 à 60 € pour la version SAPI |
Deuxième critère : le naturel. Si les technologies ont considérablement évolué, il n’est pas rare d’encore écouter des voix un peu métalliques, avec des distorsions parfois surprenantes sur certains termes. Certains éditeurs proposent des voix parfaitement naturelles, et il devient quasi impossible de distinguer la phrase prononcée par une voix synthétique d’un enregistrement d’une voix naturelle.
Troisième critère : l’adéquation entre la voix et l’usager. Il est inadmissible d’équiper une petite fille d’une voix de grand père, ou un ado d’une voix d’outre-tombe. Ethnie, accents régionaux, âge, les éditeurs de voix de synthèse proposent à leur catalogue des voix correspondant aux besoins des usagers.
Quatrième critère : la disponibilité et le prix. Il faut compter en moyenne une quarantaine d’euros pour une voix, et il faut surtout s’assurer que la voix choisie puisse être installée sur le dispositif d’aide à la communication utilisé ou envisagé.
Il est fréquent de trouver des voix portant le même nom en version Windows SAPI et en version Android pour un prix très inférieur. En général, en raison des limites de taille imposées par Google, la version Android est une version à la qualité audio inférieure. Néanmoins, c’est une façon relativement bon marché de tester une voix.
Par ailleurs, il paraît important de rappeler que, dans la plupart des logiciels d’aide à la communication, la voix est un paramètre réglable. Il est donc envisageable de faire évoluer la voix d’un patient lorsque celuici vieillit et ce, en lui permettant de conserver son logiciel sans bouleverser ses habitudes de communication. Notez que, pour la réalisation de tests en situation, certaines voix sont disponibles en version d’essai.
Plusieurs initiatives sont apparues ces dernières années pour proposer la réalisation de voix de synthèse sur mesure à moindre coût.
VocalID est une initiative américaine de Rupal Patel qui fait appel à la foule pour collecter des enregistrements vocaux (crowdsourcing).
Deux options sont possibles : enregistrer sa propre voix et en récupérer une version synthétique, ou faire appel à un « donneur ».
vocalid.co
Cerevoice Me est une initiative conjointe de l’éditeur SmartBox et de Cereproc : une plateforme web permet à tout un chacun de s’enregistrer et d’obtenir une voix synthétique en quelques heures d’enregistrement.
cereproc.com
L’éditeur Acapela propose également une solution dite de « Voice Banking », my-own-voice. Il faut enregistrer 1500 phrases sur une plateforme en ligne, ces enregistrements sont ensuite traités afin de générer une voix de synthèse.
acapela-group.com
Ces trois solutions ne sont disponibles qu’en anglais.
En français, la société Voxygen dispose d’une technologie similaire, et a effectué plusieurs essais ayant abouti à la création de voix auprès de plusieurs patients atteints d’une Sclérose Latérale Amyotrophique. Le point fort de la solution proposée : un énorme travail d’optimisation a été réalisé, ce qui a permis de réduire le nombre de phrases que doit lire le patient à moins de 500, soit environ 3 heures d’enregistrement.
En français également, la société CandyVoice propose un service de sauvegarde de la voix basée sur une technologie originale. A partir d’un enregistrement qui peut être relativement court, le logiciel de CandyVoice calcule un modèle de déformation du signal acoustique qui, appliqué sur le signal sonore généré par une synthèse vocale « classique », reproduit la voix enregistrée. Cette solution combinée à une synthèse vocale de qualité est donc capable d’imiter n’importe quelle voix.
candyvoice.com
webapp.candyvoice.com
Il reste un frein majeur à lever pour que ces solutions se démocratisent : leur prix. Le coût de ces voix « sur mesure » varie de 650 à 2 000 €.
Il faut également mentionner le système ModelTalker mis au point par le Nemours Speech Research Laboratory qui propose une chaîne complète de création de voix de synthèse en ligne. Tout le monde peut s’enregistrer et obtenir sa voix de synthèse, et ce sans aucun frais. Cela nécessite l’enregistrement de près de 1600 phrases et requiert plusieurs heures d’enregistrement. Le système ne fonctionne malheureusement à l’heure actuelle qu’en anglais.
modeltalker.org
Un critère n’a pas été évoqué : l’expressivité. Certains éditeurs proposent des voix dites « multi-expressives ». En utilisant un balisage spécifique, il est possible de préciser le ton que la voix de synthèse doit utiliser. Hélas, très peu de logiciels de communication exploitent cette possibilité. Pour vous faire une idée du résultat, essayez l’ExpressivePower™ d’Assistive- Ware.
assistiveware.com
La société CandyVoice nous a présenté plusieurs innovations que nous ne manquerons pas de vous faire partager lorsqu’elles seront commercialisées, notamment la possibilité de faire évoluer la voix de synthèse selon l’âge du locuteur.
Un dernier point, trop souvent négligé : la qualité de restitution acoustique du dispositif utilisé. La plus belle voix du monde dans le plus mauvais haut-parleur du monde passera complètement inaperçue, alors que l’inverse n’est pas vraie. On trouve dans le commerce d’excellentes enceintes portables qui permettront d’amplifier correctement votre voix de synthèse, et donc de tenir une conversation dans un contexte bruyant sans peine.
Cet article dresse un rapide panorama des voix disponibles en français. Le choix d’une voix pour et avec son patient n’est pas anodin.
Nous espérons vous avoir convaincu de passer un peu de temps sur cette étape importante lors de la mise en place d’un outil de communication numérique et nous vous incitons à consulter les sites internet mentionnés dans l’article pour vous faire une idée des performances des voix actuelles.
Cette œuvre est mise à disposition selon les termes de la Licence Creative Commons Attribution – Pas d’Utilisation Commerciale – Pas de Modification 4.0 International
Auteur | Sébastien Vermandel |
---|
Plaine Images Imaginarium
99A, Boulevard Descat
59200 TOURCOING
Tél : 09 72 66 31 75
APF France handicap
TechLab
17, boulevard Auguste Blanqui
75013 PARIS – FRANCE
Plaine Images, Imaginarium – bureau 324
99A, boulevard Descat
59200 TOURCOING – FRANCE
Tél : 09 72 66 31 75
Avis
Il n’y a pas encore d’avis.