Seeing AI

Application de reconnaissance d’image et de texte avec synthèse vocale

Apprentissage / Scolarité / Emploi, Fiches techniques
Application ios, application non voyants, description d'image, Dyslexie, lecteur de texte, non voyant, Synthèse vocale

Application de reconnaissance d’image et de texte avec synthèse vocale

Apprentissage / Scolarité / Emploi, Fiches techniques
Application ios, application non voyants, description d'image, Dyslexie, lecteur de texte, non voyant, Synthèse vocale

Partager sur les réseaux

L’application Seeing AI, créée par Microsoft, a été à l’origine pensée pour aider les personnes ayant des problèmes de vision. Cependant, elle s’avère être utile à toute personne ayant des difficultés à lire du texte (comme les dyslexiques ou les allophones, qui parlent une autre langue) ou à reconnaître des objets et des visages (comme les personnes atteintes de prosopagnosie ou d’agnosie). En fait, Seeing AI peut aider dans différentes tâches quotidiennes qui nécessitent la reconnaissance de texte ou d’objets dans l’environnement.

Proche de Primzo Go ou Microsoft Lens, elle se démarque par ses fonctionnalités complémentaires de reconnaissance d’image, de visage et surtout la reconnaissance d’écriture manuscrite particulièrement fiable.

Référence	Application Seeing AI
Éditeur	Microsoft
Téléchargement	App Store / Google Play Store
Prix	Gratuit

Informations techniques

Compatibilité

Seeing AI fonctionne sous iOS et Android. Sur l’iPhone, elle nécessite iOS 12.0 ou une version ultérieure. Sur l’iPad, iPad OS 12.0 ou une version ultérieure.

L’application est multilingue et est disponible dans 19 langues. Attention, il n’y a pas de reconnaissance automatique de la langue. La langue configurée pour l’usage sera celle qui sera utilisée pour la synthèse vocale quelle que soit la langue du texte. L’application requiert une connexion internet pour être fonctionnelle.

Réglages et paramétrages possibles

Les réglages sont accessibles en haut gauche de l’application via le bouton « Burger ». Il n’y a que très peu de paramètres, ce qui rend cette application très facile à prendre en main.

Parmi les paramètres notables, on note :

le choix du type de monnaie pour la reconnaissance de billets,
l’ordre d’apparition des modes dans le bandeau inférieur est également personnalisable selon ses propres habitudes de vie.
Sur iOS, notons la possibilité de configurer des raccourcis personnalisés pour « Dis Siri »,
Sur iOS également, la possibilité de personnaliser des raccourcis HapticTouch : ainsi, un appui long sur l’icône du bureau de Seing AI donne un accès rapide à 4 modes dont l’ordre de priorité peut être personnalisé.

Usages et analyses

Quand vous ouvrez l’application, vous devez autoriser l’accès à l’appareil photo pour que l’application puisse identifier les éléments présents autour de vous. Initialement, l’application prononce les textes présents devant l’objectif.

En bas de l’écran, il est possible de choisir un mode de reconnaissance afin de permettre à l’application d’être plus précise dans la détection de caractère ou d’objet. Pour commencer la reconnaissance, il suffit de toucher l’écran. Il y a six modes que vous pouvez voir dès que vous ouvrez l’application, et en faisant glisser vers la gauche, vous pouvez accéder à cinq modes supplémentaires. Vous pouvez les organiser comme vous le souhaitez, pour accéder plus facilement à ceux que vous utilisez le plus.

Il est important de noter que cette application a besoin d’une connexion internet pour fonctionner. Cela peut être un inconvénient si vous êtes dans un endroit où la connexion internet est mauvaise ou inexistante. Si vous prévoyez de l’utiliser à l’école, il est important de savoir que l’utilisation de téléphones n’est généralement pas autorisée pendant les examens. Vous devrez donc avoir une autre option qui fonctionne sans internet. Sachez également qu’il existe une dérogation pour les enfants, en situation de handicap, pour bénéficier de l’utilisation de leur smartphone en classe malgré l’interdiction de l’éducation nationale.

Modes

Plusieurs modes de reconnaissance sont proposés afin de faciliter la précision de reconnaissance. Ils sont ici proposés dans l’ordre d’apparition initial, cependant, cet ordre est personnalisable. Pour chaque mode, il s’agira de choisir le mode, puis de pointer l’élément à analyser par l’appareil photo. Toucher l’écran active l’analyse. Le traitement du document peut prendre quelques secondes. Ensuite le texte ou la description apparait dans une nouvelle fenêtre.

Ce texte ou la description peuvent être lues grâce à une synthèse vocale. Le lecteur est équipé des boutons lecture, pause, passer un mot en avant ou en arrière. Le contenu obtenu peut également être partagé au format image ou texte via les différents canaux disponibles sur le smartphone (SMS, Air drop mail ou réseaux sociaux…)

Texte court : permet de lire rapidement un texte court uniquement en pointant l’appareil photo vers le contenu textuel. Cette fonction présente un intérêt lorsque la personne a besoin d’une traduction rapide d’un texte court par exemple un nom de rue.

Document : il s’agit d’un OCR classique avec un cadrage du document et une lecture du contenu. L’application commence par chercher un document, et s’il en détecte un, affiche un cadre bleu. Spontanément, le logiciel guide l’utilisateur pour cadrer l’intégralité du document. Il est très intéressant de constater que l’application identifie le sens du texte et fait une rotation automatique s’il est posé à l’envers.

Illustration de la reconnaissance de document

Concernant la qualité de la reconnaissance, nous l’avons testée avec un document de type article en plusieurs colonnes et une mise en page qui inclut des icônes, des photos, du texte, ainsi que des chiffres et des abréviations. Nous avons relevé les éléments suivants :

Aucune erreur de reconnaissance du texte n’est constatée.
La mise en page a été identifiée et le texte conserve sa structure initiale.
L’ordre des colonnes est correctement analysé (titre – résumé – colonne 1 – colonne 2 – signature).
Les images et logos n’apparaissent pas dans le descriptif.

Toutefois, deux erreurs mineures sont à relever :

Mauvaise reconnaissance du logo © traduit en O. ce caractère spécial est intégré dans une photo et positionné à 90° par rapport au texte
Le numéro du magazine dans le bas de page n’est pas identifié.

Concernant la reconnaissance des polices atypiques, notre test n’a révélé aucune difficulté de reconnaissance. En revanche, l’échantillon de test est trop restreint pour garantir un taux de reconnaissance de 100%.

Illustration de la reconnaissance police d’écriture

Au sujet des tableaux, l’application affiche le contenu des tableaux lignes par lignes.

Illustration de la reconnaissance tableau

Produit : l’application est capable d’analyser le code barre présent sur un produit. Il s’agit donc de pointer l’appareil photo sur le produit et de le faire pivoter jusqu’à ce qu’elle repère le code barre.

Une fois l’analyse lancée, alors l’application identifie uniquement le nom du produit. Il ne donnera pas plus d’information.

A noter qu’un logo apparaît en bas à droite de l’écran qui permet d’activer l’analyse d’un QR code amélioré. En effet, certains produits proposés par la marque Unilever sont équipés d’un QR code amélioré permettant d’accéder à plus d’informations.

Personne : ce mode permet d’identifier des personnes. Il est possible de mémoriser certains visages afin que l’application nomme directement la personne. Seeing AI peut également indiquer le nombre de personnes, leur distance par rapport à vous, identifier l’expression de leur visage et donner une approximation de leur âge.

Seeing AI peut également décrire la position de la ou des personne(s) perçues dans le champs de la caméra pour permettre à l’utilisateur de positionner sa caméra pour prendre une photo. Un mode selfie est aussi disponible. Une fois prise, la photo est identifiée et peut être enregistrée.

Billets : les billets sont automatiquement identifiés (même froissés) sans analyse. La devise par défaut est celle choisie dans les réglages. Il est possible de changer rapidement grâce à un raccourci accessible sur l’écran. On peut regretter que l’application ne reconnaisse pas automatiquement la devise.

Scène : il s’agit d’une fonction particulièrement intéressante de description de l’environnement. Dans un premier temps, l’application réalise une description générale de la scène, la fonction « explorer la photo » disponible sur le bas de l’écran permet d’identifier les objets avec beaucoup plus de précision en déplaçant le doigt sur l’écran.

Sur l’exemple ci-contre, la première analyse identifie «probablement un bureau avec un ordinateur « dans l’exploration de la photo, 11 éléments sont identifiés. L’utilisateur peut explorer l’image sonore en déplaçant sont doigt sur la photo :

Moniteur (contient du texte),
Une bouteille,
Un ordinateur sur une table (contient du texte, « l’ordinateur à l’école, au collège ou au lycée…),
Un clavier,
Une souris d’ordinateur sur une table,
Un porte-clés sur une table,
Un téléphone portable avec un écran fissuré,
Un carnet de notes.

Seul le feutre n’est pas identifié.

NB : Les photos déjà présentes dans la galerie personnelle sont également analysables par ce biais.

Aperçu : encore à l’état expérimental, pour les personnes équipées d’un casque, ce mode a vocation à réaliser un audio spatial permettant de naviguer dans l’environnement intérieur.

Couleur : cette fonction encore expérimentale permet d’identifier les couleurs perçues par la caméra. Les essais nous permettent de confirmer que cette proposition est encore perfectible. En effet, la reconnaissance de la couleur semble très dépendante de la luminosité ambiante.

Écriture manuscrite : nous avons été particulièrement bluffés par la qualité de la reconnaissance manuscrite du texte. Notons qu’il est indispensable que le document soit positionné dans le bon sens car l’application n’a pas la capacité à détecter l’orientation du texte manuscrit. A ce jour, il s’agit de la reconnaissance manuscrite la plus performante rencontrée parmi les solutions gratuites testées. Nous avons fait des essais avec des graphies assez variées.

Luminosité : il s’agit ici d’une fonctionnalité qui permet d’identifier la luminosité grâce à un son plus ou moins haut. Plus il y a de lumière, plus la tonalité est élevée.

Mise à jour : en octobre 2023, l’application Seiing AI est disponible sur le Google Play Store (pour les supports Android). Nous avons comparé les reconnaissances entre les appareils équipés iOS et Android, sans aucune différence de reconnaissance.

Conclusion

Seeing AI va bien au-delà des applications d’OCR déjà connues, l’accompagnement qu’elle propose dans l’analyse de l’environnement est particulièrement riche. Seing AI se démarque également dans la qualité de la reconnaissance manuscrite.

Par ailleurs, afin de se familiariser avec l’utilisation de l’application, Microsoft a mis à disposition une série de didacticiels : https://www.microsoft.com/fr-fr/ai/seeing-ai

Une chaîne YouTube est également existante : http://aka.ms/SeeingAIPlaylist

Notons que Seeing AI est un projet de recherche en cours qui exploite la puissance de l’Intelligence Artificielle pour ouvrir le monde visuel en décrivant les personnes, les textes et les objets à proximité. Ainsi, bien que déjà particulièrement performante, l’application sera enrichie de nouvelles fonctionnalités dans l’avenir, à mesure des retours de la communauté et des progrès des algorithmes issus de la recherche en intelligence artificielle.

Cette œuvre est mise à disposition selon les termes de la Licence Creative Commons Attribution – Pas d’Utilisation Commerciale – Pas de Modification 4.0 International

Informations complémentaires

Auteur	Guillemette Hessel-Balleyguier Ergothérapeute conseil septembre 2022 Mise à jour : décembre 2023
Remerciements	Ce document a pu être réalisé grâce au soutien de Malakoff Humanis.

Auteur

Guillemette Hessel-Balleyguier
Ergothérapeute conseil

septembre 2022
Mise à jour : décembre 2023

Remerciements

Ce document a pu être réalisé grâce au soutien de Malakoff Humanis.

TechLab – APF France handicap

SMR Marc Sautelet
10, rue du Petit Boulevard
59650 VILLENEUVE D’ASCQ – FRANCE

03 28 80 07 64

techlab-handicap.org

Avis

Il n’y a pas encore d’avis.

Soyez le premier à laisser votre avis sur “Seeing AI”

Vous devez être connecté pour publier un avis.

Seeing AI

Sommaire