Accueil > Fiches techniques > Fiches techniques > Apprentissage / Scolarité / Emploi > Seeing AI
Accueil > Fiches techniques > Fiches techniques > Apprentissage / Scolarité / Emploi > Seeing AI
Application de reconnaissance d’image et de texte avec synthèse vocale
Application de reconnaissance d’image et de texte avec synthèse vocale
Partager sur les réseaux
L’application Seeing AI, créée par Microsoft, a été à l’origine pensée pour aider les personnes ayant des problèmes de vision. Cependant, elle s’avère être utile à toute personne ayant des difficultés à lire du texte (comme les dyslexiques ou les allophones, qui parlent une autre langue) ou à reconnaître des objets et des visages (comme les personnes atteintes de prosopagnosie ou d’agnosie). En fait, Seeing AI peut aider dans différentes tâches quotidiennes qui nécessitent la reconnaissance de texte ou d’objets dans l’environnement.
Proche de Primzo Go ou Microsoft Lens, elle se démarque par ses fonctionnalités complémentaires de reconnaissance d’image, de visage et surtout la reconnaissance d’écriture manuscrite particulièrement fiable.
Référence | Application Seeing AI |
---|---|
Éditeur | Microsoft |
Téléchargement | App Store / Google Play Store |
Prix | Gratuit |
Seeing AI fonctionne sous iOS et Android. Sur l’iPhone, elle nécessite iOS 12.0 ou une version ultérieure. Sur l’iPad, iPad OS 12.0 ou une version ultérieure.
L’application est multilingue et est disponible dans 19 langues. Attention, il n’y a pas de reconnaissance automatique de la langue. La langue configurée pour l’usage sera celle qui sera utilisée pour la synthèse vocale quelle que soit la langue du texte. L’application requiert une connexion internet pour être fonctionnelle.
Les réglages sont accessibles en haut gauche de l’application via le bouton « Burger ». Il n’y a que très peu de paramètres, ce qui rend cette application très facile à prendre en main.
Parmi les paramètres notables, on note :
Quand vous ouvrez l’application, vous devez autoriser l’accès à l’appareil photo pour que l’application puisse identifier les éléments présents autour de vous. Initialement, l’application prononce les textes présents devant l’objectif.
En bas de l’écran, il est possible de choisir un mode de reconnaissance afin de permettre à l’application d’être plus précise dans la détection de caractère ou d’objet. Pour commencer la reconnaissance, il suffit de toucher l’écran. Il y a six modes que vous pouvez voir dès que vous ouvrez l’application, et en faisant glisser vers la gauche, vous pouvez accéder à cinq modes supplémentaires. Vous pouvez les organiser comme vous le souhaitez, pour accéder plus facilement à ceux que vous utilisez le plus.
Il est important de noter que cette application a besoin d’une connexion internet pour fonctionner. Cela peut être un inconvénient si vous êtes dans un endroit où la connexion internet est mauvaise ou inexistante. Si vous prévoyez de l’utiliser à l’école, il est important de savoir que l’utilisation de téléphones n’est généralement pas autorisée pendant les examens. Vous devrez donc avoir une autre option qui fonctionne sans internet. Sachez également qu’il existe une dérogation pour les enfants, en situation de handicap, pour bénéficier de l’utilisation de leur smartphone en classe malgré l’interdiction de l’éducation nationale.
Plusieurs modes de reconnaissance sont proposés afin de faciliter la précision de reconnaissance. Ils sont ici proposés dans l’ordre d’apparition initial, cependant, cet ordre est personnalisable. Pour chaque mode, il s’agira de choisir le mode, puis de pointer l’élément à analyser par l’appareil photo. Toucher l’écran active l’analyse. Le traitement du document peut prendre quelques secondes. Ensuite le texte ou la description apparait dans une nouvelle fenêtre.
Ce texte ou la description peuvent être lues grâce à une synthèse vocale. Le lecteur est équipé des boutons lecture, pause, passer un mot en avant ou en arrière. Le contenu obtenu peut également être partagé au format image ou texte via les différents canaux disponibles sur le smartphone (SMS, Air drop mail ou réseaux sociaux…)
Texte court : permet de lire rapidement un texte court uniquement en pointant l’appareil photo vers le contenu textuel. Cette fonction présente un intérêt lorsque la personne a besoin d’une traduction rapide d’un texte court par exemple un nom de rue.
Document : il s’agit d’un OCR classique avec un cadrage du document et une lecture du contenu. L’application commence par chercher un document, et s’il en détecte un, affiche un cadre bleu. Spontanément, le logiciel guide l’utilisateur pour cadrer l’intégralité du document. Il est très intéressant de constater que l’application identifie le sens du texte et fait une rotation automatique s’il est posé à l’envers.
Concernant la qualité de la reconnaissance, nous l’avons testée avec un document de type article en plusieurs colonnes et une mise en page qui inclut des icônes, des photos, du texte, ainsi que des chiffres et des abréviations. Nous avons relevé les éléments suivants :
Toutefois, deux erreurs mineures sont à relever :
Concernant la reconnaissance des polices atypiques, notre test n’a révélé aucune difficulté de reconnaissance. En revanche, l’échantillon de test est trop restreint pour garantir un taux de reconnaissance de 100%.
Au sujet des tableaux, l’application affiche le contenu des tableaux lignes par lignes.
Produit : l’application est capable d’analyser le code barre présent sur un produit. Il s’agit donc de pointer l’appareil photo sur le produit et de le faire pivoter jusqu’à ce qu’elle repère le code barre.
Une fois l’analyse lancée, alors l’application identifie uniquement le nom du produit. Il ne donnera pas plus d’information.
A noter qu’un logo apparaît en bas à droite de l’écran qui permet d’activer l’analyse d’un QR code amélioré. En effet, certains produits proposés par la marque Unilever sont équipés d’un QR code amélioré permettant d’accéder à plus d’informations.
Personne : ce mode permet d’identifier des personnes. Il est possible de mémoriser certains visages afin que l’application nomme directement la personne. Seeing AI peut également indiquer le nombre de personnes, leur distance par rapport à vous, identifier l’expression de leur visage et donner une approximation de leur âge.
Seeing AI peut également décrire la position de la ou des personne(s) perçues dans le champs de la caméra pour permettre à l’utilisateur de positionner sa caméra pour prendre une photo. Un mode selfie est aussi disponible. Une fois prise, la photo est identifiée et peut être enregistrée.
Billets : les billets sont automatiquement identifiés (même froissés) sans analyse. La devise par défaut est celle choisie dans les réglages. Il est possible de changer rapidement grâce à un raccourci accessible sur l’écran. On peut regretter que l’application ne reconnaisse pas automatiquement la devise.
Scène : il s’agit d’une fonction particulièrement intéressante de description de l’environnement. Dans un premier temps, l’application réalise une description générale de la scène, la fonction « explorer la photo » disponible sur le bas de l’écran permet d’identifier les objets avec beaucoup plus de précision en déplaçant le doigt sur l’écran.
Sur l’exemple ci-contre, la première analyse identifie «probablement un bureau avec un ordinateur « dans l’exploration de la photo, 11 éléments sont identifiés. L’utilisateur peut explorer l’image sonore en déplaçant sont doigt sur la photo :
Seul le feutre n’est pas identifié.
NB : Les photos déjà présentes dans la galerie personnelle sont également analysables par ce biais.
Aperçu : encore à l’état expérimental, pour les personnes équipées d’un casque, ce mode a vocation à réaliser un audio spatial permettant de naviguer dans l’environnement intérieur.
Couleur : cette fonction encore expérimentale permet d’identifier les couleurs perçues par la caméra. Les essais nous permettent de confirmer que cette proposition est encore perfectible. En effet, la reconnaissance de la couleur semble très dépendante de la luminosité ambiante.
Écriture manuscrite : nous avons été particulièrement bluffés par la qualité de la reconnaissance manuscrite du texte. Notons qu’il est indispensable que le document soit positionné dans le bon sens car l’application n’a pas la capacité à détecter l’orientation du texte manuscrit. A ce jour, il s’agit de la reconnaissance manuscrite la plus performante rencontrée parmi les solutions gratuites testées. Nous avons fait des essais avec des graphies assez variées.
Luminosité : il s’agit ici d’une fonctionnalité qui permet d’identifier la luminosité grâce à un son plus ou moins haut. Plus il y a de lumière, plus la tonalité est élevée.
Mise à jour : en octobre 2023, l’application Seiing AI est disponible sur le Google Play Store (pour les supports Android). Nous avons comparé les reconnaissances entre les appareils équipés iOS et Android, sans aucune différence de reconnaissance.
Seeing AI va bien au-delà des applications d’OCR déjà connues, l’accompagnement qu’elle propose dans l’analyse de l’environnement est particulièrement riche. Seing AI se démarque également dans la qualité de la reconnaissance manuscrite.
Par ailleurs, afin de se familiariser avec l’utilisation de l’application, Microsoft a mis à disposition une série de didacticiels : https://www.microsoft.com/fr-fr/ai/seeing-ai
Une chaîne YouTube est également existante : http://aka.ms/SeeingAIPlaylist
Notons que Seeing AI est un projet de recherche en cours qui exploite la puissance de l’Intelligence Artificielle pour ouvrir le monde visuel en décrivant les personnes, les textes et les objets à proximité. Ainsi, bien que déjà particulièrement performante, l’application sera enrichie de nouvelles fonctionnalités dans l’avenir, à mesure des retours de la communauté et des progrès des algorithmes issus de la recherche en intelligence artificielle.
Cette œuvre est mise à disposition selon les termes de la Licence Creative Commons Attribution – Pas d’Utilisation Commerciale – Pas de Modification 4.0 International
Auteur | Guillemette Hessel-Balleyguier septembre 2022 |
---|---|
Remerciements | Ce document a pu être réalisé grâce au soutien de Malakoff Humanis. |
Plaine Images Imaginarium
99A, Boulevard Descat
59200 TOURCOING
Tél : 09 72 66 31 75
APF France handicap
TechLab
17, boulevard Auguste Blanqui
75013 PARIS – FRANCE
Plaine Images, Imaginarium – bureau 324
99A, boulevard Descat
59200 TOURCOING – FRANCE
Tél : 09 72 66 31 75
Avis
Il n’y a pas encore d’avis.