L’un des types d’IA les plus puissants et les plus fascinants est la vision par ordinateur ou computer vision (CV), que vous avez très certainement expérimenté de nombreuses manières sans même le savoir. Voici un aperçu de ce qu’elle est, de son fonctionnement et des raisons pour lesquelles elle est si importante.
La computer vision est un type d’intelligence artificielle (IA) qui utilise des algorithmes pour détecter et comprendre les informations contenues dans les images ou les vidéos. Elle n’est pas réservée aux ordinateurs : vous l’utilisez chaque fois que l’appareil photo de votre téléphone reconnaît votre visage ou vérifie les antécédents d’une personne figurant sur vos photos.

Un cerveau 2.0…
Aitken , Hopfield , Grossberg . Ce sont les noms de certains des plus importants pionniers des neurosciences, de l’apprentissage automatique et des neurosciences computationnelles. Ils ont apporté d’énormes contributions à notre compréhension du fonctionnement du cerveau, et ont à leur tour inspiré de nombreux autres chercheurs à créer des systèmes d’intelligence artificielle basés sur ces idées. Dans ce billet, je vais tenter d’expliquer ce qu’est la vision par ordinateur, comment elle fonctionne (ou comment nous pensons qu’elle fonctionne) et comment vous pouvez l’utiliser pour vos applications. Toutes les techniques et tous les algorithmes de traitement d’images décrits dans ce billet sont basés sur ceux développés par Aitken, Hopfield, Grossberg et leurs étudiants.
Mais, alors, qu’est-ce que la computer vision ? La vision par ordinateur est une partie de l’informatique qui étudie comment les ordinateurs peuvent interpréter automatiquement les images. En d’autres termes, il s’agit de faire en sorte que les ordinateurs voient comme les humains. La vision par ordinateur est très liée aux neurosciences, puisque l’un de ses objectifs est de reproduire certaines parties du système visuel humain (appelé système visuel des primates). Alors que les neurosciences étudient les cerveaux biologiques, elle étudie les cerveaux artificiels. Nous étudions la biologie pour comprendre comment fonctionne notre propre cerveau et nous étudions les algorithmes pour comprendre comment un ordinateur peut faire des choses similaires à celui-ci.
L’un des problèmes les plus importants que les algorithmes de computer vision tentent de résoudre est l’apprentissage profond de la reconnaissance des personnes et des objets. Plusieurs problèmes se posent ici : Qu’est-ce qu’un objet ? Comment reconnaître un objet ? Pour répondre à ces questions, examinons de plus près la façon dont les informations visuelles sont perçues par notre cerveau. En pratique, la reconnaissance d’images est réalisée en décomposant une image en ses différentes parties, en découvrant leurs caractéristiques. Puis en faisant correspondre ces caractéristiques aux caractéristiques d’un objet connu, on arrive à reconnaître un objet ou un visage. Il peut s’agir d’un processus difficile et chronophage. C’est là que l’apprentissage profond entre en jeu.

L’apprentissage profond.
C’est grâce à l’apprentissage profond que les ordinateurs peuvent apprendre à effectuer des tâches eux-mêmes, ceci signifie que vous n’avez pas besoin de consacrer autant de temps et d’efforts à coder les systèmes vous-même.
Comment fonctionne exactement l’apprentissage profond ? L’apprentissage profond fait référence à un ensemble d’algorithmes capables de traiter de grandes quantités de données sans intervention humaine. Ces algorithmes s’inspirent du fonctionnement des neurones et des synapses dans notre cerveau, ce qui les rend idéaux pour les applications de vision par ordinateur, car ils sont capables d’analyser les informations visuelles comme le font les humains mais d’une manière à la fois flexible et évolutive. Les réseaux neuronaux profonds sont des couches de neurones artificiels connectés entre eux de manière à imiter les connexions entre les neurones de notre cerveau.
Avec l’avènement de l’apprentissage profond, la situation a changé. Les algorithmes d’apprentissage profond sont capables de détecter et d’identifier des objets ou de suivre des visages dans des séquences de caméras normales avec un haut degré de précision.
Si vous souhaitez créer une application ou un site Web capable de détecter des visages dans des images et des vidéos, il est essentiel de créer un ensemble de données d’entraînement pour apprendre à votre réseau neuronal profond comment effectuer cette tâche. Si vous ne disposez pas des ressources nécessaires pour collecter des données par vous-même, il existe plusieurs bases de données déjà créées à cet effet. Par exemple, la plus importante s’appelle Labeled Faces in the Wild (LFW) et contient plus de 13 000 visages individualisés sous plus de 60 angles différents. Elle a été développée par Microsoft Research en collaboration avec l’Université de Californie à Berkley. Cette base de données peut être téléchargée sur le site web de Microsoft. Il existe de nombreuses autres bases de données que vous pouvez utiliser, telles que FERET, CASIA WebFace, etc.
Vous utilisez déjà la computer vision !
La vision par ordinateur est l’un des domaines de l’apprentissage automatique dont les concepts de base sont déjà intégrés dans les principaux produits que nous utilisons tous les jours. En fait, il est difficile de les éviter : La computer vision a des applications dans tous les domaines, des voitures à conduite autonome aux applications de retouche photo. Elle est généralement définie comme une branche de l’apprentissage automatique qui traite de la manière dont les ordinateurs peuvent comprendre et analyser les images.
La vision par ordinateur fait également partie intégrante des progrès des technologies de la santé. Les algorithmes lui permettent d’automatiser des tâches telles que la détection des grains de beauté cancéreux dans les images de la peau ou la détection de symptômes lors des rayons X et de l’IRM.
Elle est aussi utilisée dans les appareils de réalité augmentée pour détecter des objets dans le monde réel afin de déterminer où placer un objet virtuel sur un écran.
La plupart des gens ne réalisent pas que la technologie informatique avancée rend possibles des fonctionnalités populaires comme les filtres de visage de Snapchat et les filtres Facebook Live (qui ajoutent des oreilles de chien et des couronnes de fleurs).


Le mot de la fin…

Nous vivons une époque intéressante. L’intelligence artificielle, l’apprentissage automatique et l’apprentissage profond peuvent désormais résoudre des problèmes du monde réel grâce à certaines des entreprises les plus innovantes de notre génération. En ce moment même, des milliers de personnes dans le monde utilisent probablement des réseaux neuronaux pour aider à diagnostiquer le cancer, à détecter les hémorragies intracrâniennes, à améliorer les systèmes de navigation des drones, ou à identifier des éléments pour programmer de la classification de documents… Qui sait à quoi ils serviront à l’avenir ?