La computer vision, nos usages et nos enjeux
La computer vision (vision par ordinateur) désigne une technique d’intelligence artificielle permettant d’analyser des images et vidéos captées par une caméra. L’intelligence artificielle est capable d’analyser une image, de la comprendre et de traiter les informations qui en découlent. La performance actuelle des capteurs, relative à la qualité de la vidéo, donne la possibilité aux algorithmes d’intelligence artificielle de voir le monde. En catégorisant des objets, leurs déplacements dans l’espace et en analysant des facteurs visuels correspondant à une situation précise, l’IA va pouvoir analyser en temps réel et envoyer une information pour que l’humain puisse y accéder et potentiellement, en déduire une prise de décision.
Par exemple, notre algorithme a été entraîné à détecter et à catégoriser des départs de feux afin d’alerter en temps réel les autorités compétentes pour une intervention plus rapide et plus efficace.
Les collectivités et les infrastructures sont déjà dotées de caméras pour une multitude d’usage : comptage des mobilités, étude des flux, protection des bâtiments et installations publics, constatation des infractions aux règles de la circulation, protection des abords immédiats des bâtiments et installations de commerçants présents dans les lieux particulièrement exposés à des risques d'agression ou de vol… Sans surcouche d’intelligence artificielle, c’est à l'œil humain de voir et d’analyser toutes les situations. Or, chaque année la quantité d’informations accumulées par l’humanité double et seulement 70 % de ces données sont perçues par la vision humaine. Quand nous avons atteint les limites des capacités cognitives nécessaires pour traiter toutes ces informations, notre cerveau n’en est plus capable. De par son évolution, celui-ci opère une analyse biaisée de la réalité afin d’optimiser ses dépenses en énergie. L’analyse vidéo en intelligence artificielle va donc soulager et accompagner l'œil humain.
Un des premiers enjeux de la computer vision est lié à la complexité du monde visuel. Un objet peut être perçu sous de multiples angles, dans diverses conditions d’éclairage, partiellement caché par d’autres objets… Or, un véritable système de vision par ordinateur doit être en mesure de percevoir le contenu dans n’importe laquelle de ces situations et d’en extraire des informations. De fait, la vision par ordinateur représente un véritable challenge.
Qui dit nouvelle technologie et perceptions d’objets dit nouveaux enjeux juridiques, éthiques et politiques. Les caméras étant déployées dans des espaces publics et privés, des questions sur les libertés individuelles des personnes se posent. Dès lors qu’il y a une présence humaine ou une présence d’objet permettant une association indirecte à une personne, les captations d’images (photos ou vidéos) et leurs traitements sont régies par le RGPD. Chez XXII, nous n’analysons pas de données à caractère personnel : nous distinguons des silhouettes que nous apparentons à une catégorie d’objet (humain, chien, voiture, vélo…) sans jamais utiliser de données biométriques. Au-delà de la catégorisation d’objets, certains traitements de nos données ont des finalités d'analyse et d'optimisation (chaîne de montage, analyse des flux de mobilités…). Dans nos analyses algorithmiques, de nombreuses données, dont celles à caractère personnel, peuvent être considérées comme étant en "sommeil". Elles sont captées par la caméra mais n’entrent pas dans le schéma d’analyse d’intelligence artificielle.
Analyse d’impact relative à la protection des données.
Pourquoi ?
Avoir un dataset photos ou vidéos est indispensable à l’IA. Sans, la technologie ne peut exister. La vision nécessite une grande quantité de données images et vidéos pour pouvoir apprendre, tester et analyser les modèles. C’est ce qu’on appelle le deep learning : le deep learning consiste en des algorithmes capables de mimer les actions du cerveau humain grâce à des réseaux de neurones artificiels. Les réseaux sont composés de dizaines voire de centaines de « couches » de neurones, chacune recevant et interprétant les informations de la couche précédente. Dès lors que nous constituons un dataset, permettant à la machine de reconnaître et classifier des objets, il est fait dans le respect du RGPD et dans certains cas, peut être encadré par une une analyse d’impact relative à la protection des données
Création d'une BDD
Nous créons des bases de données spécifiques pour un usage exclusif de recherche scientifique interne à XXII et ce, dans le respect des personnes concernées et de la législation en vigueur. Afin de limiter au maximum les impacts sur les personnes relatives au traitement de potentielles données à caractère personnel, nous travaillons actuellement sur la mise en place de génération de datasets grâce à de la donnée synthétique. Les datasets constitués sont ciblés à un usecase (par exemple, apprendre un nouvel objet) et variés (par exemple, challenger la détection d’un objet dans de multiples situations). De plus, nos datasets sont constitués dans le strict respect du RGPD : avec des solutions en open source, avec le consentement des personnes concernées, en partenariats avec différents acteurs et en pseudonymisant les données.
Annotation
Dans le développement d’un algorithme d’intelligence artificielle, certaines démarches comme l’apprentissage, nécessitent un corpus de données annotées. C’est pourquoi, en interne, la première phase de recherche et de développement porte sur l’annotation des données collectées (classes d’objets, angles de caméra, conditions météorologiques…).
Apprentissage
La vision par ordinateur a pour but de permettre à l’ordinateur de voir, d’analyser et de comprendre une ou plusieurs images reçues par le système. C’est pourquoi nous apprenons à nos modèles d’intelligences artificielles, souvent des réseaux de neurones profonds, sur un corpus (donc une ou plusieurs bases de données) contenant des images d'exemples annotées. Que ce soit pour entraîner, ou ré-entraîner (spécialiser, corriger un biais, etc...) nos algorithmes, des données visuelles (images, vidéos) sont nécessaires.
Évaluation
L'évaluation, ou test, de nos modèles a pour objectif de mesurer nos performances selon un ensemble de critères prédéfinis. L'évaluation peut concerner tout le modèle ou une partie du modèle. Nous nous intéressons notamment au taux de vrai positif, taux de faux positif, taux de vrai négatif et taux de faux négatif. A partir de ces mesures, nous pouvons construire des indicateurs plus lisibles (sensibilité, spécificité, etc).
Ces mesures sont effectuées par classes d'objets et combinées pour fournir un score moyen. Une classe correspond à une typologie d'objet plus ou moins précise (humain, vélo, cycliste, voiture, véhicule, ...). Elles sont importantes car elles nous permettent de comprendre les limites de nos modèles et de les communiquer à nos utilisateurs. Ces tests peuvent être effectués sur des données pseudonymisées, grâce à des logiciels propriétaires ou développés en interne.
Un des grands enjeux de l'intelligence artificielle est la création d'algorithmes exemptés de tout biais. Nous parlons de biais quand l'IA favorise une situation vis à vis d'une autre. Par exemple, y-a-t'il une différence de détection entre les voitures bleues et rouges ? Pour parer à ces éventuels biais, il faut de nombreux datasets pour enrichir les modèles afin qu'ils soient variés et diversifiés. Nos équipes de R&D ont mis en place un process continu de développement, d’apprentissage et de test de nos algorithmes pour parer d’éventuels biais.
Par ailleurs, la diversité des bases de données est également primordiale pour évaluer nos performances selon les angles de vues des images. La diversité des angles compris dans nos bases de données nous permettra de déterminer si, selon certains angles de caméra, nos algorithmes détectent plus ou moins bien l’objet recherché
RGPD & éthique chez XXII
CORE, un outil d’aide à la décision
La vision par ordinateur traite des flux vidéos contenant des données à caractère personnel, il est donc primordial pour nous d'être respectueux du RGPD et des textes complémentaires. Nous réaffirmons également notre positionnement d’outil d’aide à la prise de décision. En aucun cas nous ne remplacerons l'œil humain, notre solution le complète. En effet, notre plateforme est un outil d’aide à la décision pour les opérateurs. Il n’entraîne, par exemple, aucune procédure automatisée à la suite d’une infraction commise ou présumée et facilite simplement l’accès à des informations déjà présentes au sein d’un centre de sécurité, ainsi, l’usage de notre solution reste toujours encadré par l’intervention humaine. Notre plateforme respecte les valeurs portées par la CNIL et constatées tout au long de sa position :
La nécessité de notre produit réside dans l’utilité du dispositif au regard de l’objectif poursuivi qui doit être clairement identifié.
La proportionnalité réside dans la présence déjà existante de la vidéoprotection. Notre produit n’impacte en aucun cas les personnes concernées d’une autre manière que celle prévue par la vidéoprotection ou vidéosurveillance.
La minimisation des données s’opère notamment à travers l’absence de stockage des données personnelles par XXII. En effet, notre logiciel ne stocke, à date, aucun flux vidéo et fonctionne en temps réel.
La non-identification, nos algorithmes considèrent une personne comme étant une silhouette, s’affranchissant ainsi de toute donnée à caractère personnel, c’est donc la position dans l’espace de cette silhouette qui est analysée. Enfin, l’analyse est réalisée sur un ensemble de personnes et non arbitrairement. Il n’y a donc pas d’analyse ciblée d’un individu.