Comment Starclay aide  à optimiser les dépôts de plaintes grâce au NLP ?

En résumé

Le ministère de l’Intérieur a lancé un nouveau projet de plainte en ligne permettant, à l’horizon 2022, aux victimes de ne plus se déplacer. Starclay a eu la chance de pouvoir faire travailler ses équipes sur cette problématique Data très intéressante.

Le contexte

La semaine de l’innovation publique s’est terminée le 29 novembre. Cet événement organisé par la Direction interministérielle de la transformation publique (DTIP) mettait en avant les efforts de transformation numérique du gouvernement et de ses agences. L’occasion de présenter les résultats des premiers projets IA.

Ceux-ci devaient se baser sur des corpus de données ouvertes publiées sur data.gouv.fr, sur des informations externes, mais publiques et des dossiers internes.

Ensuite, les agences, le département, le ministère et le centre hospitalier universitaire impliqués ont appliqué des analyses sémantiques, de la reconnaissance visuelle, de la détection d’anomalies et des modèles prédictifs pour en tirer de la valeur.

L’objectif principal ? Améliorer les phases de contrôle et faciliter le travail des agents sur le terrain.

Les points clés

1

Créer un modèle de prédiction qui va permettre de définir l’infraction en question.

2

Identifier les éléments manquant dans le texte nécessaire à la rédaction d’un PV.

3

Générateur de questions pour avoir plus de précision sur les éléments manquants.

Les objectifs

L’objectif du projet est de passer d’un formulaire figé à un dépôt de plainte intelligent, en utilisant des techniques de traitement automatisé du langage, développer les prérequis en terme d’algorithmes qui permettent ensuite d’alimenter un « dialogueur victime », pour mieux guider la victime dans sa démarche de dépôt de plainte.

Le prototype développé devra couvrir les exigences fonctionnelles et techniques suivantes :

  • Catégoriser automatiquement les pré-plaintes selon la nature de l’infraction (code NATINF).
  • Produire une ontologie complète et hiérarchisée des éléments constitutifs d’un PV de plainte pour atteinte aux biens, en collaboration avec la Gendarmerie.
  • Détecter l’ensemble des éléments manquants pour sa transformation en procès-verbal (officialisant le dépôt de plainte).
  • Poser les questions permettant de recueillir les éléments nécessaires à la finalisation de la plainte.

La solution Starclay

La première partie de la solution est un modèle de prédiction qui va permettre de définir l’infraction en question. Technologiquement, cette brique repose sur un embbeding de textes en utilisant la librairie FastText de Facebook et une classification supervisée de texte en utilisant XGBoost. L’outil propose plusieurs infractions possibles par ordre de probabilité.

La seconde partie de la solution permet d’identifier les éléments manquants dans le texte nécessaires à la rédaction d’un PV de plainte. Cette brique repose sur un moteur de règles expertes basé sur l’identification d’absence ou de présence de mots-clés.

La troisième partie de la solution est un générateur de questions à poser à la victime pour répondre aux éléments manquants qui ont été identifiés dans la seconde partie. Cette rubrique repose sur une approche similaire à la première partie (Classification supervisée des questions posées aux victimes) associée à des modèles de régression probabilistes.

Les feedback

Réussites

Dans 80% des cas, l’infraction est prédite en TOP1 et dans 97% des cas, l’infraction correcte figure dans le TOP3 des infractions prédites par le modèle.

Objectifs futurs

Toutefois, compte tenu des questions qui n’ont pas été notées, et des questions intuitives qui ne concernent pas d’informations manquantes. Il faudrait que le système apprenne ses erreurs pour qu’il progresse automatiquement.