Traitement automatique de document grâce à l’IA

En résumé 

Notre client leader dans le traitement d’informations juridiques reçoit régulièrement les derniers documents de jurisprudence (cours d’appel notamment). Ces documents doivent être OCRisés, anonymisés et structurés avant de pouvoir être consultés par des clients dans son logiciel de consultation juridique.

Le contexte

Jusqu’à présent le prétraitement des documents se faisait par un prestataire externe, mais ce coût n’est pas négligeable d’autant plus que le nombre de documents reçu se fait de plus en plus important.

Les objectifs

Le principal but est d’utiliser des techniques de machine learning pour internaliser au maximum les tâches de prétraitement.

La solution Starclay

Les experts data Scientist de StarClay ont implémenté une solution permettant l’anonymisation automatique des patronymes et des adresses, la structuration de documents en paragraphes et la classification de paragraphes en utilisant des méthodes de machine learning « classique » (tf-idf, SVM, etc.) et de deeplearning (RNN, transformer, etc.).

Les feedback

Réussites

Les résultats sont bons, avec jusqu’à 97% de précision par document selon les tâches.

Objectifs futurs

Réduire les délais de traitements des documents, réduire les couts en internalisant cette gestion documentaire.