Efficacité Opérationnelle

Déployer le traitement automatisé des documents dans une organisation publique

Les organisations publiques s’appuient sur d’immenses volumes de recherches et de rapports publiés pour façonner leurs politiques, et trouver les bons documents au bon moment relève du casse-tête.

Pour l'une d'elles, Agilytic a conçu un pipeline de traitement automatisé des documents. L'objectif : permettre aux décideurs de collecter, classer et extraire des informations pertinentes à partir des publications de leurs partenaires.

Traitement automatisé des documents dans le service public

Pour protéger la confidentialité, nous pouvons modifier certains détails tout en préservant l'essence de notre contribution principale.

Contexte & objectifs

Une organisation publique internationale ne disposait pas d’un système centralisé de suivi et de traitement des publications de ses institutions partenaires. Sans structure adaptée, les équipes peinaient à indexer, rechercher et extraire des informations pertinentes dans une masse croissante de rapports et de documents politiques.

L’organisation avait besoin de :

scraper les sites web de ses partenaires à plusieurs niveaux (international, régional et local) ;
classer les documents collectés selon des dizaines de thèmes pertinents pour les politiques publiques.

Des méthodes fiables de traitement de documents et des algorithmes de traitement automatique du langage naturel (NLP) étaient essentiels pour allouer efficacement les ressources de recherche et soutenir une prise de décision plus éclairée.

Approche

D’un proof of concept à un prototype

Après la livraison d'une preuve de concept (POC) convaincante, le client a demandé à Agilytic de développer un prototype complet. L’équipe a mené des itérations agiles directement dans l’environnement du client, garantissant que la solution réponde aux besoins réels à chaque étape.

Construction du pipeline de traitement automatisé des documents

Chaque document entrant dans le pipeline nécessitait l’extraction d'un résumé, un titre et plusieurs mots-clés, avec une classification parmi des dizaines de domaines d’intérêt.

Les documents n’avaient aucune structure ou format commun et arrivaient dans l’une des nombreuses langues de l’Union européenne. Les extraits clés étaient traduits en anglais pour assurer un traitement efficace et cohérent.

Infrastructure et déploiement

La solution a été déployée dans l’environnement AWS du client, avec une infrastructure cloud conçue et gérée via Terraform pour faciliter la maintenance et l’évolutivité.

Le prototype a été développé en Python, utilisant Docker pour la conteneurisation et des bases de données SQL pour le stockage. Une API a été mise en place pour gérer les organisations à scraper et alimenter le pipeline avec des documents spécifiques.

Résultats

Les principaux livrables étaient :

le code source de la solution, pour déployer l’infrastructure et réaliser le scraping, l’extraction et l’analyse NLP ;
une documentation complète sur le déploiement de la solution Infrastructure as Code (IaC) dans l’environnement du client ;
des sessions de transfert de compétences avec l’équipe du client pour une maîtrise totale du pipeline, incluant la capacité à l’enrichir avec de nouvelles fonctionnalités.

Cette solution de traitement automatisé de documents a renforcé la capacité de l’organisation à identifier et exploiter des publications qui soutiennent directement l’élaboration de politiques et la prise de décision.

Cette solution apporte qualité, rapidité, flexibilité, sécurité et rentabilité à leurs processus de recherche et de décision.

Pour garantir la confidentialité, nous modifions parfois certains détails dans nos études de cas.

Prêt à atteindre vos objectifs avec les données ?

Si vous souhaitez atteindre vos objectifs grâce à une utilisation plus intelligente des données et de l'IA, vous êtes au bon endroit.

Commencez

Déployer le traitement automatisé des documents dans une organisation publique

Contexte & objectifs

Approche

D’un proof of concept à un prototype

Construction du pipeline de traitement automatisé des documents

Infrastructure et déploiement

Résultats

Prêt à atteindre vos objectifs avec les données ?

Prêt à atteindre vos objectifs avec les données ?

Prêt à atteindre vos objectifs avec les données ?

Prêt à atteindre vos objectifs avec les données ?