Efficacité Opérationnelle
Déployer le traitement automatisé des documents dans une organisation publique
Les organisations publiques s’appuient sur d’immenses volumes de recherches et de rapports publiés pour façonner leurs politiques, et trouver les bons documents au bon moment relève du casse-tête.
Pour l'une d'elles, Agilytic a conçu un pipeline de traitement automatisé des documents. L'objectif : permettre aux décideurs de collecter, classer et extraire des informations pertinentes à partir des publications de leurs partenaires.

Pour protéger la confidentialité, nous pouvons modifier certains détails tout en préservant l'essence de notre contribution principale.
Contexte & objectifs
Une organisation publique internationale ne disposait pas d’un système centralisé de suivi et de traitement des publications de ses institutions partenaires. Sans structure adaptée, les équipes peinaient à indexer, rechercher et extraire des informations pertinentes dans une masse croissante de rapports et de documents politiques.
L’organisation avait besoin de :
scraper les sites web de ses partenaires à plusieurs niveaux (international, régional et local) ;
classer les documents collectés selon des dizaines de thèmes pertinents pour les politiques publiques.
Des méthodes fiables de traitement de documents et des algorithmes de traitement automatique du langage naturel (NLP) étaient essentiels pour allouer efficacement les ressources de recherche et soutenir une prise de décision plus éclairée.
Approche
D’un proof of concept à un prototype
Après la livraison d'une preuve de concept (POC) convaincante, le client a demandé à Agilytic de développer un prototype complet. L’équipe a mené des itérations agiles directement dans l’environnement du client, garantissant que la solution réponde aux besoins réels à chaque étape.
Construction du pipeline de traitement automatisé des documents
Chaque document entrant dans le pipeline nécessitait l’extraction d'un résumé, un titre et plusieurs mots-clés, avec une classification parmi des dizaines de domaines d’intérêt.
Les documents n’avaient aucune structure ou format commun et arrivaient dans l’une des nombreuses langues de l’Union européenne. Les extraits clés étaient traduits en anglais pour assurer un traitement efficace et cohérent.
Infrastructure et déploiement
La solution a été déployée dans l’environnement AWS du client, avec une infrastructure cloud conçue et gérée via Terraform pour faciliter la maintenance et l’évolutivité.
Le prototype a été développé en Python, utilisant Docker pour la conteneurisation et des bases de données SQL pour le stockage. Une API a été mise en place pour gérer les organisations à scraper et alimenter le pipeline avec des documents spécifiques.
Résultats
Les principaux livrables étaient :
le code source de la solution, pour déployer l’infrastructure et réaliser le scraping, l’extraction et l’analyse NLP ;
une documentation complète sur le déploiement de la solution Infrastructure as Code (IaC) dans l’environnement du client ;
des sessions de transfert de compétences avec l’équipe du client pour une maîtrise totale du pipeline, incluant la capacité à l’enrichir avec de nouvelles fonctionnalités.
Cette solution de traitement automatisé de documents a renforcé la capacité de l’organisation à identifier et exploiter des publications qui soutiennent directement l’élaboration de politiques et la prise de décision.
Cette solution apporte qualité, rapidité, flexibilité, sécurité et rentabilité à leurs processus de recherche et de décision.
Pour garantir la confidentialité, nous modifions parfois certains détails dans nos études de cas.