Data.gouv facilite l'accès des IA génératives aux données publiques

La plateforme nationale des données ouvertes data.gouv.fr a lancé le 25 février une expérimentation sur un  outil permettant d'interroger directement les jeux de données publics français via l'IA. Une première dans le secteur public en France. Le service est très prometteur même s'il exige, pour le moment, d'accepter les bugs et de mettre la main dans la technique.

Depuis quelques jours, les données de data.gouv sont accessibles via un "serveur MCP" expérimental. MCP est l'acronyme de Model Context Protocol, un standard ouvert lancé fin 2024 par Anthropic, l'entreprise qui développe l'assistant Claude et désormais porté au sein de l’Agentic AI Foundation. Ce MCP joue  le rôle d'intermédiaire pour que l'IA explore et manipule les données, en minimisant l'intervention humaine. Qu'est-ce que cela change pour l'utilisateur ?  Au lieu de rechercher les jeux de données en tapant des mots-clefs et de les télécharger pour les analyser, il pose une question en langage naturel dans l'IA — "Quels jeux de données sont disponibles sur les municipales ?", cet exemple est développé en encadré ci-dessous — et c'est l'IA qui interroge data.gouv via le MCP. Elle restitue une réponse rédigée, compréhensible par un non-technicien.

Raccordable aux principales IA génératives 

Concrètement, cela signifie que des chatbots comme Claude, ChatGPT ou Mistral compatibles avec MCP peuvent désormais être branchés sur l'ensemble du catalogue de données publiques françaises. La principale plus-value de ce service est d'améliorer la "découvrabilité" des données, l'IA pouvant tester plusieurs mots clefs et compiler des données là où il aurait fallu de multiples requêtes pour les trouver. Interrogé sur les données concernant la couverture fibre, par exemple, le résultat propose un résumé des jeux produits par l'Arcep (déploiement, éligibilité, qualité), l'ANCT (zonages) ou encore l'Avicca (données par RIP ou opérateur) en décrivant succinctement leur contenu via les métadonnées (si elles sont renseignées).  

À ce stade, le serveur MCP de data.gouv propose les fonctionnalités suivantes : recherche de jeux de données par mots-clés, accès aux métadonnées, interrogation directe des fichiers tabulaires hébergés sur la plateforme (avec possibilité de calculs), téléchargement et analyse de ressources volumineuses, exploration des API référencées sur la plateforme et consultation des statistiques de téléchargement des jeux de données.

La prudence s'impose

Avec ce service, data.gouv.fr explique sur Linkedin vouloir "tester de nouvelles façons d'interroger et de valoriser les données publiques via des interfaces conversationnelles", avec, à terme, la possibilité d'éditer et de publier des données en s'appuyant sur des modèles souverains.

Au-delà de la recherche de données, l'outil va faciliter les croisements de données, l'IA étant capable, au moins en théorie, de réaliser des calculs et de générer des visualisations. 

Des perspectives à prendre avec précaution. Data.gouv rappelle que "ce type de dispositif est difficile à auditer. Les modèles de langage peuvent produire des réponses incomplètes, approximatives ou erronées. Ils ne constituent en aucun cas une source officielle ou fiable en tant que telle". De fait, en testant, on s'aperçoit que l'IA peut, si elle n'arrive pas à accéder à un jeu de données, aller chercher la réponse ailleurs… sans garantie sur la qualité de la source et avec finalement une grande opacité sur le résultat.

Barrières techniques

Par ailleurs, pour le moment, cette fonctionnalité est réservée à un public averti. Dans la plupart des cas, il faudra recourir à une IA payante, voire installer des modules spécifiques sur son ordinateur. Il y a ensuite des paramétrages techniques qui peuvent être rebutants.

Enfin, comme c'est souvent le cas pour les lancements, l'annonce a provoqué des embouteillages, le service étant victime de son succès. Les utilisateurs sont actuellement régulièrement redirigés vers la page sorry.data.gouv.fr — "Site en cours de maintenance" — dès ses premiers jours d'existence. Néanmoins, Data.gouv incite à tester le service pour corriger les bugs et l'adapter aux besoins des utilisateurs.

Explorer les données sur les municipales

Sur une question générique (quelles données disponibles sur les municipales 2026 ?), Claude.ai nous a remonté le dernier fichier publié par le ministère de l'Intérieur sur les candidats, les sièges à pourvoir, les résultats des précédentes élections ou encore la liste des bureaux de vote (voir notre article).

On peut ensuite demander "quels sont les candidats dans telle et telle commune ?"  L'IA répond en donnant (avec succès durant notre test) le nom de la liste, celui des candidats avec leur étiquette politique.  Claude commente aussi les données en signalant, par exemple, que tel candidat est aussi ministre ou député (ce qui n'est évidemment pas dans les données brutes).

On peut aussi demander des pistes d'analyse. Spontanément, l'IA en propose sur la parité (au niveau têtes de listes), le nombre de listes, la géographie des nuances politiques ou encore la nationalité des candidats. Il propose aussi de croiser ces données avec d'autres jeux comme la population Insee pour avoir une analyse par strate.

C'est sur cette partie analyse que cela se corse cependant, la manipulation des jeux – et notamment celui des candidats qui compte quelques 900.000 lignes – étant encore très laborieuse. Entre bugs techniques, données inaccessibles, lenteurs et risques d'erreurs, il n'est pas certain que les experts de la data aient, au moins pour le moment, beaucoup à y gagner sur la réalisation 

 

Abonnez-vous à Localtis !

Recevez le détail de notre édition quotidienne ou notre synthèse hebdomadaire sur l’actualité des politiques publiques. Merci de confirmer votre abonnement dans le mail que vous recevrez suite à votre inscription.

Découvrir Localtis