Grand Débat : le in et le off de l'analyse des données

 1,6 million de réponses aux questionnaires de la plateforme, 16.000 cahiers citoyens, des comptes-rendus de réunions locales et bientôt des délibérations issues des conférences citoyennes : c'est le "big data" du Grand Débat national. Côté gouvernement qui s'est engagé à tout prendre en compte, le traitement et l'analyse de ces données doivent être réalisés en un temps record par une armée de prestataires intervenant à différentes étapes. Pendant ce temps, face à ce qu'ils considèrent comme une sorte de "boîte noire", chercheurs, praticiens de la concertation et citoyens s'organisent pour produire leurs propres analyses à partir d'échantillons de réunions ou de données du débat. La démarche de l'Observatoire des débats a notamment été présentée le 12 mars à Grenoble, lors des Rencontres nationales de la participation.

Au Festival d'Avignon, il y a le "in" et le "off". Les comédiens de la programmation officielle, qui sont sous les feux des projecteurs sans avoir d'effort à fournir, et ceux des petites salles – la majorité – qui donnent de leur personne pour se produire et glaner un peu d'attention. Le Grand Débat national, c'est un peu ça aussi : une plateforme officielle – "in" – et une plateforme du "Vrai débat" portée par des gilets jaunes, ainsi qu'une multitude d'autres initiatives "off". Pareil pour les réunions locales : certaines rentrent scrupuleusement dans les clous proposés par le gouvernement, d'autres préfèrent se distinguer. Même dans l'analyse des données de la consultation, il y a le in et le off. D'un côté, la mission Grand Débat placée sous l'autorité du Premier ministre et sa myriade de prestataires (voir notre encadré ci-dessous). De l'autre, des démarches spontanées telles que l'Observatoire des débats et la Grande Annotation.

235 débats suivis par des observateurs volontaires

"Mi-janvier, un ensemble d'acteurs et de chercheurs de la participation ont estimé qu'il serait utile de mettre en place une sorte de dispositif citoyen d'observation et de contrôle démocratique de ce qui allait se passer dans le débat, puisqu'au départ on n'avait pas de garanties très claires", a présenté Jean-Michel Fourniau, directeur du Groupement d'intérêt scientifique (GIS) Démocratie et participation, le 12 mars à Grenoble lors des Rencontres nationales de la participation organisées par Décider ensemble avec une vingtaine de partenaires, dont la Banque des Territoires (voir nos autres articles ci-dessous). Le GIS et l'Institut de la concertation et de la participation citoyenne (ICPC), en lien avec le Cevipof, ont donc mis sur pied en quelques jours un Observatoire des débats.
Au 4 mars 2019, sur 200 observateurs volontaires, 86 avaient assisté à une ou plusieurs réunions publiques ; 235 débats ont ainsi été suivis sur 8.400 déclarés sur le site du Grand Débat, soit une couverture de 2,8% des débats.

Une consultation de six mois "aurait permis une plus forte mobilisation"

7.000 questionnaires remplis par des participants ont par ailleurs été recueillis. Parmi les premiers éléments d'observation : des participants plutôt âgés, deux tiers d'hommes environ, peu de jeunes, peu de minorités visibles. Concernant l'ensemble des réunions enregistrées sur le site, "la carte des débats est plutôt une carte urbaine, elle ne correspond pas tellement à cette France périphérique qui s'est d'abord fortement mobilisée", note Jean-Michel Fourniau (voir aussi notre encadré à l'article du 13 mars 2019 "Grand Débat : et maintenant ?"). Quant aux initiateurs, "les élus, à la fois députés et maires, ont organisé plus de la moitié des débats".
La mobilisation sur ces réunions est jugée "forte" - elle devrait être de l'ordre de 500.000 personnes -, donc certes assez "inédite", mais inférieure par exemple au "débat sur l'école mené il y a 15 ans, qui avait duré six mois et touché un million de personnes". Pour le chercheur, il y a un enjeu de "temporalité du débat" : "Ça prend du temps de se dire : moi aussi j'ai voix au chapitre, je peux organiser une réunion. Et deux mois c'est assez court, un délai plus long aurait permis une plus forte mobilisation d'acteurs assez divers."

Numérisation, retranscription, analyse de données de masse… un calendrier serré

Ce manque de temps concerne également la phase de d'analyse - et de "digestion", selon le terme employé par le Premier ministre ce 15 mars sur Europe 1 -, puisqu'il reste quelque trois semaines à la mission Grand Débat, et surtout à ses prestataires, pour pondre les premières synthèses.
C'est concernant les "contributions libres", et en particulier les cahiers citoyens, que le calendrier est le plus tendu. Avant la phase d'analyse, le traitement des données passe en effet par plusieurs étapes de préparation du matériau : numérisation de quelque 500.000 pages - correspondant essentiellement aux 16.000 cahiers citoyens recueillis dans les mairies-, conversion en fichiers texte de documents dactylographiés, transcription des contributions manuscrites en fichiers numériques (voir notre encadré ci-dessous pour le détail).
Après ces étapes, le matériau informatisé peut être livré au consortium piloté par Roland Berger, associé à Bluenove et Cognito, chargé de l'analyse. "Le consortium porté par Roland Berger a commencé son travail d'analyse : 70.000 pages lui ont déjà été livrées. Nous tenons parfaitement les délais", a précisé à Localtis Arnaud Magnier, de la mission Grand Débat, qui pilotait déjà les consultations citoyennes sur l'Europe. 
Comme au Festival d'Avignon, il y aura dans l'analyse des données du Grand Débat des croisements entre le "in" et le "off". A l'invitation du think tank Décider ensemble, une journée réunira le 18 mars, au Conseil économique, social et environnemental, la communauté des "Civic tech" afin d'appréhender les évolutions en cours et de revenir sur le terrain de jeu particulier que constitue le Grand Débat.

Cap collectif, OpinionWay, la BNF, Roland Berger-Bluenove-Cognito… données du Grand Débat : qui fait quoi ?

Par son ampleur et sa diversité, le matériau recueilli à l'occasion du Grand Débat national n'a pas d'équivalent. Directeur conseil de Cap collectif, l'entreprise de la civic tech qui a administré la plateforme de la consultation, Thibaut Dernoncourt a fait le point, le 12 mars à Grenoble, sur les chiffres : 2,5 millions de visiteurs, 560.000 inscrits dont 450.000 ayant contribué au moins d'une manière – "rempli au moins un questionnaire et/ou une réunion locale" -, 1,6 million de réponses aux questionnaires (environ 75% sur les quatre questionnaires à questions fermées et 25% sur les questions ouvertes) et environ 10.000 réunions locales publiées.
"Ce qui a été un vrai défi, c'est de pouvoir intégrer ce volume, a témoigné le représentant de Cap collectif. Les consultations à plus fort volume qu'on avait faites sur la plateforme atteignaient 30.000 participants, 65.000 contributions." Le défi a été à la fois "technique" – gérer les "pics d'audience" -, lié au "changement de gouvernance" – avec la personnalisation de la technologie dupliquée en fonction d'enjeux de "sécurité, accessibilité, performance" - et au contexte inédit de forte médiatisation - "d'habitude on lance des concertations dans une forme d'indifférence générale".
Interrogé sur les choix opérés par le gouvernement, Thibaut Dernoncourt répond que la plateforme est effectivement "moins ouverte qu'elle aurait pu l'être", mais rappelle que, dans tout dispositif de participation, le décideur a des exigences spécifiques. Il met en avant un "atout" de la démarche qui a consisté à "répondre aux différents niveaux d'engagement des personnes", en proposant plusieurs modalités de participation.

"Quel sens cela peut avoir d'avoir 1,6 million de contributions ?", a réagi David Prothais, membre du conseil d'administration de l'ICPC. "On peut se poser la question, peut-être que si l'on avait fait un sondage - à des frais moindres que ceux du déploiement et de la maintenance d'une plateforme – on aurait exactement le même résultat." Sur l'analyse des données, le praticien de la participation estime qu'"on est dans un effet 'boîte noire'" et appelle à davantage de visibilité sur la démarche et les algorithmes utilisés.
"L'option qui a été prise sur le Grand Débat est quand même assez nette sur la transparence totale", lui a répondu Gaëtane Ricard-Nihoul de la mission Grand Débat. Elle fait valoir le fait que "tout sera en ligne et disponible sur la plateforme", l'open data, ainsi que "l'engagement d'analyser l'entièreté des contributions".

L'analyse est confiée à plusieurs prestataires, dont certains se sont exprimés pour préciser leur démarche d'analyse. C'est le cas de l'institut de sondages Opinionway, en charge de l'analyse des données issues de la plateforme en ligne. Concernant le verbatim représentant "une masse de données textuelles considérable, OpinionWay a choisi de s’appuyer sur la solution logicielle de la société QWAM", indique le communiqué du 15 février qui détaille la méthode. "Il y a une intervention humaine systématique pour contrôler la cohérence des résultats et faire en sorte que le sens des propos des participants soit bien compris", a souligné Frédéric Micheau, directeur des études d'OpinionWay, rapporté par l'AFP. Les résultats par catégories - pouvoir d'achat, institutions, impôts... - sont attendus au plus tard début avril. Les comptes-rendus des réunions locales sont eux-aussi traités automatiquement.

Pour les "contributions sous format libre" (cahiers citoyens, manuscrits ou pas, mails…), le processus est plus complexe puisque les différentes étapes de préparation du matériau sont réparties entre plusieurs prestataires :

  • la numérisation de quelque 500.000 pages, correspondant essentiellement aux 16.000 cahiers citoyens, est pilotée par la Bibliothèque nationale de France et réalisée par l'entreprise Numen Services à Chambray-lès-Tours. Cette dernière a reçu les photocopies des cahiers citoyens transmises par les préfectures – les originaux sont conservées aux archives départementales -, les numérise et se charge aussi de l'indexation (nom de la ville et le code postal) de chaque cahier citoyen numérisé (ces étapes sont montrées dans un reportage du Figaro du 7 mars ) ;
  • après numérisation, les documents dactylographiés sont transformés en fichiers textes par des logiciels, une étape dont la BNF est également responsable, selon la communication en conseil des ministres du 13 février 2019 ;
  • concernant la transcription des contributions manuscrites en fichiers numériques, un marché a été lancé en urgence à la fin du mois de janvier. Les entreprises Numeriz, ScanEco et ArchivEco ont été retenues et y travaillent, nous indique la mission Grand débat.

Le consortium Roland Berger-Bluenove-Cognito a commencé ses analyses vers le 20 février, date à laquelle il a rendu publique sa méthode dans un communiqué. Cette méthode "repose sur l'analyse lexicologique contextualisée du corpus et sur une restitution sous la forme d'arbre de connaissance". "L'approche privilégiée par le consortium est fondée sur l'intelligence humaine appuyée sur la puissance du traitement statistique informatique. La technologie est une aide majeure mais elle n'est pas 'autonome' par rapport à l'être humain, les interprétations se feront en collégialité et tous les résultats seront traçables et vérifiables", peut-on y lire notamment.

Comme pour les données de la plateforme, cette méthode a été présentée en détail aux cinq garants du Grand débat national. Ces derniers se sont exprimés le 12 mars sur le processus dans son ensemble et la restitution à venir (voir notre article du 13 mars). Isabelle Falque-Pierrotin a notamment considéré que le gouvernement n'avait "pas le monopole de la restitution des débats".
Au-delà de la transparence et de la complétude de la restitution, il y a pour le gouvernement une étape ultérieure et décisive : celle de l'interprétation. "Il y a un enjeu de sens majeur, a souligné un membre du gouvernement début mars, interrogé par l'AFP. Si en avril on n'arrive pas à donner du sens à ce que nous faisons, on aura de multiples problèmes. Si on donne beaucoup de sens et de cohésion, ça tiendra".

Caroline Megglé, avec AFP