Analyse prédictive Elections : 20 heures, la France attend...
22 avril 2007, 20h00 ... Dans les villes les bureaux de vote viennent à peine de fermer mais déjà sur TF1 dix-neuf millions de téléspectateurs attendent les premières estimations de TNS Sofres. Comment sont calculés ces chiffres si proches de la réalité finale ?
Grâce à des outils décisionnels d’analyse prédictive, nous explique Philippe Périé, Directeur scientifique de TNS Sofres.
Quel est l’enjeu d’une soirée présidentielle pour TNS Sofres ?
C’est un enjeu d’image majeur : devant 19 millions de téléspectateurs et pour une échéance aussi importante, nous n’avons pas le droit à l’erreur ! Dans un contexte concurrentiel, où trois instituts proposent une estimation, l’objectif est clair : il s’agit d’être, dès 20 heures, aussi proche que possible des résultats qui seront donnés à 23 heures par le Ministère de l’Intérieur. Et chaque décimale est importante : cette année par exemple, nous étions le seul institut à donner Nicolas Sarkozy à plus 30 % dès 20 heures. Nos confrères d’Ipsos le donnaient à 29,7 %. Une différence minime, mais très importante sur le plan psychologique !
Quel dispositif mettez-vous en place le jour de l’élection ?
Tout commence sur le terrain, avec des enquêteurs présents dans 219 bureaux de vote. Ils transmettent les résultats par téléphone, en trois appels : un premier pour le chiffre de la participation, un deuxième pour des résultats partiels après dépouillement des 200 premiers bulletins (vers 18h50 pour les bureaux fermant à 18 heures), un dernier pour les résultats définitifs. Dans notre centre de Montrouge, des opérateurs entrent les résultats dans une base de données. Après un premier contrôle de vraisemblance des données (pour éviter toute erreur), nos statisticiens entrent dans la base et extrapolent un résultat national. A chaque nouvelle remontée du terrain, le résultat s’affine. En bout de chaîne, les experts politologues de TNS Sofres et du CEVIPOF (le centre de recherches politiques de Sciences Po) croisent les données et livrent à TF1 l’estimation finale.
Les résultats donnés à 20 heures sont issus de bureaux fermant à 18 heures et essentiellement ruraux... Comment faites-vous pour tenir compte des villes, dont les bureaux de vote ferment à 20 heures ?
C’est là qu’entrent en jeu les outils d’analyse prédictive. Les données brutes que nous faisons remonter des premiers bureaux sont retraitées selon notre expérience des élections passées. Nous savons par exemple que les campagnes votent plus à droite que les villes : ainsi, le 22 avril, les données brutes collectées à 20 heures donnaient 33 % pour Nicolas Sarkozy ; les calculs d’analyse prédictive nous ont permis de livrer une estimation à 31 %, très proche du résultat réel (31,18 %).
Quel est le secret d’une bonne estimation ?
Notre estimation le soir du second tour a été très proche du résultat réelTout d’abord, la composition de l’échantillon. Ce dernier, pris dans son ensemble, doit être proche des résultats des élections de référence (présidentielles et législatives 2002, régionales 2004). Pour autant, nous ne cherchons pas des bureaux qui « votent comme la France ». Au contraire, nous privilégions des bureaux très « typés » (untel très marqué à gauche, l’autre très UMP, un bureau où les chasseurs ont fait un gros score en 2002...), et relativement stables dans leur comportement. Cette stabilité de nos bureaux est importante. En effet, lorsque les résultats remontent, nous les comparons avec la base historique : en cas de variation trop importante, on estime qu’un enjeu local a pu fausser la donne et nous retirons le bureau de l’échantillon. L’autre secret, c’est la rapidité du calcul. Car tout se joue très vite - surtout entre 19h30 et 19h50 !
Pour la première fois cette année, vous avez intégré des outils décisionnels dans votre système. Quel a été leur apport ?
Au cœur du dispositif, il y a les outils d’analyse prédictive dont nous avons parlé plus haut. Mais les outils ont permis d’aller au-delà du calcul. En amont, les logiciels d’analyse (en lisant directement dans la base) ont su détecter les invraisemblances et corriger automatiquement les erreurs. Et en aval, les rapports SAS ont été fournis dans un format directement utilisable par les politologues, ce qui nous a permis de faire l’économie d’un logiciel spécifique de reporting. La solution s’avère également plus pérenne : parce que les statisticiens peuvent entrer directement dans le code SAS, ils peuvent savoir ce qui se passe sur l’ensemble de la chaîne, facilitant les éventuelles interventions de maintenance. Dernier atout, enfin : la souplesse. Au final, nous avons pu tourner avec 2 PC qui actualisaient les données toutes les 15 secondes : important dans un contexte de pression comme celui d’une présidentielle !
Et pour les élections suivantes ?
Notre modèle est transversal à toutes les élections. Reste à le paramétrer en fonction du type de scrutin. Pour les Législatives (plus complexes parce que locales), nous avons travaillé sur un échantillon stratifié de 317 bureaux - avec des strates de 30 à 40 bureaux relativement homogènes dans leur comportement historique. Pour les projections en siège, nos estimations sont le produit d’un double travail d’analyse statistique (par nos outils informatiques) et d’analyse politique de nos experts. Au final, notre première estimation le soir du second tour a été très proche du résultat réel.
publié le 11/10/2007

