top of page

Le biais de non-réponse, un défi pour les sondeurs



Le monde entier a eu les yeux rivés sur l’élection américaine pendant plusieurs mois, en particulier sur les sondages qui ont alors cristallisé craintes et surtout espoirs. Le 4 novembre au matin la déception a été forte, et le verdict est vite tombé: les sondages se sont, encore, trompés ! Il faut dire que dans les chambres noires du dépouillement, la vague bleue a mis longtemps à se révéler.


Alors ces sondages, comment nous ont-ils trompés, nous qui au fond avions tellement envie de cette vague bleue, d’être trompés ? L’analyse de ce qu’il s’est passé ne sera pas terminée avant plusieurs mois, tant il faut confronter de sondages et de résultats locaux pour un diagnostic sûr. Mais déjà quelques conclusions émergent.


Des attentes déraisonnables envers les sondages

Pour Nate Silver , guru américain des sondages qui les collecte et les modélise pour en produire des métapronostics, les sondages en 2020 n’ont pas été plus faux que d’habitude (https://fivethirtyeight.com/features/the-polls-werent-great-but-thats-pretty-normal/). Historiquement, la moyenne des erreurs répertoriées dans le tableau ci-dessous est d’un peu plus de 2 points. Nate Silver ajoute que vue la taille moyenne des échantillons utilisés pour les sondages nationaux, une erreur de 4 points est quasiment normale. Dans ce tableau, il s’agit des sondages nationaux, qui ont toujours été moins contestés.



Malgré donc une performance honorable, parce qu’après tout ils ont désigné le bon vainqueur, les sondeurs sont sous le feu de critiques violentes. Elles sont la conséquence d’attentes déraisonnables à l’égard des sondages politiques. Ils sont les seuls à pouvoir être confrontés à une réalité objective, le résultat d’une élection. Alors qu’aux résultats d’études marketing (estimation de potentiel de marché, études de satisfactions), il n’y aucune mesure objective à opposer. La question de leur exactitude ne se pose donc pas, c’est la justesse de la tendance mesurée qui est considérée, non un résultat à 1 ou 2 points près. Tandis que l’on demande aux sondages politiques de désigner à l’avance un gagnant dans des situations qui sont et seront de plus en plus 49/51. Avec des outils dont la marge d’erreur est plutôt de 3 points, c’est déraisonnable.


L’intervalle de confiance moyen des sondages compilés par FiveThirtyEight (le site de Nate Silver) est d’environ 4 points. C’est la zone d’incertitude d’un sondage, calculée a priori en fonction des caractéristiques du sondage. Mais comme finalement l’erreur moyenne constatée est d’un peu plus de 3 points, en réalité la marge d’erreur de ces sondages est a posteriori de 7 ou 8 points. Avec depuis un certain temps une erreur allant toujours dans le même sens, la sous-estimation des performances Républicaines. Cette constatation inquiète les sondeurs US. La défense invoquant l’intervalle de confiance ne suffit donc pas, il y a un biais systématique à corriger.


L’excuse habituelle des sondeurs, la sous-déclaration, ici du vote Trump, ne fonctionne plus : la honte du vote, ou de l’intention de vote, pour les extrêmes existe de moins en moins, et est de toute façon maîtrisée par les sondeurs qui la « redressent ». Qu’il s’agisse du vote Trump aux USA, ou du vote d’extrême droite en France. Cette honte tend plutôt à se transformer en revendication assumée ouvertement. Ce qui pose un autre problème aux sondeurs.


Le traumatisme causé par l’élection surprise de Trump en 2016 a déclenché des analyses post mortem fouillées. Qui ont convergé vers une insuffisante représentation des peu diplômés dans les échantillons qui a provoqué l’erreur des sondeurs. En 2016, les « college graduates » pesaient pour la moitié dans les échantillons, contre 35% dans les données du recensement (https://www.nytimes.com/2020/11/10/upshot/polls-what-went-wrong.html). Rejouer a posteriori les sondages de 2016, en attribuant par pondération les bonnes proportions aux différents niveaux d’éducation, a permis de redonner 4 points à Trump, très proche alors du résultat final. Ce qui a permis de conclure que le problème venait de ce manque de contrôle des échantillons utilisés, et qu’il suffisait donc de rajouter la variable « niveau d’éducation » comme variable de contrôle aux côtés des habituelles variables sociodémographiques.


C’est ce qui a été fait pour les sondages 2020.

Et qui n’a donc pas été suffisant.




Le redressement des non-réponses ne suffit plus

Le redressement des échantillons à partir de poids issus du recensement équivaut à considérer que les non-répondants pensent la même chose que les répondants de leur strate. Cela a longtemps semblé vrai, mais ne l’est plus.

Savoir qui sont les non-répondants et ce qu’ils pensent est par définition difficile… Aux USA, le Pew Research Center s’y essaye pourtant, en qualifiant le biais introduit par les non-réponses. En comparant les résultats de sondages téléphoniques classiques (auxquels environ 1% des contactés acceptent de répondre) avec les résultats d’investigations officielles, les enquêtes du gouvernement fédéral, qui ont un fort taux de réponse (70% de taux de réponse) (https://www.pewresearch.org/fact-tank/2020/11/13/understanding-how-2020s-election-polls-performed-and-what-it-might-mean-for-other-kinds-of-survey-work/L). La différence entre les réponses obtenues à des questions identiques dans ces deux dispositifs donne une bonne idée de l’impact des non-réponses.



En regardant de près, on s’aperçoit que les non-répondants cherchent surtout à cacher les signes sinon de pauvreté, au moins d’infériorité sociale : les écarts sont les plus forts sur l’appréciation de la qualité de leur assurance santé (surestimation de +8pts), la déclaration d’une aide alimentaire (sous-estimation de -4 pts) ou d’une allocation chômage (-4pts).


Sur la spécificité des opinions des non-répondants, ces Benchmarks donnent aussi de bons indices. Ils montrent de gros décalages sur des items concernant la vie sociale, entre les enquêtes officielles et les sondages téléphoniques traditionnels. En creux, on y lit que les non-répondants aux sondages sont moins intégrés socialement, moins actifs, que les répondants. L’ampleur des décalages mesurés sur ces items désigne cette « sous-socialisation » comme une caractéristique essentielle des non-répondants aux enquêtes. En termes d’opinion, l’item de confiance envers ses voisins (mesuré par l’item « Je fais confiance à presque tout le monde dans mon voisinage ») marque un niveau de défiance à l’égard des autres notablement plus important chez les non-répondants.




L’analyse dont ce tableau est extrait, menée en 2016 sur la base de données de Benchmark datant de 2013, concluait à l’absence d’impact de cette spécificité des non-répondants sur leurs choix politiques.


Ce biais de non-réponse est la conséquence d’une montée rapide et récente de la défiance sociale

L’enquête sociale récurrente de référence aux USA (Global Social Survey) suit ce marqueur du sentiment de défiance. On y constate une montée générale sur 20 ans de ce sentiment, particulièrement chez les conservateurs et chez ceux qui ont un faible niveau d’éducation. Avec une sous population qui se distingue particulièrement : chez les blancs à faible niveau d’éducation le niveau de défiance est à 97% en 2018, 29 points au-dessus de l’ensemble.



David Shor, un politologue Démocrate réputé (maintenant en délicatesse avec la gauche Démocrate pour avoir osé exhiber une étude montrant que les protestations non violentes étaient plus efficaces que les violentes …), théorise que le fait de répondre ou de ne pas répondre aux sondages a maintenant une signification politique (https://www.vox.com/policy-and-politics/2020/11/10/21551766/election-polls-results-wrong-david-shor).


Le parti Républicain a progressivement intégré le sentiment individuel de défiance honteux à une position partisane affirmable, en le transformant en position antisystème (antimondialisation, climatosceptique, anti contrôle des armes, …). Les institutions, les media, et donc les sondages qu’ils sponsorisent, font partie de ce système. Dans ce schéma, ne pas répondre aux sondages devient un acte politique de défiance envers le système.


Côté Démocrates, le cheminement est inverse. Et David Shor pense même que l’élection de 2020, marquée par la crise du COVID, a radicalisé le mouvement côté Démocrate. Elle a provoqué un engagement social très fort de la sphère Démocrate, symbolisé par un port du masque ostensiblement altruiste. Avec comme corolaire une plus grande prédisposition à répondre à des sondages qui devaient rythmer la reconquête Démocrate. Ce qui a comme conséquence que les Démocrates sont surreprésentés dans les répondants aux sondages. Et que donc les répondants ne sont pas représentatifs des répondants.


Il n’y a que des pistes pour répondre à ce biais


L’aveuglement des sondeurs politiques n’est pas lié à un mensonge des répondants. Dans le cas américain, il n’y avait pas de honte, ni même de timidité, à déclarer une intention de vote pour Trump. Le problème est plus grave : la pirouette commode du redressement des non-répondants par les répondants ne fonctionne plus. Parce que la non-réponse devient de plus en plus un refus de répondre, en lui-même chargé d’une signification protestataire.


Les réponses à ce défi sont compliquées à concevoir. La sophistication du redressement par le rajout de variables de contrôle de la représentativité des échantillons trouve très vite une limite technique dans la taille des échantillons utilisés : la précision du sondage diminue très vite avec le nombre de variables de contrôle. Avec la difficulté supplémentaire que les variables à rajouter, celles qui seraient fortement corrélées au refus de répondre, sont elles-mêmes difficiles à trouver et à construire avec les référentiels qui servent à caler les sondages.


On retombe sur le sujet des « invisibles sociaux ». Jusqu’ici il s’agissait de supprimer un angle mort des dispositifs de sondages conçus pour mesurer opinions et attentes d’individus actifs économiquement. Les invisibles étaient essentiellement les non-visibles de ces dispositifs, parce que non significatifs pour le système économique. Ces invisibles l’étaient malgré eux. Maintenant, apparaît donc une population, significativement importante, d’invisibles volontaires refusant d’entrer dans le jeu d’un système dont ils se méfient. Potentiellement, ce biais peut s’étendre à tous les sondages. Une fois le phénomène cerné qualitativement, le corriger va nécessiter d’inventer de nouvelles façons de faire.


David Shor croit en l’utilisation massive de données d’origines différentes, la statistique classique étant largement secondée par l’Intelligence Artificielle. D’ailleurs un institut, Trafalgar, est peut-être sur cette voie-là. Seul institut à avoir donné Trump gagnant en 2016, il l’avait redonné gagnant en 2020. Réputé proche du Parti Républicain, il est extrêmement opaque sur ses méthodes. Il indique juste croiser une grande variété de questionnement faits par e-mails, SMS, appels en directs ou par répondeur vocal, analysés par des « méthodes numériques », sans plus de précision

Comments


Posts à l'affiche
Posts Récents
Archives
Rechercher par Tags
Retrouvez-nous
  • Facebook Basic Square
  • Twitter Basic Square
  • Google+ Basic Square
bottom of page