Le 26-04-2007
Un peu de mathématiques
Bien évidemment, la mesure du report des voix à l'élection présidentielle taraude les uns et les autres puisqu'elle permet de proposer une évaluation quantitaive du vote à venir au second. Il est important d'aborder le sujet car il est très aisé de faire des contre-sens sur des calculs que l'on croit simples alors qu'ils s'avèrent en réalité piégeux.
La première erreur à ne pas faire est de considérer le problème comme purement arithmétique, alors qu'il est mathématique et inclut des données statistiques, donc beaucoup plus complexe qu'il n'y paraît.
La seconde est d'oublier l'impact de l'abstention.
Qu'est-ce qu'un sondage de second tour ?
C'est un sondage qui va poser comme question principale :
Pour qui allez-vous voter ? et comme question annexe : Pour qui avez-vous voté ?
La tentation est alors d'enchaîner les multiplications (grâce à un tableur tant qu'à faire) pour réaliser des estimations globales en prenant :
Il ne reste plus alors qu'à sommer pour obtenir une évaluation rapide du score final de A et de B.
Pourquoi ce raisonnement est spécieux ?
C'est en réalité beaucoup plus compliqué qu'il n'y paraît puisqu'il faut tenir compte, comme toujours avec un sondage, des marges d'erreurs. Les lecteurs attentifs du billet précédents ont en mémoire les données standard, qu'on trouve entre autres dans la FAQ d'IPSOS, soit +/- 1 point pour les petits candidats et 2 à 3 points pour les grands ?
Que vont donc bien faire un ou deux pourcents de plus ou de moins dans un tel calcul, surtout quand on les multiplie par des valeurs dont on est sûr, i-e celles du score d'un candidat au premier tour ?Et bien, c'est là toute la question à se poser car pour faire ce calcul rigoureusement, il faut examiner ce qu'est le taux de report communiqué par l'institut de sondage :
| Nombre de gens ayant répondu A (à la question 1) en ayant répondu i à la question 2 | |
| Taux de report = | ------------------------------------------------------------------------------------ |
| Nombre de gens ayant répondu i à la question 2 |
Quand on questionne au total un panel de 1000 personnes, on n'a qu'une partie réduite qui va répondre i à la question 2. Ainsi, pour un candidat ayant réalisé 10 % des intentions de vote, on n'échantillonne en réalité que sur 100 personnes. Et cela change considérablement la marge d'erreur puisqu'on n'est plus du tout dans l'ordre de grandeur de + ou - 2 à 3 points mais beaucoup plus.
Cette erreur est flottante : C'est à dire qu'elle est très différente selon qu'on analyse les réponses des électeurs de qui a réalisé le plus gros score (François Bayrou, qui seraient environ 185 à 186) et celles de qui a réalisé le plus petit score (Gérard Schivardi, qui seraient en l'occurence 3 ou 4 uniquement).
Il est donc assez difficile de porter un crédit absolu à des études réalisées sur un certain nombre de candidats ayant obtenu un score faible puisque le panel interrogé est ridiculement petit1 et même pour les candidats importants, 5 % d'erreur sur la mesure me paraît un minimum2.
Je recopie ici le rappel statistique du billet précédent :
Si un échantillon est trop restreint, en théorie les incertitudes sur les résultats sont plus grandes. S'il est grand, elles sont meilleures. Cependant, l'incertitude décroît moins vite que n'augmente le nombre (500 sondés : erreur à +/- 4.5 point pour 50 %, contre +/- 3.8 points pour 1000 sondés et +/- 1.6 pour 4000 sondés).
La valeur Nombre de gens ayant répondu A (à la question 1) en ayant répondu i à la question 2 est donc soumise à une erreur non négligeable.
1. On appréciera ainsi le fait qu'Ipsos poursuive son baromètre avec un échantillon de 1200 personnes. Ceci étant l'échantillon maximal sondé (Francois Bayrou) est toujours limité (à environ 223 personnes) ce qui ne constitue toujours pas un échantillon suffisant pour une réelle étude statistique.
2. Le chiffre étant flottant selon le candidat, je ne donnerais pas de valeur exacte pour pouvoir illustrer la suite de ma démonstration de manière générique.
- En second lieu, il faut se rappeler que le sondage réalisé à la question 2 comporte en lui même une incertitude :
On peut formuler ça comme ça : Il n'y a pas de raison qu'il y ait pas moins d'erreurs à la question Pour qui avez vous voté ? qu'à la question pour Qui aller vous voter ? il y a une semaine.
Cette partie là est, elle, soumise aux règles d'incertitude classiques du sondage (cette mesure du mensonge au centre des débats via la question des coefficients de redressements, celle propre à tout sondage, seule la question posée avant l'élection et obtenant comme réponse Je ne sais pas encore est éludée) et l'on revient donc aux erreurs déjà notées par ailleurs ( de +/- 1 point pour les petits candidats et +/- 2.5 points pour les plus importants.)
Les intervalles sont semblables à ceux du premier tour, à ceci près que nous ne pouvons pas les transcrire comme ça dans notre calcul et devons les convertir dans la bonne unité (à savoir le pourcent et non le point) pour garantir la cohérence de la divison effectuée.
Ainsi, un candidat évalué à 5 % +/- 1 point au premier tour pourra être recensé entre 4 et 6 pourcents, soit 5 points avec une incertitude de 20 % (puisque 5*0.8 = 4 et 5*1.2 = 6)3.
Et un candidat évalué à 15 % +/- 2.5 points au premier tour pourra être recensé entre 12.5 et 17.5 pourcent soit une incertitude de 16 %.
3. C'est l'éternelle différence entre points et pourcents qui piège tous les élèves de sixième : Si un article à 100 € est soldé à - 10 % puis surtaxé de 10 % , il ne vaut absolument pas au final 100 € mais 99 €.
Prix soldé : 100 * 0.9 = 90
Prix soldé puis surtaxé : 90 *1.1= 99
La valeur Nombre de gens en ayant répondu i à la question 2 est donc elle aussi soumise à une erreur importante.
Le taux de report est donc soumis à deux erreurs et, avec la division, les incertitudes ne s'additionnent pas mais se multiplient.
Si A et B disposent d'une ncertitude respective iA et iB en pourcents
Si T = A/B sans incertitude, T avec incertitude doit être considéré comme compris entre (1-iA)/(1+iB) & (1+iA)/(1-iB).
Avec des valeurs d'incertitudes respectives de 5 % et 25 %, on arrive ainsi à un intervalle final de 0.76% & 1.40 % 4
4. Les deux valeurs chiffrées sont données uniquement à titre d'ordre de grandeur pour la démonstration et absolument pas pour illustrer une grandeur réelle liée à telle ou telle candidature au premier tour.
Quelle l'influence de l'absence de report de voix via l'abstention ?
Dans la même démarche et pour être totalement exhaustif, il faudrait évaluer aussi l'impact de l'abstention ou du vote nul en guise de report. Je ne me risquerais certainement pas à calcul à partir des données réelles mais vais juste illustrer mon propos par un cas d'école.
Soit une élection où le vote est obligatoire (Comme, en Belgique, par exemple) et où l'on a eu un premier tour comme suit (et qui suit les mêmes régles que le scrutin présidentiel français):
Candidat A : 40 %
Candidat B : 35 %
Candidat C : 25 %
Le candidat C non qualifié au second tour dispose d'un report de vote fixe de 50 % / 50 %.
Si tous ses électeurs votent non nul, on obtient au total :
Candidat A : 400 + 125 = 525 voix soit :
Si tous ses électeurs votent blancs, on obtient au total :
Candidat A : 400 et B : 350 sur 750 suffrages exprimés soit
Si l'on transcrit graphiquement ce problème en considérant un taux d'abstention variable, on obtient :

Et l'on se retrouve avec 0.8 % qui se promènent dans la nature et qui interdisent, par exemple, toutes les évaluations d'un candidat en soustrayant le score de l'un à un total de 100 %. De plus, le taux d'abstention dans le report est soumis aux mêmes types d'incertitude que l'évaluation du report vers un candidat.
Conclusions :
Les comptes d'apothicaire sur des données de ce type sont extrêment difficiles à faire et s'y frotter pour réaliser un total avec des marges d'incertitude fiables et définies me semble un exercice extrêmement périlleux. Pour l'estimation du taux de report de voix, la pratique est très proche de la limite de l'exercice du sondage, compte-tenu même de la taille réelle de l'échantillon sondé et l'estimation d'une variation de celle-ci est un exercice, lui aussi, très hasardeux. Les variations données entre parenthèses ici, par exemple5, me semblent assez peu significatives. Il est beaucoup plus pertinent de consulter directement les estimations d'intention de vote au second tour, même si elles demeurent soumises aux réserves que j'ai déjà évoquées dans le billet précédent (constats de sous-estimation des candidats présents au second tour, marge d'erreur importante).
5. Je rappelle que, dans l'exemple cité, celui d'une étude Ipsos, on a un échantillon de 1400 personnes mais renouvellé par moitié - c'est la spécificité du baromètre de cet institut de lisser les tendances sur deux ou trois jours dans son mode opératoire, la variation porte donc sur 700 sondés uniquement.
Mentions spéciales :
Compte-tenu du contenu de ce billet, il est important de préciser :
- qu'il est, a priori, relu et sans erreur numérique (de calcul ou de raisonnement). Si ce n'est pas le cas, merci de le signaler en commentaires et ce ne serait que le fait malheureux du hasard.
- qu'il est le fait d'un auteur indépendant professionnellement d'un des quelconques instituts cités, mais d'un amateur de chiffres éclairé dont la statistique n'est pas le métier (Si une erreur de raisonnement s'y est glissé, merci de le signaler en commentaires) et non militant dans un quelconque des partis engagés à cette élection.
- qu'il est, au contraire des autres articles de cet espace, reproductible à loisir à condition de faire mention de son auteur, d'un lien vers l'article originel et d'accorder à son auteur un droit de réponse en cas de troncature d'une citation.
- qu'il sera, sans aucune exception, appliqué une politique de modération très stricte à propos des commentaires de ce billet pour les expurger de toute opinion partisane, quelle qu'elle soit.
























Commentaires
exact
En tant que statisticienne, je n'ai relevé aucune erreur spécifique. Je pense qu'une marge d'erreur de 2 à 5% dépendant de plein de choses que tu expliques très bien est réaliste.
µ - 26.04.07 à 18:51 - # -
← Re: exact
Sur l'ordre de grandeur de la marge d'erreur que tu donnes, je serais plus réservé, pas spécialement sur sa valeur mais sur la manière que tu as de le donner.
S'il y a une chose qui m'a marqué dans cette campagne, c'est une certaine défiance vis à vis des sondages d'opinion qui m'a sincèrement paru inédite. Le précédent de 2002 est encore très présent dans les esprits, alors que les instituts de sondages ont été très transparents depuis (Comme par exemple, Ipsos qui communique sur sa fiabilité avec l'exemple détaillé du référendum européen) et qu'ils ont aussi été plutôt justes dans leurs estimations depuis.
Chaque institut a fait de réels efforts pour restaurer une certaine confiance dans les valeurs qu'il communique (notamment depuis qu'on a accès à la majorité des rapports complets d'une étude parue dans la presse) mais, paradoxalement, les gens qui regardent les chiffres demandent toujours plus : ils mettent en doute la justesse des coefficients de redressement, parfois même jusqu'à mettre en cause l'intégrité des sondeurs.
Alors, oui, je fais confiance à la marge d'erreur que tu donnes, parce que ma pratique des problèmes numériques appliqués aux problèmes concrets est telle que je sais qu'il y a des ordres de grandeur qu'on sent intuitivement, quand on est un professionnel, qu'il y a des choses qui sont de l'ordre du doigt mouillé mais qui ne sont pas fausses pour autant à partir du moment où un professionnel a suffisamment d'expérience pour maitriser les ordres de grandeur propre à sa spécialité. Malheureusement, il y a et il y aura toujours des gens qui remettront en doute cette méthode.
Mon objectif était donc surtout de faire une démonstration par l'absurde vis à vis de la tentation qu'ont certains d'additionner des pourcentages comme s'il s'agissait de voix (ce n'est d'ailleurs pas innocent d'entendre beaucoup plus maintenant les commentateurs politiques parler de millions d'électeurs que de pourcents), pour rappeler que le problème est bien plus complexe qu'il n'y paraît.
labosonic - 27.04.07 à 20:16 - # -