Zum wiederholten Male wurde das Potential von Proteststimmenden im Vorfeld einer Wahl unterschätzt. Warum fast ausschliesslich bei Parteien oder Vorlagen von rechts? Am wahrscheinlichsten ist, dass Anti-Establishment-Wähler Umfragen verweigern, weil sie diese mit dem in ihren Augen verhassten Establishment assoziieren.
Mit britischem Humor beklagte sich am Mittwochmorgen eine BBC-Journalistin darüber, dass die USA den Briten keinen einzigen Triumph gönnen würden: Mit dem Brexit-Votum, so fuhr die Journalistin fort, glaubten viele Briten, das politische Ereignis des Jahrzehnts geboten zu haben, das niemand mehr überbieten könne. Doch den Amerikanern sei es mit der Wahl Trumps doch tatsächlich gelungen, alles noch grösser und spektakulärer zu machen. Selbiges lässt sich auch über das Versagen der Meinungsforschungsinstitute oder vielmehr über die Reaktionen darauf sagen: Beim Brexit lagen die britischen Pollster spektakulär daneben, nur um ein halbes Jahr später von ihren amerikanischen Berufskollegen übertroffen zu werden.
Aber Trump und der Brexit sind keine Ausnahmen. In Deutschland beispielsweise erzielt die AfD regelmässig bessere Resultate als prognostiziert. In Österreich legt die ÖVP im Vergleich zu Umfragen oftmals zu. Und hierzulande ging die SVP bei Wahlen wie auch bei Abstimmungen schon mehrfach unerwartet als Siegerin hervor.[2]
Schätzfehler der Vox-Nachbefragungen bei europapolitischen Abstimmungen
Das kann kein Zufall sein. Wo liegen die Ursachen für den Schätzfehler? Darauf soll gleich eingegangen werden. Doch vorerst: Wie weit lagen die Umfragen bei den Präsidentschaftswahlen eigentlich daneben? Zu unterscheiden sind dabei Angaben in Wahrscheinlichkeiten und solche in Wählerstimmenanteilen. Zuerst zu den Stimmenanteilen: Hier sagten die meisten Umfragen und Aggregatoren zuletzt ein knappes Rennen voraus. RealClearPolitics[3] wies beispielsweise für Clinton einen nationalen Anteil von 46.8 Prozent (rund 1 Prozentpunkt Differenz zum effektiven Resultat von 47.8) und für Trump 43.6 (-3.7 Prozentpunkte) aus.[4] Das ist – ganz nüchtern betrachtet – nicht sonderlich schlecht. Die Abweichung bei Trump hatte jedoch enorme Auswirkungen auf das Endresultat.[5] Diese Differenz liegt zudem nur knapp über dem durchschnittlichen Schätzfehler («just a normal polling error behind»). Retrospektiv betrachtet ist jedoch irritierend, dass die allermeisten Umfragen Clinton konstant vorne sahen. Bei einem knappen Rennen wären stärkere Schwankungen zu erwarten. Auf den mutmasslich zugrunde liegenden «Herding»-Effekt kommen wir weiter unten noch zu sprechen.
Aggregatoren wir HuffPost (Huffington Post), fivethirtyeight.com (Nate Silver) oder die New York Times The Upshot gaben (zusätzlich) Siegeschancen (win probabilities) an. Grundlage für diese Wahrscheinlichkeiten bilden oftmals bayesianische Modelle, in die Dutzende, wenn nicht Hunderte von Umfrageresultaten eingespiesen, gewichtet und sodann simuliert werden. [6] Pollyvote hat beispielsweise eine absurd hohe Wahlwahrscheinlichkeit von 99 Prozent für Clinton ermittelt. Das war ohne Zweifel eine kolossale Fehlleistung. Andere waren vorsichtiger. Nate Silver gab beispielsweise eine 29-prozentige Siegeschance für Trump an. Nehmen wir zur Veranschaulichung diesen Wert (für den Silver im Übrigen von Berufskollegen gerügt wurde): Er klingt zwar tief, aber er ist in etwa gleich hoch wie die Wahrscheinlichkeit bei fünfmaligem Münzwerfen drei Mal Kopf zu erhalten (30.1%). Aus Erfahrung wissen wir, dass ein solches Ergebnis keineswegs unmöglich ist. Offenbar tun wir uns aber damit schwerer, nackte Wahrscheinlichkeitswerte (ohne alltagsnahen Bezug) korrekt einzuordnen. Siegeschancen sind deshalb ein Konzept, das man überdenken soll. Es ist für viele Umfragekonsumenten und –konsumentinnen schwer einzuordnen. Bei vielen haben sie eine Sicherheit vermittelt, die nie vorhanden war.
Aber letztlich lagen die Umfragen – mit wenigen Ausnahmen – allesamt daneben. Und dies, wie gesagt, nicht zum ersten Mal, wenn es um Parteien oder Sachvorlagen von rechts geht. Warum?
Mögliche Ursache 1: Der «Herding»-Effekt.
Auch für Umfrageinstitute und Aggregatoren gilt: Wahltag ist Zahltag. Ihre Umfrageergebnisse stehen an diesem Tag auf dem Prüfstand. In den USA werden Befragungen zudem bis zum letzten Tag vor dem Wahltermin durchgeführt. Es gibt keine Karenzfrist von 10 Tagen wie in der Schweiz. Die letzten Umfrageergebnisse können demnach direkt mit den Wahlergebnissen verglichen werden; die Möglichkeit, Abweichungen auf den Meinungswandel zu schieben («Immunisierung»), fällt weg. Die Umfrageinstitute stehen deshalb unter ungleich höherem Druck als in der Schweiz, umso mehr als die Konkurrenz in den USA immens ist. Die Reputation der Pollsters und damit auch ihr Umsatz sind von der Umfrageleistung abhängig. Sie schielen deshalb, so die These des Herdings[6], immer auch auf die Umfragewerte der Konkurrenz. Und sie werden dazu tendieren, ein (Rohdaten-)Resultat, das (zu) stark vom «Mainstream» (also der Herde der anderen Pollster) abweicht, zu «glätten». Denn ein zu stark vom allgemein erwarteten Ergebnis abweichendes Umfrageresultat ist ein gehöriges Reputationsrisiko. Im Prinzip ist es ein Abwägungsprozess nach der Minimax-Regret-Regel. Dabei stellt man sich die Frage: Was wäre für einen pollster der absolute worst case? Antwort: Er weist als einziger einen Trump-Sieg aus, der aber verliert in der Folge die Wahl klar. Gratulation an dieser Stelle an die USC Dornsife/LA Times, die genau dies getan hat und am Ende als eine der Wenigen richtig lag.[8] Weniger schlimm wäre hingegen folgendes Szenario: Man weist wie alle anderen einen Clinton-Sieg aus und geht im gegenteiligen Fall (Trump gewinnt) gemeinsam und ohne gross aufzufallen mit der restlichen Herde unter. Tatsächlich haben viele Umfrageinstitute im Nachgang genauso argumentiert: «Wir lagen daneben, aber alle andere auch». Im Übrigen: Auch der Daybreak Poll von USC Dornsife/LA Times lag bei Clinton um rund vier Prozentpunkte daneben, war demnach nicht genauer als andere Umfragen. Aber am Ende hatte man den Sieger richtig prognostiziert. Was lernen wir daraus? Man muss nicht genau liegen, aber auf der richtigen Seite.
Mögliche Ursache 2: Soziale Erwünschtheit oder die «Shy Trump-ers»
Der «Klassiker» unter den Gründen für eine Verzerrung ist die soziale Erwünschtheit: Trump-Wähler hätten sich aufgrund des sozialen Drucks nicht getraut, in Interviews offen zu ihm zu stehen. Zunächst: Bei Telefonumfragen ist das denkbar («Reaktivität»). In Online-Umfragen sollte das aber keine Rolle spielen. Sie sind anonym. Trotzdem lagen auch sie daneben. Hinzu kommt: Donald Trump schnitt vor allem in North Dakota und West Virginia deutlich besser ab als vorausgesagt.[9] Dort dürfte es aber schwerer fallen, sich öffentlich zu Clinton zu bekennen als zu Trump. Die Scham davor, sich als Trump-Wähler zu outen, ist allenfalls bei urbanen Wählern und Wählerinnen der Oberschicht vorhanden, aber nicht für den Trump-Wähler aus dem bible belt.
Mögliche Ursache 3: Last-Minute-Meinungswandel
Ein Dauerbrenner ist die Begründung, wonach in den letzten Tagen bzw. Stunden vor der Wahl noch ein Meinungsumschwung stattgefunden hätte. Hierzu nur ganz kurz: Ich halte diese These bei der fundmentalen Wahl zwischen Trump und Clinton – trotz hohem Anteil unentschlossener Wähler – für abenteuerlich.
Mögliche Ursache 4: Mobilisierung oder Demobilisierung
Eine der grössten Herausforderungen von Vorumfragen ist es, die Wahlteilnehmenden zu identifizieren. Wer nimmt auch wirklich teil und wer bleibt trotz Teilnahmezusicherung im Interview am Ende trotzdem zu Hause? Amerikanische Umfrageinstitute haben hierzu Modelle von «likely voters» entwickelt, die möglicherweise von falschen Annahmen ausgingen. Sind Clinton-Anhängerinnen und –Anhänger beispielsweise zu Hause geblieben – vielleicht auch deshalb, weil sie zu siegesgewiss waren? Unmöglich ist es nicht. Aber dass politisch involvierte Menschen einer solch polarisierenden Wahl fernbleiben, weil sie mit einem sicheren Sieg ihres Lagers rechnen, halte ich für ebenso unwahrscheinlich wie den Last-Minute-Meinungswandel. Das heisst nicht, dass es keine Demobilisierung unter den Demokraten gab. Dazu müssen zunächst die genauen Beteiligungsdaten abgewartet werden. Doch selbst wenn demokratische Hochburgen eine tiefere Partizipationsrate als 2012 und 2008 gehabt haben sollten, so muss dies nicht zwangsläufig mit den Umfrageresultaten zu tun haben. Es könnte gerade so gut an der Unpopularität Clintons bei den jungen demokratischen Wählern und Wählerinnen liegen, die bei den Primaries ebenfalls für einen Change (aber einen linken Wechsel: Bernie Sanders) gestimmt haben.
Mögliche Ursache 5: Gewichtungseffekte
Es fällt zunehmend schwerer, strukturell repräsentative Stichproben zu ziehen bzw. zu realisieren. Viele verweigern die Umfrageteilnahme. Wenn sich bei US-Polls einer von zehn Angefragten zum Interview bereit erklärt, ist das beinahe schon als Erfolg zu werten.[10] Deshalb wird gewichtet. Wie wichtig und vor allem einflussreich Gewichtungsverfahren für Vorumfragen sind, zeigt ein Beispiel aus der New York Times.[11] Zu Vergleichszwecken überliess die Zeitung im Vorfeld der US-Präsidentschaftswahlen vier renommierten Umfragespezialisten dieselben Rohdaten einer Befragung. Allen vier Spezialisten stand demnach derselbe Rohdatensatz zur Verfügung, den sie nach ihrem «Gusto» gewichten (oder auch ungewichtet lassen) durften. Das Resultat war, dass sich die unterschiedlich gewichteten Ergebnisse der Umfrageinstitute allesamt voneinander unterschieden – und dies stärker als der entsprechende Stichprobenfehler der Umfrage. Im Übrigen: Am besten schnitt – nachträglich betrachtet – eine MRP-Gewichtung von Sam Corbett-Davies, Andrew Gelman und David Rothschild ab: Als einzige sahen sie Trump in Florida vorne. Auffallend ist zudem, dass das Demokraten-nahe Umfrageinstitut ein gutes Resultat für Clinton auswies, während das Republikaner-nahe Institut ein vergleichsweise gutes Resultat für Trump ermittelte: Der sogenannte «house effect» bei Umfragen.
Fazit: Gewichtungs- und Kalibrierungsmethoden unterscheiden sich offenbar stark. Dass aber so gut wie alle Institute unzureichende Gewichtungsverfahren verwendet haben, halte ich für höchst unwahrscheinlich.
Mögliche Ursache 6: Verweigerung
Wie gesagt, Vorumfragen in den USA haben Verweigerungsquoten von bis zu 90 Prozent. Diese Verweigerung erfolgt nicht rein zufällig – das realisierte Sample ist demnach keine Zufallsauswahl des im Stichprobenrahmen vorgegebenen Samples. Wer also sind diese Verweigerer? In meinen Augen am wahrscheinlichsten ist die These, dass es vor allem Protest- und Anti-Establishment-Wähler sind, die Umfragen konsequent verweigern. Denn, wie gesagt, nicht nur die Aggregatoren, sondern auch die allermeisten einzelnen Umfragen – ob telefonisch oder per Internet – lagen konsequent daneben. Und dies ist beileibe kein US-amerikanisches Phänomen: Die Unterschätzung des «Wutbürgerpotentials» ist auch bei Umfragen in Europa weit verbreitet. Warum aber verweigern diese Protestwähler Umfragen? In Leserforen auf dem Internet hat man beispielsweise nicht den Eindruck, sie seien untervertreten – im Gegenteil. Ein generelles Mitteilungsbedürfnis ist demnach auch bei diesen Wählern und Wählerinnen auszumachen. Umfragen werden von dieser Wählergruppe jedoch gemieden. Ich vermute, weil sie Umfragen als Instrument eines «Systems» ansehen, das sie grundsätzlich ablehnen und mit dem sie allerlei Ungutes assoziieren («Korruption», «Establishment», «abgehobene Elite», «Lügenpresse»). Sie schenken Umfragewerten konsequenterweise auch überhaupt keinen Glauben, halten sie im besten Fall für unzuverlässig und im schlimmsten Fall für manipuliert. Diese These der Interviewverweigerung der Wutbürger ist weder neu noch besonders originell (siehe z.B. hier), aber sie wird erstaunlicherweise eher selten vorgebracht.
Die genauen Ursachen des amerikanischen Umfrage-GAUs sind vorderhand unbekannt. Es wird wohl Monate, wenn nicht Jahre dauern, dieses kollektive Versagen der Umfrageindustrie aufzuklären. Vorderhand lässt sich über die Gründe nur spekulieren. Anzunehmen ist, dass nicht bloss einer der oben genannten Gründe ausschlaggebend war, sondern eine Kombination von Gründen. Indes, aufgrund dessen, dass die Unterschätzung der Trump-«Bewegung» kein isoliertes amerikanisches Phänomen ist, sondern Ähnliches weltweit zu beobachten ist, halte ich die letzte These für die wahrscheinlichste.
Thomas Milic
[1] Foto: Stan Wiechers|Flickr
[2] Lesen Sie den Beitrag zum Brexit und europapolitischen Abstimmungen in der Schweiz.
[3] Mehr zu RealClearPolitics finden Sie hier.
[4] Auf Bundesstaatenebene wichen die Umfragewerte teilweise deutlich stärker vom effektiven Resultat ab, was sich auf die Elektorenstimmen-Prognosen auswirkte.
[5] Die Abweichung bei Trump liegt ausserhalb des Stichprobenfehlers für ein Standardsample von rund 1’000 Befragten. Bei den Elektorenstimmen hingegen lagen die Umfragen weit daneben. Dazu werden Umfragen auf Bundesstaatenebene verwendet, die teilweise weit daneben lagen.
[6] Als Beispiel: Das Modell von HuffPost, das neben bedingten Wahrscheinlichkeiten auch noch Erwartungswerte berücksichtigt.
[7] Mehr zum Thema «Herding» finden Sie hier.
[8] Hier mehr dazu.
[9] Wo Donald Trump deutlich besser abschnitt als vorausgesagt.
[11] Hier geht es zum Beispiel der NY Times.