Im Vorfeld eidgenössischer Abstimmungen gibt es derzeit kaum frühe und von Meinungsumfragen unabhängige Prognosen über den zu erwartenden Ja-Stimmanteil, der Anzahl befürwortenden Stände (Kantone) und der zu erwartenden Stimmbeteiligung bei eidgenössischen Abstimmungen.
Huber & Longchamp haben kürzlich einen Algorithmus angekündigt, der den Ja- Stimmenanteil verlässlich bereits nach Vorliegen der Schlussabstimmung im Nationalrat ableiten soll und im weiteren Verlauf durch die Integration des Parolenspiegels der Parteien weiter präzisiert wird.
Umfragen über die Stimmabsichten im Vorfeld eidgenössischer Abstimmungen durch das Schweizer Radio und Fernsehen SRF (durchgeführt durch gfs.bern) oder Tamedia fokussieren hingegen auf den (binären) Abstimmungsausgang (Zustimmung oder Ablehnung). Bei den Umfragen durch SRF werden Schätzungen über den Ja-Stimmenanteil erfragt, aber die Resultate werden nicht im Rahmen von Prognosen der zu erwarteten Stimmenanteile veröffentlicht.
Das auf dieser Plattform seit 2017 verfügbare Modell macht ebenfalls keine Aussage über den zu erwartenden Ja- Stimmenanteil oder die Anzahl befürwortenden Stände. Es wird lediglich eine modellinhärente Wahrscheinlichkeit der Prognose ausgegeben.
Recht früh (einige Wochen) vor dem Abstimmungstag, aber auch aufgrund von Umfragen, wird auf der Plattform 50plus1 der erwartete Ja-Stimmenanteil laufend dargestellt.
Wenige Tage vor der Abstimmung wird auf der Plattform gradiom aufgrund verschiedener Datenquellen inklusive Umfragen eine Prognose des Ja-Stimmenanteil sowie der befürwortenden Stände publiziert.
Am Abstimmungstag selber wird auf predikon aufgrund der laufend eingehenden Abstimmungsresultate der zu erwartende Ja-Stimmenanteil berechnet.
Es besteht Bedarf an früheren und Meinungsumfragen unabhängigen Prognosen des zu erwartenden Ja-Stimmenanteils und der Anzahl befürwortenden Stände. Erstmals mit dem Erscheinen der Abstimmungsunterlagen für die Abstimmungen vom 26. September 2021 werden auf dieser Plattform zwei neu trainierte Modelle eingesetzt zur Vorhersage des Ja-Stimmenanteils und der Anzahl befürwortender Stände für die beiden Vorlagen.
Modelle zur Berechnung der zu erwartenden Stimmbeteiligung waren mit dieser Methodik hingegen nicht aussagekräftig und wurden deshalb nicht weiterverfolgt.
Die zwei neuen Machine Learning Modelle basieren wie das bestehende und seit 2017 online verfügbare Modell auf regularisierter linearer Regression (Ridge Regression), nachdem verschiedene Modelle verglichen wurden (ein Vergleich verschiedener Modelle erfolgt an dieser Stelle zu einem späteren Zeitpunkt).
Die neuen Modelle wurden trainiert Ja-Stimmenanteil respektive die Anzahl Stände herzuleiten aufgrund des Inhalts des Abstimmungsbüchleins erschienen zwischen 1979 und 2017. Validiert wurden die Modelle anhand der letzten 34 Abstimmungen zwischen Mai 2017 und Juni 2021.
Getestet werden die neuen Modelle erstmals aufgrund der Abstimmungsunterlagen für die Abstimmungen vom 26 September 2021.
Sechs verschiedene Regressionsmodelle zur Berechnung des prozentualen Ja-Stimmenanteils sowie der Anzahl Stände wurden trainiert und auf dem Validierungssatz mit 34 Abstimmung seit 2017 in Bezug auf das Bestimmtheitsmass (R2) verglichen (Tabelle unten).
Bezogen auf die zwei Zielvariablen schneidet das Gradient Boosting Modell am besten ab mit einem Bestimmtheitsmass von 0.53 respektive 0.54.
Am Schluss der Tabelle steht überraschend das ’state of the art‘ Modell ‚BERT GPT2‘ (mehr dazu zu einem späteren Zeitpunkt).
Das auf logistischer Regression beruhende Modell steht an zweiter Stelle. Aufgrund der Transparenz und da das bisherige Klassifikationsmodell ebenfalls auf logistischer Regression beruht, wurde dieses nachfolgend weiter verfolgt. Es wird hier in Zukunft für die qualitativen Abstimmungsprognosen eingesetzt werden.
Unten die Übersicht der Modellprognosen auf logistischer Regression basierenden Klassifikation-und Regressionsmodelle für den Validierungsdatensatz der letzten 34 Abstimmungen zwischen Mai 2017 und Juni 2021.
Die Regressionsmodelle haben einen mittleren absolutem Fehler (MAE) von 8.4% respektive 4.8 Kantone für die Prognose des Ja- Stimmenanteils und der Anzahl befürwortender Stände.
In der obigen Tabelle werden die verschiedenen Leistungsparameter der drei Modelle über die letzten 34 Abstimmungen zusammengefasst. Datenquelle für die Abstimmung Resultate (Ja-Stimmenanteile und prozentualer Anteil der zustimmenden Stände) ist swissvotes.
Das hier seit 2017 online verfügbare Modell zur Prognose des Ausgangs eidgenössischer Abstimmungen hat eine etwas kleinere Datengrundlage als die zwei neuen Modelle.
Das erste Modell wurde aufgrund zufällig gewählter 80 % der Abstimmungen zwischen 1979 und 2017 trainiert und gegenüber den übrigen 20 % der Abstimmungen validiert (mit einer Genauigkeit von 87 %). Getestet wird dieses Modell seit 2017. Nach 34 Abstimmungen beträgt die Genauigkeit 85.3 %. Das Modell wird als bewährtes Referenzmodell unverändert weiterbetrieben.
Die beiden neuen Modelle wurden aufgrund aller Abstimmungen zwischen 1979 und 2017 mittels fünffacher Kreuzvalidierung trainiert und anhand der Abstimmungen zwischen 2017 und 2021 nach-validiert. Für diese beiden Modelle beginnt die Testphase mit den Abstimmungen ab dem 26. September 2021.
Aufgrund der unterschiedlichen Grundlagen und Ziele können in Bezug auf den abgeleiteten Abstimmungsausgang Widersprüche entstehen. Zum Beispiel: Prognose einer Ablehnung durch das ursprüngliche Klassifikationsmodell, aber einem prognostizierten Stimmenanteil von über 50 % durch das neue Regressionsmodell.
Die Prognose der Anzahl befürwortenden Stände wird für alle Abstimmungen und unabhängig von deren Relevanz, wie sie bei Abstimmungen über Volksinitiativen oder Verfassungsänderungen besteht, bestimmt.
Wie weit die Modelle zukünftig Diskrepanzen zwischen Volks-und Ständemehr aufzeigen werden, ist offen. In jüngster Vergangenheit und im Falle der die Unternehmens- Verantwortungsinitiative hätte das neue Modell das Scheitern am Ständemehr richtig prognostiziert (Prognose: 7 Stände, tatsächliche Anzahl: 8 (von 12 notwendigen Ständen für das Ständemehr)). Der prognostizierte Ja-Stimmenanteil von 45.5 % lag allerdings etwas unter dem tatsächlichen Wert am Abstimmungstag von 50.7 %.
Letzter update 4.8.2021