Mysterium Repräsentativität – Aussagekraft von Studien, Untersuchungen und Befragungen

fragebogen“Ist diese Studie repräsentativ?” Diese Frage kann man bejahen. Jede Studie ist repräsentativ, immer und überall. Man kann diese Frage aber auch verneinen, denn: keine Studie ist repräsentativ, nie und nirgendwo. Wie kann das sein?
Eine Stichprobe soll Schlüsse auf die Grundgesamtheit erlauben. Und die Repräsentativität soll sicherstellen, dass diese Schlüsse “irgendwie” fundiert sind. Zu “repräsentativ” gehört also immer auch die Angabe der Grundgesamtheit. Ansonsten ist eine Aussage wie “Diese Studie ist repräsentativ” inhaltsleer. Sie transportiert keinerlei Information und ist deshalb jenseits von wahr und falsch. Jede Studie in der Umfrageforschung ist immer repräsentativ für die befragten Personen und niemals repräsentativ für beliebig viele Grundgesamtheiten.

Was aber ist eigentlich “repräsentativ”?
Sucht man in Lehrbüchern zur Mathematischen Statistik oder Stichprobentheorie nach einer Definition dieses Begriffes, so wird man keine finden! “Repräsentativität” ist Mathematikern / Statistikern unbekannt und folglich kein Kriterium zur Abschätzung der Güte einer Stichprobe. Statt dessen begegnen einem hier Begriffe wie Erwartungstreue, Vertrauenswahrscheinlichkeit, Stichprobenfehler und viele andere.
Erwartungstreue hört sich vielversprechend an. Sie liegt dann vor, wenn der Erwartungswert eines Schätzers (“Schätzer” ist der in der Stichprobe gefundene Wert) gleich dem wahren Wert in der Grundgesamtheit ist. Anders ausgedrückt: Wenn ich die Untersuchung unzählige Male wiederhole, erhalte ich viele verschiedene Schätzer, deren Mittelwert der wahre Wert in der Grundgesamtheit ist. Man kann sogar berechnen, mit welcher Wahrscheinlichkeit ein bestimmtes Intervall um einen Schätzer den wahren Wert überdeckt.

Der Zufall und die Stichprobe
Damit der in der Stichprobe gefundene Wert erwartungstreu ist, muss diese Stichprobe eine Zufallsstichprobe sein. Eine Stichprobe von n Elementen aus einer Grundgesamtheit von N Elementen ist dann eine Zufallsstichprobe, wenn alle N über n möglichen Stichproben die gleiche Chance haben, als Stichprobe realisiert zu werden. Beim Lotto 6 aus 49 sind das bekanntlich knapp 14 Millionen Möglichkeiten, weshalb man auch so verdammt selten einen 6er hat. Bei einer Grundgesamtheit von 1.000 Personen und einer Stichprobe von 100 Personen sind es ungefähr 64.000.000 … (es folgen weitere 132 Nullen) mögliche Stichproben. Diese Zahl liegt noch weit, weit, weit jenseits der letzten benannten Zahl, dem Googol, einer Eins mit Hundert Nullen. Nebenbei: das Googol spielte angeblich bei der Namensgebung einer bestimmten Suchmaschine eine Rolle.
Eine Zufallsstichprobe realisiert man nun z.B. so: Man legt 1.000 durchnummerierte Kugeln (stellvertretend für die 1.000 Personen) in eine Lostrommel, mischt gründlichst und zieht blind 100 Kugeln ohne Zurücklegen. Aber Achtung: Jede einzelne Kugel muss eine vollkommene Kugel sein, alle Kugeln müssen in jeder physikalischen Hinsicht identisch sein; trotzdem müssen alle Kugeln eindeutig identifizierbar sein! Weitere Voraussetzungen der Erwartungstreue, die selten explizit erwähnt werden, sind die vollständige Ausschöpfung der Stichprobe und die verzerrungsfreie Messung der Merkmale. All diese Voraussetzungen sind in der praktischen Umfrageforschung unerreichbar.
Helmut Kromrey fasst wie folgt zusammen: “Wenn mit dem Blick auf eine präzise abgrenzbare Grundgesamtheit mit endlicher Zahl von empirisch definierbaren Elementen ein Plan zur Durchführung einer kontrollierten Zufallsauswahl erstellbar ist, und wenn bei der Durchführung der Stichprobenziehung sowie bei der Datenerhebung verzerrende Einflüsse ausgeschaltet werden können, dann ist das Ergebnis mit angebbarer Wahrscheinlichkeit ein verkleinertes Abbild dieser Grundgesamtheit. Das Sample ist dann mit angebbarer Wahrscheinlichkeit repräsentativ hinsichtlich sämtlicher Merkmale und Merkmalskombinationen – mit der (gewünschten) Konsequenz, daß aus den Stichprobenstatistiken auch auf unbekannte Parameter der Grundgesamtheit geschlossen werden kann.” (KROMREY, HELMUT (1987): Zur Verallgemeinerbarkeit empirischer Befunde bei nichtrepräsentativen Stichproben, zitiert nach Prein, Kluge, Kelle: Strategien zur Sicherung von Repräsentativität und Stichprobenvalidität bei kleinen Samples, Fundort: http://www.sfb186.uni-bremen.de/download/paper18.pdf

Auch wenn es einem auf den ersten Blick wie eine Definition vorkommen mag: Dies ist keine Definition von “Repräsentativität”, sondern besagt: Eine Zufallstichprobe (mit den weiteren impliziten Voraussetzungen) ist eine hinreichende Bedingung für Repräsentativität, kurz: aus Zufallstichprobe folgt Repräsentativität  (gemeint hier als Erwartungstreue aller Parameter). Ist eine Zufallsstichprobe aber auch eine notwendige Bedingung für Repräsentativität? Erst dann könnte man von einer Definition sprechen, z.B.: Repräsentativ ist eine Erhebung genau dann, wenn die Daten aus einer idealen Zufallsstichprobe verzerrungsfrei erhoben und ausgewertet werden, und der Stichprobenfehler einen vorgebbaren Wert X nicht überschreitet.
Definiert man Repräsentativität in einer solchen Strenge, dann gab es in der Geschichte der Umfrageforschung noch niemals eine repräsentative Untersuchung, und es wird auch in Zukunft niemals eine solche geben.
Die mathematische Definition eines Ideals, das keinerlei praktische Relevanz hat und haben kann, ist in der empirischen Forschung genau so sinnlos wie die rein verbale, nebulöse, nicht überprüfbare und deshalb unbrauchbare “Definition”: Repräsentativ ist, wenn die Merkmalsverteilung in der Stichprobe dieselbe ist wie in der Grundgesamtheit.

Die Not macht erfinderisch
Was machen die Marktforscher in ihrer “Not”? Das, was andere Pragmatiker wie z.B. Ingenieure auch tun: Sie wenden mathematische Methoden mit großem Erfolg an, ohne sich allzu sehr um die strengen Voraussetzungen der Mathematik zu kümmern. Was Mathematiker davon halten, kann man einem amüsanten Video auf YouTube entnehmen:

…ab der 3. Minute; bis zur 3. Minute ist es nur für Mathematiker amüsant!

Falls Zufallsstichproben das Mittel der Wahl sind (und das sind sie keineswegs immer, manchmal sind sie sogar kontraproduktiv!), wird mit verschiedenen Techniken und großem Aufwand eine weitestgehende Annäherung an mathematische Stichproben angestrebt. Sind Strukturen der Grundgesamtheit bekannt, kann die Stichprobe zudem daran justiert werden. Wirken sich Teilnahmebereitschaft oder Erreichbarkeit verzerrend auf die Ergebnisse aus, so kann mit Gewichtungsprozeduren sowie geeigneten Befragungswegen und -methoden gegengesteuert werden usw. usf.
Das alles bewirkt, dass die in einer Stichprobe gefundenen Schätzwerte den wahren Werten in der Grundgesamtheit (so sie denn bekannt sind oder werden) oft erstaunlich nahe kommen, dass diese Schätzer also tatsächlich erwartungstreu sind (natürlich nicht im streng mathematischen Sinn).
In der Anlage der Stichprobe, diesem eminent wichtigen Bestandteil jeder Untersuchung, können allerdings auch die größten und folgenschwersten Fehler gemacht werden, die im Extrem den Wert einer Studie unter Null drücken.
Ein Beispiel zum Schluss zeigt, wie leistungsstark seriöse Marktforschung sein kann, und wie schwach gedankenlos durchgeführte Umfragen sind. Das Beispiel entzaubert auch das “Gesetz der großen Zahl”: Weit verbreitet ist die Ansicht, wenn nur genügend viele Personen an einer Befragung teilnehmen, wird die Erhebung “irgendwann” repräsentativ. Wenn aber schon in der Anlage der Untersuchung gravierende Fehler gemacht werden, wird das Gesetz schnell zum Geschwätz.

Beispiel: Literary Digest Desaster
(zitiert nach http://marktforschung.wikia.com/wiki/Literary_Digest_Desaster und http://www.scienceblogs.de/frischer-wind/2008/05/das-literary-digest-disaster.php)
“Ein klassisches Beispiel für einen Mangel im Auswahlverfahren, der auch durch eine sehr große Stichprobe nicht ausgeglichen werden konnte, ist das ‘Literary Digest Desaster’. Das US-amerikanische Magazin Literary Digest versuchte 1936 den Ausgang der Präsidentschaftswahl anhand einer Erhebung der Leserschaft des Digest zu ermitteln …”.
“Für 1936 hatte man sich vorgenommen, die Genauigkeit der bisherigen Befragungen dadurch zu übertreffen, dass man eine deutlich vergrößerte Stichprobe zog. Das bisherige Verfahren mit den beiliegenden Stimmzetteln wurde durch eine der ersten Telefonbefragungen überhaupt ergänzt, basierend auf einer Zufallsauswahl anhand des Telefonregisters sowie des KfZ-Registers. Postalische und telefonische Befragung erreichten insgesamt mehr als 10 Millionen wahlberechtigte Amerikaner, von denen sich etwa 2,3 Millionen an der Stimmabgabe beteiligten – eine Stichprobe bisher unerreichten Umfangs …, von der man annahm, dass sie zu einer hochpräzisen Prognose des Wahlausgangs führen würde. Auf der Basis dieser Ergebnisse prognostizierte der Literary Digest einen Erdrutschsieg für den Republikaner Landon.”
Der Umfrageforscher George Gallup hatte eine im Vergleich zum Literary Digest geradezu kümmerliche Stichprobe von nur 5.000 Probanden. Auf Basis dieser Stichprobe sah er Roosevelt als deutlichen Sieger, was ihm allerdings nur wenig Aufmerksamkeit einbrachte.
Das Ergebnis der Wahl: Roosevelt wurde mit großer Mehrheit in seine zweite Amtszeit gewählt, Literary Digest hatte sein Desaster und George Gallup war landesweit bekannt.
Die Stichprobe des Literary Digest war zwar gigantisch, aber gleichzeitig auch gigantisch schief: Anhand von Telefon- und KFZ-Registern konnte man 1936 keine zuverlässige Stichprobe ziehen. Telefon- und KFZ-Besitz waren zu dieser Zeit positiv korreliert mit Sympathien für die Republican Party.
Diese Unbekümmertheit bei der Stichprobenanlage, überhaupt das Vernachlässigen methodischer Überlegungen, findet sich auch heutzutage noch viel zu häufig.

Aber zurück zur Ausgangsfrage:
Was ist denn nun Repräsentativität? Festzuhalten bleibt: “Repräsentative” Studien gibt es in Hülle und Fülle, obwohl niemand weiß, was damit eigentlich genau gemeint sein soll. Erwartungstreue im streng mathematischen Sinn kann es nicht sein, die oben gegebene verbale Definition ist keine, sondern nur eine Tautologie.

statischedatenanalyseEine schöne Definition bietet M.C. Bryson an:

“Repräsentativität
= ‘kein systematischer Fehler’ “. ;-)

(gefunden bei Google Bücher -> Link)

[tags]Studie,Umfrage,Untersuchung,Marktforscher,Marktforschung,Repräsentativität,repräsentativ,Grundgesamtheit,Mathematik,Stichprobe, Zufallsstichprobe, Statistik ,Probanden,Literary Digest Desaster,Matthias Thauer,media-TREFF.de[/tags]

3 Gedanken zu “Mysterium Repräsentativität – Aussagekraft von Studien, Untersuchungen und Befragungen

  1. Pingback: Jens Rittgerodt

  2. Pingback: ethority

Hinterlasse eine Antwort

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind markiert *

*

Du kannst folgende HTML-Tags benutzen: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>