Ein herzliches Willkommen zu dieser Einführung in die politikwissenschaftliche Statistik mit R
!
Kleinere Institute für Politikwissenschaft stehen oftmals vor der Herausforderung, dass sie keine eigenständige Methoden- bzw Statistikprofessur anbieten, sondern dass die Methoden- und Statistikausbildung aus anderen Fächern zugeliefert wird. Von Seite der Studierenden wird oftmals bemängelt, dass die Statistikkurse entweder zu mathematisch und zu wenig anwendungsorientiert sind, oder die Beispiele nicht aus dem eigenen Fach kommen.
Die zweite Herausforderung besteht darin, dass innerhalb des politikwissenschaftlichen Studiums die Notwendigkeit immer größer wird, statistische Verfahren nicht nur passiv verstehen zu können, sondern gängige Verfahren mit Statistiksoftware aktiv anzuwenden. Ohne diese Fertigkeiten können letztlich keine eigenständigen empirischen Haus- und Abschlussarbeiten geschrieben werden.
Die Studierenden sind häufig dadurch überfordert, dass sie zwar statistische Verfahren nutzen sollen, die Ausbildung jedoch oft zu weit von den realen Anforderungen im Studium entfernt ist. Das frustriert und demotiviert Studierende.
Idealerweise würde man das Erlernen von statistischen Verfahren und ihre Anwendung in einem Statistikprogramm in Form von die Vorlesungen begleitenden Seminaren durchführen. Die dafür notwendigen finanziellen Ressourcen für Mitarbeiter/innen stehen jedoch häufig nicht zur Verfügung.
Dieser Kurs wurde als Selbstlernkurs konzipiert, der zum Ziel hat, die vorlesungslastige und mathematisch orientierte Statistikausbildung im Fach Politikwissenschaft bei begrenzten Ressourcen zu verbessern. Er wurde bewusst als Online-Kurs konzipiert, sodass die Studierenden auch von zu Hause aus am Material arbeiten können. Er kann durch Tutor/innen begleitet werden, dies ist jedoch nicht zwingend erforderlich.
Studierende im Bachelor erwerben in diesem Kurs Kenntnisse in der Programmiersprache R und in der eigenständigen Analyse von Daten. In Verbindung mit den theoretischen Hintergründen aus den Statistikvorlesungen können sie somit sowohl selbstständig Analysen vornehmen, als auch gegebene Analysen kritisch durch Replikation hinterfragen. In der Konsequenz können die Studierenden direkt und anwendungsorientiert Fragen der deskriptiven und Inferenzstatistik beantworten. In der praktischen Bearbeitung und eigenständigen Analyse politikwissenschaftlicher Datensätze sollen die Studierenden ein besseres Verständnis der Statistik und ihres praktischen Nutzens erwerben.
Dieser Kurs hat den Umfang von 2 Semesterwochenstunden (SWS). Er setzt voraus, dass die Studierenden Vorlesungen in Statistik besuchen, die ihnen die mathematischen Grundlagen gängiger statistischer Verfahren vermitteln. Sein Ziel ist es nicht, statistische Grundlagen zu wiederholen.
Das Ziel des Kurses ist es, die Nutzung von R
anhand von gängigen politikwissenschaftlichen Datensätzen zu vermitteln. Er geht dazu wie folgt in jeder Sitzung vor: (1) Es wird nochmals knapp auf das jeweilige statistische Verfahren eingegangen. (2) Es wird der Code für die Anwendung des Verfahrens am Beispiel von zwei politikwissenschaftlichen Datensätzen vorgestellt (inkl. des Outputs). (3) Es werden kleine Aufgaben zur eigenständigen Lösung aus den beiden Datensätzen vorgegeben (inkl. der Lösungen).
Die ersten drei Sitzungen führen in das Programm R
ein. Wie beim Programmieren üblich, hakt es bei den Grundlagen mitunter an kleinen Fehlern im Code, was schnell zu Frustration führen kann. Dieser Kurs beugt der Frustration durch die ausführliche Einführung vor.
R
als das Programm der WahlHinsichtlich des Statistikprogrammes haben wir uns bewusst für R
entschieden. Zum Ersten handelt es sich im Gegensatz zu Stata und SPSS um eine Freeware, die nicht zu Lizenzkosten in Abhängigkeit von Rahmenverträgen der jeweiligen Universität führt. Zum Zweiten bietet R
große Flexibilität mit nahezu unbegrenzten Anwendungsmöglichkeiten, insbesondere in Hinblick auf moderne Verfahren wie der automatisierten Textanalyse. Klassischen Statistikprogrammen sind hier im Gegensatz zur Programmiersprache R
enge Grenzen gesetzt. Insofern ist die Wahl von R
auch perspektivisch hinsichtlich einer weitergehenden Vertiefung, z.B. im Rahmen des Master-Studiums, gedacht.
In diesem Kurs werden die Studierenden die Grundlagen des Programms erlernen, Datensatzaufbereitung, deskriptive und multivariate Statistik. Dies geschieht anhand von verbreiteten politikwissenschaftlichen Datensätzen. Konkret werden folgende Themen abgehandelt:
(1) Sitzung: Einleitung und Grundlagen von R
(2) Sitzung: Faktoren und zweidimensionale Objekte in R
(3) Sitzung: Datensätze einladen in R
(4) Sitzung: Variablen um-/kodieren (5) Sitzung: Univariate Maße (6) Sitzung: Visualisierung (1): Univariate Verteilungen (7) Sitzung: Bivariate Zusammenhangsmaße (8) Sitzung: Bivariate lineare Regression (OLS) (9) Sitzung: Visualisierung (2): Zusammenhangsmaße & Regression (10) Sitzung: Multiple lineare Regression (11) Sitzung: Logistische Regression (12) Sitzung: Faktoranalyse (13) Sitzung: Visualisierung (3): Übersichtliche Regressionstabellen
Didaktisch haben wir uns bei Beispielen und Aufgaben auf zwei Datensätze der politischen Soziologie sowie der vergleichenden Politikwissenschaft gestützt.
Politische Soziologie: Hier nutzen wir den Nachwahl-Querschnitt der German Longitudinal Election Study (GLES) von 2017. Der Datensatz umfasst 602 Variablen und 2112 Fälle.
Vergleichende Politikwissenschaft: Hier nutzen wir den Datensatz zu “Patterns of Democracy” von Arend Lijphart. Der Datensatz umfasst 74 Variablen und 36 Fälle.
Die Auswahl der beiden Datensätze wurde getroffen, um verschiedene Bereiche der Politikwissenschaft zu bedienen und die beiden üblichen Typen von Datensätzen (Individualdaten und Aggregatdaten) zeigen zu können. Die Datensätze beinhalten Variablen auf unterschiedlichen Skalenniveaus und sind unterschiedlich umfangreich hinsichtlich der Variablen- und Fallzahlen. Gleichzeitig sollen sich die Studierenden mit diesen beiden Datensätze wiederholt und vertieft auseinander setzen, anstatt immer wieder mit unbekannten Daten konfrontiert zu werden. So vermittelt der Kurs ein Gespür für Inhalt und Aufbau dieser Datensätze und anhand dessen ein Verständnis für Datenmanagement insgesamt.
Ein herzliches Willkommen zu dieser Einführung in die politikwissenschaftliche Statistik mit R
!
Dieser Kurs wurde als Selbstlernkurs für Sie konzipiert. Sein Ziel ist es, Ihnen die Nutzung der Programmiersprache R
in ihrem politikwissenschaftlichen Studium zu ermöglichen. Dieser Kurs ergänzt Ihre bestehenden Statistikvorlesungen anwendungsorientiert, setzt aber auch die Inhalte der Vorlesungen voraus. Er wurde bewusst als Online-Kurs konzipiert, sodass Sie auch von zu Hause aus arbeiten können.
Für den Besuch dieses Kurses spricht eine ganze Reihe von Gründen, die über den Erwerb einer Studienleistung hinaus gehen:
Bessere Noten: Innerhalb des politikwissenschaftlichen Studiums wird die Notwendigkeit immer größer, statistische Verfahren nicht nur passiv verstehen zu können, sondern auch gängige Verfahren aktiv anzuwenden. Ohne diese Fertigkeiten können letztlich keine eigenständigen empirischen Haus- und Abschlussarbeiten geschrieben werden. Ein erfolgreicher Besuch dieses Kurses hebt also Ihr potenzielles Notenniveau deutlich an.
Eigenständige Analysen: Politikwissenschaft ist auch eine empirische Wissenschaft, in der wir politische Systeme und deren Regeln sowie das Verhalten von Akteuren (z.B. Parteien, Interessengruppen, Politikern und Wählern) verstehen und erklären wollen. Der Besuch dieses Kurses versetzt Sie in die Lage, selbstständige Analysen vorzunehmen und gegebene Analysen kritisch durch Replikation zu hinterfragen und nicht nur passiv die Arbeit anderer zu konsumieren.
Moderne Datenanalyse: Innerhalb der Politikwissenschaft, ebenso wie in den Sprachwissenschaften, werden moderne Verfahren der Datenanalyse, wie die automatische Textanalyse, immer wichtiger. In der Politikwissenschaft haben wir Zugang zu einer großen Masse an politischen Dokumenten (z.B. Wahlprogramme, Gesetze, Tweets, Zeitungsartikel, Pressemitteilungen). Diese sind wegen ihrer breiten Verfügbarkeit und großen Masse kaum noch qualitativ auszuwerten, sondern werden mithilfe automatischer Textanalyse ausgewertet. Die Programmiersprache R
bietet große Flexibilität und wird laufend erweitert, Dadurch kann sie auch aufwändige moderne Analyseverfahren leisten, während klassischen Statistikprogrammen enge Grenzen gesetzt sind. Der Kurs bietet Ihnen die Grundlage für einen Einstieg in diese Welt.
Arbeitsmarkt: Die Fähigkeit zur quantitativen Datenanalyse verbessert Ihre Berufsaussichten deutlich. Sich damit systematisch auseinanderzusetzen, eröffnet Arbeitsmarktperspektiven im Bereich der “Data Science” und “Big Data”. Aber auch in klassischen Arbeitsmärkten für Politikwissenschaftler/innen wie z.B. dem Journalismus, wird dies immer wichtiger.
R
als das Programm der WahlHinsichtlich des Statistikprogrammes haben wir uns bewusst für R
entschieden. Zum Ersten handelt es sich im Gegensatz zu Stata und SPSS um eine Freeware, die nicht zu Lizenzkosten führt bzw. Sie sich bei Ihrer Universität für eine begrenzte Zeit laufende Lizenzen besorgen müssen. R
läuft sowohl auf Windows als auch auf Mac. Zum Zweiten ist R vielseitig anwendbar z.B. bezogen auf die quantitative Textanalyse.
In den ersten drei Sitzungen führen wir Sie in das Programm R
ein. Da es sich um eine Programmiersprache handelt, die deutlich flexibler eingesetzt werden kann als beispielsweise die Statistikprogramme SPSS und Stata, gilt es zuerst die Grundlagen der Nutzung zu vermitteln. Dafür sind drei Sitzungen eingeplant.
Die fachlichen Sitzungen ab Sitzung 4 sind wie folgt strukturiert:
Es wird nochmals knapp auf das jeweilige statistische Verfahren eingegangen, das Sie in der Vorlesung erlernt haben.
Es wird der Code für die Anwendung des Verfahrens am Beispiel von zwei politikwissenschaftlichen Datensätzen vorgestellt (inkl. des Outputs).
Es werden kleine Aufgaben zur eigenständigen Lösung aus den beiden Datensätzen vorgegeben (inkl. der Lösungen).
In der Statistikausbildung wird in Vorlesungen ein Schwerpunkt auf die mathematische Basis gelegt oder wenn Vorlesungen von Professor/innen anderer Fächer unterrichtet werden, sind die Beispiele oft nicht politikwissenschaftlicher Natur. Wir haben in der Vergangenheit festgestellt, dass deshalb Studierenden oft nicht klar ist, wozu sie eigentlich die Statistikvorlesungen in ihrem Studium benötigen.
Didaktisch haben wir uns in diesem Kurs bei Beispielen und Aufgaben auf zwei Datensätze der politischen Soziologie sowie der vergleichenden Politikwissenschaft gestützt, um den Nutzen so besser verdeutlichen zu können.
Politische Soziologie: Hier nutzen wir den “Nachwahl-Querschnitt der German Longitudinal Election Study (GLES)” von 2017. Der Datensatz umfasst 602 Variablen und 2112 Fälle. Dieser ist ein Standarddatensatz der deutschen Wahlforschung.
Vergleichende Politikwissenschaft: Hier nutzen wir Daten zu “Patterns of Democracy” von Arend Lijphart. Der Datensatz umfasst 74 Variablen und 36 Fälle. Dieser gehört zu den Klassikern der vergleichenden Politikwissenschaft.
Die Auswahl der beiden Datensätze wurde getroffen, um verschiedene Bereiche der Politikwissenschaft zu bedienen und die beiden üblichen Typen von Datensätzen (Individualdaten und Aggregatdaten) zeigen zu können. Die Datensätze beinhalten Variablen auf unterschiedlichen Skalenniveaus und sind unterschiedlich umfangreich hinsichtlich der Variablen- und Fallzahlen. Gleichzeitig sollen sich die Studierenden mit diesen beiden Datensätze wiederholt und vertieft auseinander setzen, anstatt immer wieder mit unbekannten Daten konfrontiert zu werden. So vermittelt Ihnen der Kurs ein Gespür für Inhalt und Aufbau dieser Datensätze, sodass Sie anhand dessen ein Verständnis für Datenmanagement insgesamt erwerben.
In diesem Kurs werden Sie die Grundlagen des Programms erlernen sowie Datensatzaufbereitung, deskriptive und multivariate Statistik. Gleichzeitig erlernen Sie Grundlagen der Visualisierung, dem wir drei Sitzungen widmen.
Konkret werden folgende Themen abgehandelt:
(1) Sitzung: Einleitung und Grundlagen von R
(2) Sitzung: Faktoren und zweidimensionale Objekte in R
(3) Sitzung: Datensätze einladen in R
(4) Sitzung: Variablen um-/kodieren (5) Sitzung: Univariate Maße (6) Sitzung: Visualisierung (1): Univariate Verteilungen (7) Sitzung: Bivariate Zusammenhangsmaße (8) Sitzung: Bivariate lineare Regression (OLS) (9) Sitzung: Visualisierung (2): Zusammenhangsmaße & Regression (10) Sitzung: Multiple lineare Regression (11) Sitzung: Logistische Regression (12) Sitzung: Faktoranalyse (13) Sitzung: Visualisierung (3): Übersichtliche Regressionstabellen
Wir danken dem Niedersächsischen Ministerium für Wissenschaft und Kunst (MWK) für die Förderung des Projektes “Digitalisierung in einer Massenveranstaltung: Peer-begleitetes E-Learning in der politikwissenschaftlichen Statistikausbildung mit der Programmiersprache R” aus dem Programm “Innovative Lehr- und Lernkonzepte: Innovation plus (2020/21), Projektnummer 25”.
Ebenso danken wir Frau Dr. Ines Katenhusen als Referentin des Präsidiums sowie dem Studiendekanat der Philosophischen Fakultät, insbesondere Sandra Templin, für Kommentare zum Antrag.
In diesem Kurs basiert die Erläuterung der statistischen Methoden der Politikwissenschaft im wesentlichen auf Kühnel/Krebs (2014) und Diaz-Bone (2019). Als Datensätze werden Lijphart (2012) und GLES (2019) verwendet.
Kühnel, Steffen-M./Dagmar Krebs (2014): Statistik für die Sozialwissenschaften. Grundlagen Methoden Anwendungen. 7. Auflage. Reinbek bei Hamburg: Rowohlt.
Diaz-Bone, Rainer (2019): Statistik für Soziologen. 4. überarbeitete Auflage. München: UVK-Verlag.
GLES (2019). Nachwahl-Querschnitt (GLES 2017). GESIS Datenarchiv, Köln. ZA6801 Datenfile Version 4.0.1, https://doi.org/10.4232/1.13235.
Lijphart, Arend (2012): Patterns of Democracy. Government Forms and Performance in Thirty-Six Countries. 2nd Edition. New Haven/London: Yale University Press.
Und nun wünschen wir Ihnen viel Spass und Erfolg bei der Nutzung des Kurses!
Christoph Garwe, Philipp Meyer, Laura Brune & Christoph Hönnige