|
Vorwort |
6 |
|
|
Inhaltsverzeichnis |
12 |
|
|
Der Autor |
12 |
|
|
Teil I Rahmen |
23 |
|
|
1 Statistik heute |
24 |
|
|
1.1 Datenanalyse, Statistik, Data Science und Co. |
25 |
|
|
1.2 Wissensgebiete der Datenanalyse |
27 |
|
|
1.3 Einige Grundbegriffe |
29 |
|
|
1.4 Signal und Rauschen |
30 |
|
|
2 Hallo, R |
33 |
|
|
2.1 Eine kurze Geschichte von R |
33 |
|
|
2.2 Warum R? Warum, R? |
35 |
|
|
3 R starten |
40 |
|
|
3.1 R und RStudio installieren |
40 |
|
|
3.2 Pakete |
42 |
|
|
3.3 Hilfe! R startet nicht! |
44 |
|
|
3.4 Zuordnung von Paketen zu Befehlen |
46 |
|
|
3.5 R-Skript-Dateien |
48 |
|
|
3.6 Daten |
48 |
|
|
3.7 Grundlagen der Arbeit mit RStudio |
49 |
|
|
3.8 Hier werden Sie geholfen |
52 |
|
|
4 Erstkontakt |
55 |
|
|
4.1 R ist pingelig |
55 |
|
|
4.2 Variablen zuweisen und auslesen |
56 |
|
|
4.3 Funktionen aufrufen |
57 |
|
|
4.4 Logische Prüfungen |
58 |
|
|
4.5 Vektorielle Funktionen |
60 |
|
|
4.6 Literaturempfehlungen |
61 |
|
|
Teil II Daten einlesen |
62 |
|
|
5 Datenstrukturen |
63 |
|
|
5.1 Überblick über die wichtigsten Objekttypen |
63 |
|
|
5.2 Objekttypen in R |
65 |
|
|
5.3 Daten auslesen und indizieren |
71 |
|
|
5.4 Namen geben |
76 |
|
|
6 Datenimport und -export |
79 |
|
|
6.1 Daten in R importieren |
79 |
|
|
6.2 Textkodierung |
84 |
|
|
6.3 Daten exportieren |
85 |
|
|
Teil III Daten aufbereiten |
88 |
|
|
7 Datenjudo |
89 |
|
|
7.1 Daten aufbereiten mit dplyr |
91 |
|
|
7.2 Zentrale Bausteine von dplyr |
92 |
|
|
7.3 Die Pfeife |
105 |
|
|
7.4 Spalten berechnen mit mutate() |
107 |
|
|
7.5 Bedingte Analysen mit den Suffixen von dplyr |
110 |
|
|
7.6 Tabellen zusammenführen (join) |
113 |
|
|
8 Deskriptive Statistik |
116 |
|
|
8.1 Univariate Statistik |
117 |
|
|
8.2 Korrelationen berechnen |
125 |
|
|
9 Praxisprobleme der Datenaufbereitung |
130 |
|
|
9.1 Fehlende Werte |
131 |
|
|
9.2 Datenanomalien |
138 |
|
|
9.3 Daten umformen |
143 |
|
|
9.4 Werte umkodieren und partitionieren |
149 |
|
|
9.5 Vektoren zu Skalaren zusammenfassen |
154 |
|
|
10 Fallstudie: Datenjudo |
157 |
|
|
10.1 Deskriptive Statistiken zu den New Yorker Flügen |
158 |
|
|
10.2 Visualisierungen zu den deskriptiven Statistiken |
161 |
|
|
Teil IV Daten visualisieren |
166 |
|
|
11 Datenvisualisierung mit ggplot2 |
167 |
|
|
11.1 Einstieg in ggplot2 |
168 |
|
|
11.2 Häufige Arten von Diagrammen (Geomen) |
176 |
|
|
11.3 Die Gefühlswelt von ggplot2 |
188 |
|
|
11.4 ggplot(), der große Bruder von qplot() |
189 |
|
|
12 Fortgeschrittene Themen der Visualisierung |
197 |
|
|
12.1 Farbwahl |
197 |
|
|
12.2 ggplot2-Themen |
204 |
|
|
12.3 Interaktive Diagramme |
207 |
|
|
13 Fallstudie: Visualisierung |
210 |
|
|
13.1 Umfragedaten visualisieren mit „likert“ |
211 |
|
|
13.2 Umfragedaten visualisieren mit ggplot |
212 |
|
|
14 Geovisualisierung |
224 |
|
|
14.1 Kartendaten |
225 |
|
|
14.2 Unterschiede in Kartensegmenten visualisieren |
228 |
|
|
14.3 Weltkarten |
233 |
|
|
14.4 Anwendungsbeispiel: Konkordanz von Kulturwerten und Wohlbefinden |
238 |
|
|
14.5 Interaktive Karten |
243 |
|
|
Teil V Modellieren |
251 |
|
|
15 Grundlagen des Modellierens |
252 |
|
|
15.1 Was ist ein Modell? Was ist Modellieren? |
253 |
|
|
15.2 Abduktion als Erkenntnisfigur im Modellieren |
255 |
|
|
15.3 Ein Beispiel zum Modellieren in der Datenanalyse |
257 |
|
|
15.4 Taxonomie der Ziele des Modellierens |
258 |
|
|
15.5 Die vier Schritte des statistischen Modellierens |
261 |
|
|
15.6 Einfache vs. komplexe Modelle: Unter- vs. Überanpassung |
262 |
|
|
15.7 Bias-Varianz-Abwägung |
263 |
|
|
15.8 Trainings- vs. Test-Stichprobe |
264 |
|
|
15.9 Resampling und Kreuzvalidierung |
266 |
|
|
15.10 Wann welches Modell? |
267 |
|
|
15.11 Modellgüte |
267 |
|
|
15.12 Der Fluch der Dimension |
269 |
|
|
16 Inferenzstatistik |
274 |
|
|
16.1 Wozu Inferenzstatistik? |
275 |
|
|
16.2 Der p-Wert |
276 |
|
|
16.3 Wann welcher Inferenztest? |
284 |
|
|
16.4 Beispiele für häufige Inferenztests |
285 |
|
|
16.5 Alternativen zum p-Wert |
293 |
|
|
17 Simulationsbasierte Inferenz |
308 |
|
|
17.1 Stichproben, Statistiken und Population |
308 |
|
|
17.2 Die Stichprobenverteilung |
311 |
|
|
17.3 Der Bootstrap |
315 |
|
|
17.4 Nullhypothesen auf Signifikanz testen |
318 |
|
|
Teil VI Geleitetes Modellieren |
325 |
|
|
18 Lineare Modelle |
326 |
|
|
18.1 Die Idee der klassischen Regression |
326 |
|
|
18.2 Modellgüte |
329 |
|
|
18.3 Die Regression an einem Beispiel erläutert |
332 |
|
|
18.4 Überprüfung der Annahmen der linearen Regression |
334 |
|
|
18.5 Regression mit kategorialen Prädiktoren |
336 |
|
|
18.6 Multiple Regression |
338 |
|
|
18.7 Interaktionen |
340 |
|
|
18.8 Prädiktorenrelevanz |
342 |
|
|
18.9 Anwendungsbeispiel zur linearen Regression |
344 |
|
|
19 Klassifizierende Regression |
350 |
|
|
19.1 Normale Regression für ein binäres Kriterium |
351 |
|
|
19.2 Die logistische Funktion |
352 |
|
|
19.3 Interpretation des Logits |
355 |
|
|
19.4 Kategoriale Prädiktoren |
356 |
|
|
19.5 Multiple logistische Regression |
357 |
|
|
19.6 Modellgüte |
358 |
|
|
19.7 Vorhersagen |
361 |
|
|
19.8 ROC-Kurven und Fläche unter der Kurve (AUC) |
362 |
|
|
20 Fallstudie: Titanic |
369 |
|
|
20.1 Explorative Analyse |
370 |
|
|
20.2 Inferenzstatistik |
372 |
|
|
21 Baumbasierte Verfahren |
381 |
|
|
21.1 Entscheidungsbäume |
382 |
|
|
21.2 Entscheidungsbäume mit caret |
388 |
|
|
21.3 Der Algorithmus der Entscheidungsbäume |
395 |
|
|
21.4 Regressionsbäume |
395 |
|
|
21.5 Stärken und Schwächen von Bäumen |
395 |
|
|
21.6 Bagging |
397 |
|
|
21.7 Grundlagen von Random Forests |
398 |
|
|
21.8 Variablenrelevanz bei Baummodellen |
402 |
|
|
22 Fallstudie: Kreditwürdigkeit mit caret |
405 |
|
|
22.1 Zwei Arten der prädiktiven Modellierung |
406 |
|
|
22.2 Daten aufbereiten |
407 |
|
|
22.3 Modelle anpassen |
411 |
|
|
22.4 Modellgüte bestimmen |
422 |
|
|
22.5 Wichtigkeit der Prädiktoren bestimmen |
430 |
|
|
Teil VII Ungeleitetes Modellieren |
438 |
|
|
23 Clusteranalyse |
439 |
|
|
23.1 Grundlagen der Clusteranalyse |
439 |
|
|
23.2 Beispiel für eine einfache Clusteranalyse |
445 |
|
|
24 Textmining |
451 |
|
|
24.1 Grundlegende Analyse |
452 |
|
|
24.2 Sentimentanalyse |
461 |
|
|
25 Fallstudie: Twitter-Mining |
465 |
|
|
25.1 Zum Einstieg: Moderne Methoden der Sentimentanalyse |
466 |
|
|
25.2 Grundlagen des Twitter-Minings |
467 |
|
|
Teil VIII Kommunizieren |
475 |
|
|
26 RMarkdown |
476 |
|
|
26.1 Forderungen an Werkzeuge zur Berichterstellung |
477 |
|
|
26.2 Start mit RMarkdown |
479 |
|
|
26.3 RMarkdown in Action |
481 |
|
|
26.4 Aufbau einer Markdown-Datei |
483 |
|
|
26.5 Syntax-Grundlagen von Markdown |
484 |
|
|
26.6 Tabellen |
485 |
|
|
26.7 Zitieren |
488 |
|
|
26.8 Format-Vorlagen für RMarkdown |
490 |
|
|
Teil IX Rahmen 2 |
493 |
|
|
27 Projektmanagement am Beispiel einer Fallstudie |
494 |
|
|
27.1 Was ist Populismus? |
495 |
|
|
27.2 Forschungsfrage und Operationalisierung |
496 |
|
|
27.3 Emotionslexikon |
497 |
|
|
27.4 Daten, Stichprobe und Analysekontext |
498 |
|
|
27.5 Prozess der Datenanalyse |
498 |
|
|
27.6 Zentrale Ergebnisse |
500 |
|
|
27.7 Projektmanagement |
503 |
|
|
28 Programmieren mit R |
510 |
|
|
28.1 Funktionen schreiben |
510 |
|
|
28.2 Wiederholungen |
513 |
|
|
28.3 Defensives Programmieren |
522 |
|
|
29 Programmieren mit dplyr |
525 |
|
|
29.1 Wie man mit dplyr nicht sprechen darf |
525 |
|
|
29.2 Standard-Evaluation vs. Non-Standard-Evaluation |
526 |
|
|
29.3 NSE als Backen |
528 |
|
|
29.4 Wie man Funktionen mit dplyr-Verben schreibt |
532 |
|
|
29.5 Beispiele für NSE-Funktionen |
535 |
|
|
Anhang A |
539 |
|
|
Literatur |
545 |
|
|
Sachverzeichnis |
556 |
|