ciando eBooks - ein Service Ihrer Bibliothek

	Vorwort	6
	Inhaltsverzeichnis	12
	Der Autor	12
	Teil I Rahmen	23
	1 Statistik heute	24
	1.1 Datenanalyse, Statistik, Data Science und Co.	25
	1.2 Wissensgebiete der Datenanalyse	27
	1.3 Einige Grundbegriffe	29
	1.4 Signal und Rauschen	30
	2 Hallo, R	33
	2.1 Eine kurze Geschichte von R	33
	2.2 Warum R? Warum, R?	35
	3 R starten	40
	3.1 R und RStudio installieren	40
	3.2 Pakete	42
	3.3 Hilfe! R startet nicht!	44
	3.4 Zuordnung von Paketen zu Befehlen	46
	3.5 R-Skript-Dateien	48
	3.6 Daten	48
	3.7 Grundlagen der Arbeit mit RStudio	49
	3.8 Hier werden Sie geholfen	52
	4 Erstkontakt	55
	4.1 R ist pingelig	55
	4.2 Variablen zuweisen und auslesen	56
	4.3 Funktionen aufrufen	57
	4.4 Logische Prüfungen	58
	4.5 Vektorielle Funktionen	60
	4.6 Literaturempfehlungen	61
	Teil II Daten einlesen	62
	5 Datenstrukturen	63
	5.1 Überblick über die wichtigsten Objekttypen	63
	5.2 Objekttypen in R	65
	5.3 Daten auslesen und indizieren	71
	5.4 Namen geben	76
	6 Datenimport und -export	79
	6.1 Daten in R importieren	79
	6.2 Textkodierung	84
	6.3 Daten exportieren	85
	Teil III Daten aufbereiten	88
	7 Datenjudo	89
	7.1 Daten aufbereiten mit dplyr	91
	7.2 Zentrale Bausteine von dplyr	92
	7.3 Die Pfeife	105
	7.4 Spalten berechnen mit mutate()	107
	7.5 Bedingte Analysen mit den Suffixen von dplyr	110
	7.6 Tabellen zusammenführen (join)	113
	8 Deskriptive Statistik	116
	8.1 Univariate Statistik	117
	8.2 Korrelationen berechnen	125
	9 Praxisprobleme der Datenaufbereitung	130
	9.1 Fehlende Werte	131
	9.2 Datenanomalien	138
	9.3 Daten umformen	143
	9.4 Werte umkodieren und partitionieren	149
	9.5 Vektoren zu Skalaren zusammenfassen	154
	10 Fallstudie: Datenjudo	157
	10.1 Deskriptive Statistiken zu den New Yorker Flügen	158
	10.2 Visualisierungen zu den deskriptiven Statistiken	161
	Teil IV Daten visualisieren	166
	11 Datenvisualisierung mit ggplot2	167
	11.1 Einstieg in ggplot2	168
	11.2 Häufige Arten von Diagrammen (Geomen)	176
	11.3 Die Gefühlswelt von ggplot2	188
	11.4 ggplot(), der große Bruder von qplot()	189
	12 Fortgeschrittene Themen der Visualisierung	197
	12.1 Farbwahl	197
	12.2 ggplot2-Themen	204
	12.3 Interaktive Diagramme	207
	13 Fallstudie: Visualisierung	210
	13.1 Umfragedaten visualisieren mit „likert“	211
	13.2 Umfragedaten visualisieren mit ggplot	212
	14 Geovisualisierung	224
	14.1 Kartendaten	225
	14.2 Unterschiede in Kartensegmenten visualisieren	228
	14.3 Weltkarten	233
	14.4 Anwendungsbeispiel: Konkordanz von Kulturwerten und Wohlbefinden	238
	14.5 Interaktive Karten	243
	Teil V Modellieren	251
	15 Grundlagen des Modellierens	252
	15.1 Was ist ein Modell? Was ist Modellieren?	253
	15.2 Abduktion als Erkenntnisfigur im Modellieren	255
	15.3 Ein Beispiel zum Modellieren in der Datenanalyse	257
	15.4 Taxonomie der Ziele des Modellierens	258
	15.5 Die vier Schritte des statistischen Modellierens	261
	15.6 Einfache vs. komplexe Modelle: Unter- vs. Überanpassung	262
	15.7 Bias-Varianz-Abwägung	263
	15.8 Trainings- vs. Test-Stichprobe	264
	15.9 Resampling und Kreuzvalidierung	266
	15.10 Wann welches Modell?	267
	15.11 Modellgüte	267
	15.12 Der Fluch der Dimension	269
	16 Inferenzstatistik	274
	16.1 Wozu Inferenzstatistik?	275
	16.2 Der p-Wert	276
	16.3 Wann welcher Inferenztest?	284
	16.4 Beispiele für häufige Inferenztests	285
	16.5 Alternativen zum p-Wert	293
	17 Simulationsbasierte Inferenz	308
	17.1 Stichproben, Statistiken und Population	308
	17.2 Die Stichprobenverteilung	311
	17.3 Der Bootstrap	315
	17.4 Nullhypothesen auf Signifikanz testen	318
	Teil VI Geleitetes Modellieren	325
	18 Lineare Modelle	326
	18.1 Die Idee der klassischen Regression	326
	18.2 Modellgüte	329
	18.3 Die Regression an einem Beispiel erläutert	332
	18.4 Überprüfung der Annahmen der linearen Regression	334
	18.5 Regression mit kategorialen Prädiktoren	336
	18.6 Multiple Regression	338
	18.7 Interaktionen	340
	18.8 Prädiktorenrelevanz	342
	18.9 Anwendungsbeispiel zur linearen Regression	344
	19 Klassifizierende Regression	350
	19.1 Normale Regression für ein binäres Kriterium	351
	19.2 Die logistische Funktion	352
	19.3 Interpretation des Logits	355
	19.4 Kategoriale Prädiktoren	356
	19.5 Multiple logistische Regression	357
	19.6 Modellgüte	358
	19.7 Vorhersagen	361
	19.8 ROC-Kurven und Fläche unter der Kurve (AUC)	362
	20 Fallstudie: Titanic	369
	20.1 Explorative Analyse	370
	20.2 Inferenzstatistik	372
	21 Baumbasierte Verfahren	381
	21.1 Entscheidungsbäume	382
	21.2 Entscheidungsbäume mit caret	388
	21.3 Der Algorithmus der Entscheidungsbäume	395
	21.4 Regressionsbäume	395
	21.5 Stärken und Schwächen von Bäumen	395
	21.6 Bagging	397
	21.7 Grundlagen von Random Forests	398
	21.8 Variablenrelevanz bei Baummodellen	402
	22 Fallstudie: Kreditwürdigkeit mit caret	405
	22.1 Zwei Arten der prädiktiven Modellierung	406
	22.2 Daten aufbereiten	407
	22.3 Modelle anpassen	411
	22.4 Modellgüte bestimmen	422
	22.5 Wichtigkeit der Prädiktoren bestimmen	430
	Teil VII Ungeleitetes Modellieren	438
	23 Clusteranalyse	439
	23.1 Grundlagen der Clusteranalyse	439
	23.2 Beispiel für eine einfache Clusteranalyse	445
	24 Textmining	451
	24.1 Grundlegende Analyse	452
	24.2 Sentimentanalyse	461
	25 Fallstudie: Twitter-Mining	465
	25.1 Zum Einstieg: Moderne Methoden der Sentimentanalyse	466
	25.2 Grundlagen des Twitter-Minings	467
	Teil VIII Kommunizieren	475
	26 RMarkdown	476
	26.1 Forderungen an Werkzeuge zur Berichterstellung	477
	26.2 Start mit RMarkdown	479
	26.3 RMarkdown in Action	481
	26.4 Aufbau einer Markdown-Datei	483
	26.5 Syntax-Grundlagen von Markdown	484
	26.6 Tabellen	485
	26.7 Zitieren	488
	26.8 Format-Vorlagen für RMarkdown	490
	Teil IX Rahmen 2	493
	27 Projektmanagement am Beispiel einer Fallstudie	494
	27.1 Was ist Populismus?	495
	27.2 Forschungsfrage und Operationalisierung	496
	27.3 Emotionslexikon	497
	27.4 Daten, Stichprobe und Analysekontext	498
	27.5 Prozess der Datenanalyse	498
	27.6 Zentrale Ergebnisse	500
	27.7 Projektmanagement	503
	28 Programmieren mit R	510
	28.1 Funktionen schreiben	510
	28.2 Wiederholungen	513
	28.3 Defensives Programmieren	522
	29 Programmieren mit dplyr	525
	29.1 Wie man mit dplyr nicht sprechen darf	525
	29.2 Standard-Evaluation vs. Non-Standard-Evaluation	526
	29.3 NSE als Backen	528
	29.4 Wie man Funktionen mit dplyr-Verben schreibt	532
	29.5 Beispiele für NSE-Funktionen	535
	Anhang A	539
	Literatur	545
	Sachverzeichnis	556