Stefan Papp, Wolfgang Weidinger, Katherine Munro, Bernhard Ortner, Annalisa Cadonna, Georg Langs, Roxane Licandro, Mario Meir-Huber, Danko Nikolic, Zoltan Toth, Barbora Vesela, Rania Wazir, Günther Za
Handbuch Data Science und KI
Mit Machine Learning und Datenanalyse Wert aus Daten generieren
Inhalt
7
Geleitwort
17
Vorwort
21
1 Einführung
25
1.1 Was sind Data Science, Machine Learning und Künstliche Intelligenz?
26
1.2 Datenstrategie
33
1.3 Von der Strategie zu den Anwendungsfällen
35
1.3.1 Datenteams
35
1.3.2 Daten und Plattformen
42
1.3.3 Modellierung und Analyse
43
1.4 Implementierung von Anwendungsfällen
43
1.4.1 Iterative Erkundung von Anwendungsfällen
44
1.4.2 End-to-End-Datenverarbeitung
47
1.4.3 Datenprodukte
47
1.5 Beispiele für reale Anwendungsfälle
48
1.5.1 Digitalisierung der Wertschöpfungskette
48
1.5.2 Marketing-Segment-Analyse
49
1.5.3 360°-Sicht auf den Kunden
49
1.5.4 Anwendungsfälle für NGOs und Nachhaltigkeit
50
1.6 Ergebnisse liefern
51
1.7 Kurz und bündig
54
2 Infrastruktur
55
2.1 Einführung
55
2.2 Hardware
57
2.2.1 Verteilte Systeme
60
2.2.2 Hardware für KI-Anwendungen
63
2.3 Linux Essentials für Datenexperten
65
2.4 Terraform
83
2.5 Cloud
87
2.5.1 Basisdienste
90
2.5.2 Cloud-native Lösungen
94
2.6 Kurz und bündig
97
3 Datenarchitektur
99
3.1 Übersicht
99
3.1.1 Maslowsche Bedürfnishierarchie für Daten
100
3.1.2 Anforderungen an die Datenarchitektur
101
3.1.3 Die Struktur einer typischen Datenarchitektur
102
3.1.4 ETL (Extrahieren, Transformieren, Laden)
102
3.1.5 ELT (Extrahieren, Laden, Transformieren)
103
3.1.6 ETLT
104
3.2 Datenerfassung und -integration
104
3.2.1 Datenquellen
105
3.2.2 Traditionelle Dateiformate
106
3.2.3 Moderne Dateiformate
108
3.2.4 Zusammenfassung
110
3.3 Data Warehouses, Data Lakes und Lakehouses
111
3.3.1 Data Warehouses
111
3.3.2 Data Lakes und das Lakehouse
115
3.3.3 Zusammenfassung: Vergleich zwischen Data Warehouses und Lakehouses
117
3.4 Datenverarbeitung und -umwandlung
118
3.4.1 Big Data und Apache Spark
118
3.4.2 Databricks
125
3.5 Workflow-Orchestrierung
127
3.6 Ein Datenarchitektur-Use-Case
129
3.7 Kurz und bündig
134
4 Data Engineering
136
4.1 Integration von Daten
137
4.1.1 Daten-Pipelines
137
4.1.2 Entwerfen von Data Pipelines
144
4.1.3 CI/CD
147
4.1.4 Programmiersprachen
148
4.1.5 Kafka als Referenz-ETL-Werkzeug
151
4.1.6 Entwurfsmuster
156
4.1.7 Automatisierung der Stufen
157
4.1.8 Sechs Bausteine der Data Pipeline
158
4.2 Verwaltung analytischer Modelle
163
4.2.1 Modelllieferung
164
4.2.2 Modell-Update
165
4.2.3 Modell- oder Parameter-Update
166
4.2.4 Modellskalierung
167
4.3 Feedback in die operationalen Prozesse
167
4.4 Kurz und bündig
168
5 Datenmanagement
169
5.1 Datenmanagement
171
5.1.1 Datenkatalog
173
5.1.2 Data Discovery
175
5.1.3 Datenqualität
178
5.1.4 Verwaltung von Stammdaten
180
5.1.5 Gemeinsame Nutzung von Daten
181
5.2 Informationssicherheit
182
5.2.1 Datenklassifizierung
183
5.2.2 Schutz der Privatsphäre
185
5.2.3 Verschlüsselung
187
5.2.4 Secrets Management
189
5.2.5 Defense in Depth
190
5.3 Kurz und bündig
191
6 Mathematik
192
6.1 Lineare Algebra
193
6.1.1 Vektoren und Matrizen
193
6.1.2 Operationen zwischen Vektoren und Matrizen
197
6.1.3 Lineare Transformationen
199
6.1.4 Eigenwerte, Eigenvektoren und Eigendekomposition
200
6.1.5 Andere Matrixzerlegungen
202
6.2 Kalkulus und Optimierung
204
6.2.1 Ableitung
204
6.2.2 Gradient und Hessian
206
6.2.3 Gradientenabstieg
208
6.2.4 Eingeschränkte Optimierung
210
6.3 Wahrscheinlichkeitsrechnung
211
6.3.1 Diskrete und kontinuierliche Zufallsvariablen
212
6.3.2 Erwartungswert, Varianz und Kovarianz
216
6.3.3 Unabhängigkeit, bedingte Verteilungen und Bayes-Theorem
217
6.4 Kurz und bündig
219
7 Statistik – Grundlagen
220
7.1 Daten
221
7.2 Einfache lineare Regression
222
7.3 Multiple lineare Regression
230
7.4 Logistische Regression
233
7.5 Wie gut ist unser Modell?
241
7.6 Kurz und bündig
242
8 Maschinelles Lernen
244
8.1 Einführung
244
8.2 Grundlegendes: Feature Spaces
246
8.3 Klassifizierungsmodelle
250
8.3.1 K-Nearest-Neighbor-Klassifikator
250
8.3.2 Support Vector Machine
251
8.3.3 Entscheidungsbaum
252
8.4 Ensemble-Methoden
254
8.4.1 Bias und Varianz
254
8.4.2 Bagging: Random Forests
256
8.4.3 Boosten: AdaBoost
259
8.5 Künstliche neuronale Netze und das Perceptron
260
8.6 Lernen ohne Label – Struktur finden
263
8.6.1 Clustering
263
8.6.2 Lernen von Mannigfaltigkeiten
264
8.6.3 Generative Modelle
265
8.7 Reinforcement Learning
266
8.8 Übergreifende Konzepte
269
8.9 In die Tiefe gehen ? Deep Learning
270
8.9.1 Convolutional Neural Networks
270
8.9.2 Training von Convolutional Neural Networks
272
8.9.3 Recurrent Neural Networks
274
8.9.4 Long Short-Term Memory
275
8.9.5 Autoencoder und U-Netze
277
8.9.6 Adversarial-Trainingsansätze
278
8.9.7 Generative Adversarial Networks
279
8.9.8 Cycle GANs und Style GANs
281
8.9.9 Andere Architekturen und Lernstrategien
282
8.10 Validierungsstrategien für maschinelle Lerntechniken
283
8.11 Schlussfolgerung
284
8.12 Kurz und bündig
285
9 Großartige künstliche Intelligenz erschaffen
286
9.1 Wie KI mit Data Science und maschinellem Lernen zusammenhängt
286
9.2 Eine kurze Geschichte der KI
290
9.3 Fünf Empfehlungen für die Entwicklung einer KI-Lösung
292
9.3.1 Empfehlung Nr. 1: Seien Sie pragmatisch
292
9.3.2 Empfehlung Nr. 2: Erleichtern Sie Maschinen das Lernen – schaffen Sie induktive Verzerrungen
295
9.3.3 Empfehlung Nr. 3: Analysen durchführen
301
9.3.4 Empfehlung Nr. 4: Hüten Sie sich vor der Skalierungsfalle
303
9.3.5 Empfehlung Nr. 5: Hüten Sie sich vor der Verallgemeinerungsfalle (so etwas wie ein kostenloses Mittagessen gibt es nicht)
313
9.4 Intelligenz auf menschlicher Ebene
318
9.5 Kurz und bündig
321
10 Natural Language Processing (NLP)
323
10.1 Was ist NLP, und warum ist es so wertvoll?
323
10.2 NLP-Datenaufbereitungstechniken
325
10.2.1 Die NLP-Pipeline
325
10.2.2 Konvertierung des Eingabeformats für maschinelles Lernen
332
10.3 NLP-Aufgaben und -Methoden
334
10.3.1 Regelbasiert (symbolisch) NLP
335
10.3.2 Ansätze des statistischen maschinellen Lernens
338
10.3.3 Neuronales NLP
347
10.3.4 Transferlernen
353
10.4 Auf dem neuesten Stand: Aktuelle Forschungsschwerpunkte für NLP
366
10.5 Kurz und bündig
369
11 Computer Vision
372
11.1 Was ist Computer Vision?
372
11.2 Ein Bild sagt mehr als tausend Worte
374
11.2.1 Das menschliche Auge
374
11.2.2 Das Bildaufnahmeprinzip
376
11.2.3 Digitale Dateiformate
381
11.2.4 Bildkomprimierung
383
11.3 Ich sehe was, was du nicht siehst . . .
384
11.3.1 Computergestützte Fotografie und Bildmanipulation
387
11.4 Computer-Vision-Anwendungen und zukünftige Richtungen
390
11.4.1 Image-Retrieval-Systeme
391
11.4.2 Objekterkennung, Klassifizierung und Verfolgung
393
11.4.3 Medizinische Computer Vision
395
11.5 Menschen sehen lassen
399
11.6 Kurz und bündig
401
12 Modellierung und Simulation – Erstellen Sie Ihre eigenen Modelle
403
12.1 Einführung
404
12.2 Allgemeine Aspekte
405
12.3 Modellierung zur Beantwortung von Fragen
406
12.4 Reproduzierbarkeit und Lebenszyklus des Modells
408
12.4.1 Der Lebenszyklus einer Modellierungs- und Simulationsfrage
410
12.4.2 Parameter- und Output-Definition
411
12.4.3 Dokumentation
414
12.4.4 Verifizierung und Validierung
415
12.5 Methoden
419
12.5.1 Gewöhnliche Differentialgleichungen (ODEs)
420
12.5.2 Systemdynamik (SD)
421
12.5.3 Diskrete Ereignissimulation
424
12.5.4 Agentenbasierte Modellierung
427
12.6 Beispiele für Modellierung und Simulation
430
12.6.1 Dynamische Modellierung von Eisenbahnnetzen zur optimalen Wegfindung mit agentenbasierten Methoden und Reinforcement Learning
430
12.6.2 Strategien zur agentenbasierten Covid-Modellierung
433
12.6.3 Deep-Reinforcement-Learning-Ansatz für eine optimale Nachschubpolitik in einer VMI-Umgebung
438
12.7 Zusammenfassung und Lessons Learned
441
12.8 Kurz und bündig
442
13 Visualisierung von Daten
446
13.1 Geschichte
447
13.2 Welche Tools Sie verwenden sollten
453
13.3 Arten von Datenvisualisierungen
455
13.3.1 Streudiagramm
456
13.3.2 Liniendiagramm
456
13.3.3 Säulen- und Balkendiagramme
457
13.3.4 Histogramm
458
13.3.5 Tortendiagramm
459
13.3.6 Box Plot
460
13.3.7 Heat Map
460
13.3.8 Baumdiagramm
461
13.3.9 Andere Arten von Visualisierungen
462
13.4 Wählen Sie die richtige Datenvisualisierung
462
13.5 Tipps und Tricks
465
13.6 Präsentation der Datenvisualisierung
470
13.7 Kurz und bündig
471
14 Datengetriebene Unternehmen
473
14.1 Die drei Ebenen eines datengesteuerten Unternehmens
474
14.2 Kultur
474
14.2.1 Unternehmensstrategie für Daten
475
14.2.2 Die Analyse des aktuellen Stands
477
14.2.3 Unternehmenskultur und Organisation einer erfolgreichen Datenorganisation
479
14.2.4 Kernproblem: der Fachkräftemangel
487
14.3 Technologie
489
14.3.1 Die Auswirkungen von Open Source
489
14.3.2 Cloud
490
14.3.3 Auswahl des Anbieters
490
14.3.4 Data Lake aus der Unternehmensperspektive
491
14.3.5 Die Rolle der IT
492
14.3.6 Data Science Labs
492
14.3.7 Revolution in der Architektur: das Data Mesh
493
14.4 Business
494
14.4.1 Daten kaufen und teilen
494
14.4.2 Implementierung des analytischen Anwendungsfalls
496
14.4.3 Self-Service Analytics
496
14.5 Kurz und bündig
497
15 Rechtliche Grundlagen
498
15.1 Einführung
498
15.2 Rechtliche Datenkategorien
499
15.3 Datenschutzgrundverordnung
500
15.3.1 Grundsätze der Datenschutzgrundverordnung
501
15.3.2 Einwilligungserklärung
502
15.3.3 Risikofolgeabschätzung
504
15.3.4 Anonymisierung und Pseudo-Anonymisierung
505
15.3.5 Arten der Anonymisierung
505
15.3.6 Rechtmäßigkeit, Transparenz und Verarbeitung
508
15.3.7 Recht auf Datenlöschung und Korrektur
509
15.3.8 Privacy by Design
510
15.3.9 Privacy by Default
510
15.4 ePrivacy-Verordnung
511
15.5 Datenschutzbeauftragter
511
15.5.1 Internationaler Datenexport in Drittländern
512
15.6 Sicherheitsmaßnahmen
512
15.6.1 Datensicherheit
513
15.7 Datenschutz in Kalifornien im Vergleich zur DSGVO
513
15.7.1 Territoriale Gültigkeit
514
15.7.2 Opt-in versus Opt-out
514
15.7.3 Recht auf Datenexport
515
15.7.4 Das Recht, nicht diskriminiert zu werden
515
15.8 Kurz und bündig
516
15.9 Weiterführende Literatur
517
16 AI in verschiedenen Branchen
518
16.1 Automobilindustrie
522
16.1.1 Vision
523
16.1.2 Daten
523
16.1.3 Anwendungsfälle
524
16.1.4 Herausforderungen
525
16.2 Luftfahrt
526
16.2.1 Vision
527
16.2.2 Daten
528
16.2.3 Anwendungsfälle
528
16.2.4 Herausforderungen
529
16.3 Energie
530
16.3.1 Vision
530
16.3.2 Daten
531
16.3.3 Anwendungsfälle
531
16.3.4 Herausforderungen
532
16.4 Finanzen
533
16.4.1 Vision
533
16.4.2 Daten
533
16.4.3 Anwendungsfälle
534
16.4.4 Herausforderungen
536
16.5 Gesundheit
536
16.5.1 Vision
537
16.5.2 Daten
538
16.5.3 Anwendungsfälle
538
16.5.4 Herausforderungen
539
16.6 Regierung
539
16.6.1 Vision
539
16.6.2 Daten
540
16.6.3 Anwendungsfälle
540
16.6.4 Herausforderungen
544
16.7 Kunst
544
16.7.1 Vision
545
16.7.2 Daten
545
16.7.3 Anwendungsfälle
546
16.7.4 Herausforderungen
546
16.8 Produktion
547
16.8.1 Vision
547
16.8.2 Daten
547
16.8.3 Anwendungsfälle
548
16.8.4 Herausforderungen
549
16.9 Öl und Gas
549
16.9.1 Vision
550
16.9.2 Daten
550
16.9.3 Anwendungsfälle
551
16.9.4 Herausforderungen
552
16.10 Sicherheit am Arbeitsplatz
553
16.10.1 Vision
553
16.10.2 Daten
554
16.10.3 Anwendungsfälle
554
16.10.4 Herausforderungen
555
16.11 Einzelhandel
556
16.11.1 Vision
556
16.11.2 Daten
557
16.11.3 Anwendungsfälle
557
16.11.4 Herausforderungen
558
16.12 Anbieter von Telekommunikation
558
16.12.1 Vision
559
16.12.2 Daten
559
16.12.3 Anwendungsfälle
559
16.12.4 Herausforderungen
561
16.13 Transport
562
16.13.1 Vision
562
16.13.2 Daten
563
16.13.3 Anwendungsfälle
563
16.13.4 Herausforderungen
563
16.14 Lehre und Ausbildung
564
16.14.1 Vision
564
16.14.2 Daten
565
16.14.3 Anwendungsfälle
566
16.14.4 Herausforderungen
566
16.15 Die digitale Gesellschaft
567
16.16 Kurz und bündig
569
17 Mindset und Community
570
17.1 Data Driven Mindset
570
17.2 Data-Science-Kultur
573
17.2.1 Start-up oder Beratungsunternehmen?
573
17.2.2 Labs statt Konzernpolitik
574
17.2.3 Keiretsu statt Einzelkämpfertum
575
17.2.4 Agile Softwareentwicklung
576
17.2.5 Firmen- und Arbeitskultur
577
17.3 Antipatterns
580
17.3.1 Abwertung von Fachwissen
580
17.3.2 Die IT wird es schon richten
581
17.3.3 Widerstand gegen Veränderungen
582
17.3.4 Besserwisser-Mentalität
582
17.3.5 Schwarzmalerei
583
17.3.6 Pfennigfuchserei
584
17.3.7 Angstkultur
584
17.3.8 Kontrolle über die Ressourcen
585
17.3.9 Blindes Vertrauen in die Ressourcen
585
17.3.10 Das Schweizer Taschenmesser
586
17.3.11 Over-Engineering
587
17.4 Kurz und bündig
588
18 Vertrauenswürdige KI
589
18.1 Rechtlicher und Soft-Law-Rahmen
590
18.1.1 Normen
592
18.1.2 Verordnungen
593
18.2 KI-Stakeholder
595
18.3 Fairness in der KI
596
18.3.1 Bias
597
18.3.2 Fairness-Metriken
600
18.3.3 Unerwünschten Bias in KI-Systemen reduzieren
604
18.4 Transparenz von KI-Systemen
605
18.4.1 Dokumentieren der Daten
606
18.4.2 Dokumentieren des Modells
608
18.4.3 Explainability (Erklärbarkeit)
609
18.5 Schlussfolgerung
611
18.6 Kurz und bündig
611
19 Die Autor:innen
612
Index
617
© 2009-2023 ciando GmbH