Sie befinden sich im E-Book-Shop

Handbuch Data Science und KI - Mit Machine Learning und Datenanalyse Wert aus Daten generieren

Stefan Papp, Wolfgang Weidinger, Katherine Munro, Bernhard Ortner, Annalisa Cadonna, Georg Langs, Roxane Licandro, Mario Meir-Huber, Danko Nikolic, Zoltan Toth, Barbora Vesela, Rania Wazir, Günther Za

Handbuch Data Science und KI

Mit Machine Learning und Datenanalyse Wert aus Daten generieren

2022

627 Seiten

Format: PDF, ePUB, Online Lesen

E-Book: € 49,99

E-Book kaufen

ISBN: 9783446472457

Inhalt: 7
Geleitwort: 17
Vorwort: 21
1 Einführung: 25
1.1 Was sind Data Science, Machine Learning und Künstliche Intelligenz?: 26
1.2 Datenstrategie: 33
1.3 Von der Strategie zu den Anwendungsfällen: 35
1.3.1 Datenteams: 35
1.3.2 Daten und Plattformen: 42
1.3.3 Modellierung und Analyse: 43
1.4 Implementierung von Anwendungsfällen: 43
1.4.1 Iterative Erkundung von Anwendungsfällen: 44
1.4.2 End-to-End-Datenverarbeitung: 47
1.4.3 Datenprodukte: 47
1.5 Beispiele für reale Anwendungsfälle: 48
1.5.1 Digitalisierung der Wertschöpfungskette: 48
1.5.2 Marketing-Segment-Analyse: 49
1.5.3 360°-Sicht auf den Kunden: 49
1.5.4 Anwendungsfälle für NGOs und Nachhaltigkeit: 50
1.6 Ergebnisse liefern: 51
1.7 Kurz und bündig: 54
2 Infrastruktur: 55
2.1 Einführung: 55
2.2 Hardware: 57
2.2.1 Verteilte Systeme: 60
2.2.2 Hardware für KI-Anwendungen: 63
2.3 Linux Essentials für Datenexperten: 65
2.4 Terraform: 83
2.5 Cloud: 87
2.5.1 Basisdienste: 90
2.5.2 Cloud-native Lösungen: 94
2.6 Kurz und bündig: 97
3 Datenarchitektur: 99
3.1 Übersicht: 99
3.1.1 Maslowsche Bedürfnishierarchie für Daten: 100
3.1.2 Anforderungen an die Datenarchitektur: 101
3.1.3 Die Struktur einer typischen Datenarchitektur: 102
3.1.4 ETL (Extrahieren, Transformieren, Laden): 102
3.1.5 ELT (Extrahieren, Laden, Transformieren): 103
3.1.6 ETLT: 104
3.2 Datenerfassung und -integration: 104
3.2.1 Datenquellen: 105
3.2.2 Traditionelle Dateiformate: 106
3.2.3 Moderne Dateiformate: 108
3.2.4 Zusammenfassung: 110
3.3 Data Warehouses, Data Lakes und Lakehouses: 111
3.3.1 Data Warehouses: 111
3.3.2 Data Lakes und das Lakehouse: 115
3.3.3 Zusammenfassung: Vergleich zwischen Data Warehouses und Lakehouses: 117
3.4 Datenverarbeitung und -umwandlung: 118
3.4.1 Big Data und Apache Spark: 118
3.4.2 Databricks: 125
3.5 Workflow-Orchestrierung: 127
3.6 Ein Datenarchitektur-Use-Case: 129
3.7 Kurz und bündig: 134
4 Data Engineering: 136
4.1 Integration von Daten: 137
4.1.1 Daten-Pipelines: 137
4.1.2 Entwerfen von Data Pipelines: 144
4.1.3 CI/CD: 147
4.1.4 Programmiersprachen: 148
4.1.5 Kafka als Referenz-ETL-Werkzeug: 151
4.1.6 Entwurfsmuster: 156
4.1.7 Automatisierung der Stufen: 157
4.1.8 Sechs Bausteine der Data Pipeline: 158
4.2 Verwaltung analytischer Modelle: 163
4.2.1 Modelllieferung: 164
4.2.2 Modell-Update: 165
4.2.3 Modell- oder Parameter-Update: 166
4.2.4 Modellskalierung: 167
4.3 Feedback in die operationalen Prozesse: 167
4.4 Kurz und bündig: 168
5 Datenmanagement: 169
5.1 Datenmanagement: 171
5.1.1 Datenkatalog: 173
5.1.2 Data Discovery: 175
5.1.3 Datenqualität: 178
5.1.4 Verwaltung von Stammdaten: 180
5.1.5 Gemeinsame Nutzung von Daten: 181
5.2 Informationssicherheit: 182
5.2.1 Datenklassifizierung: 183
5.2.2 Schutz der Privatsphäre: 185
5.2.3 Verschlüsselung: 187
5.2.4 Secrets Management: 189
5.2.5 Defense in Depth: 190
5.3 Kurz und bündig: 191
6 Mathematik: 192
6.1 Lineare Algebra: 193
6.1.1 Vektoren und Matrizen: 193
6.1.2 Operationen zwischen Vektoren und Matrizen: 197
6.1.3 Lineare Transformationen: 199
6.1.4 Eigenwerte, Eigenvektoren und Eigendekomposition: 200
6.1.5 Andere Matrixzerlegungen: 202
6.2 Kalkulus und Optimierung: 204
6.2.1 Ableitung: 204
6.2.2 Gradient und Hessian: 206
6.2.3 Gradientenabstieg: 208
6.2.4 Eingeschränkte Optimierung: 210
6.3 Wahrscheinlichkeitsrechnung: 211
6.3.1 Diskrete und kontinuierliche Zufallsvariablen: 212
6.3.2 Erwartungswert, Varianz und Kovarianz: 216
6.3.3 Unabhängigkeit, bedingte Verteilungen und Bayes-Theorem: 217
6.4 Kurz und bündig: 219
7 Statistik – Grundlagen: 220
7.1 Daten: 221
7.2 Einfache lineare Regression: 222
7.3 Multiple lineare Regression: 230
7.4 Logistische Regression: 233
7.5 Wie gut ist unser Modell?: 241
7.6 Kurz und bündig: 242
8 Maschinelles Lernen: 244
8.1 Einführung: 244
8.2 Grundlegendes: Feature Spaces: 246
8.3 Klassifizierungsmodelle: 250
8.3.1 K-Nearest-Neighbor-Klassifikator: 250
8.3.2 Support Vector Machine: 251
8.3.3 Entscheidungsbaum: 252
8.4 Ensemble-Methoden: 254
8.4.1 Bias und Varianz: 254
8.4.2 Bagging: Random Forests: 256
8.4.3 Boosten: AdaBoost: 259
8.5 Künstliche neuronale Netze und das Perceptron: 260
8.6 Lernen ohne Label – Struktur finden: 263
8.6.1 Clustering: 263
8.6.2 Lernen von Mannigfaltigkeiten: 264
8.6.3 Generative Modelle: 265
8.7 Reinforcement Learning: 266
8.8 Übergreifende Konzepte: 269
8.9 In die Tiefe gehen ? Deep Learning: 270
8.9.1 Convolutional Neural Networks: 270
8.9.2 Training von Convolutional Neural Networks: 272
8.9.3 Recurrent Neural Networks: 274
8.9.4 Long Short-Term Memory: 275
8.9.5 Autoencoder und U-Netze: 277
8.9.6 Adversarial-Trainingsansätze: 278
8.9.7 Generative Adversarial Networks: 279
8.9.8 Cycle GANs und Style GANs: 281
8.9.9 Andere Architekturen und Lernstrategien: 282
8.10 Validierungsstrategien für maschinelle Lerntechniken: 283
8.11 Schlussfolgerung: 284
8.12 Kurz und bündig: 285
9 Großartige künstliche Intelligenz erschaffen: 286
9.1 Wie KI mit Data Science und maschinellem Lernen zusammenhängt: 286
9.2 Eine kurze Geschichte der KI: 290
9.3 Fünf Empfehlungen für die Entwicklung einer KI-Lösung: 292
9.3.1 Empfehlung Nr. 1: Seien Sie pragmatisch: 292
9.3.2 Empfehlung Nr. 2: Erleichtern Sie Maschinen das Lernen – schaffen Sie induktive Verzerrungen: 295
9.3.3 Empfehlung Nr. 3: Analysen durchführen: 301
9.3.4 Empfehlung Nr. 4: Hüten Sie sich vor der Skalierungsfalle: 303
9.3.5 Empfehlung Nr. 5: Hüten Sie sich vor der Verallgemeinerungsfalle (so etwas wie ein kostenloses Mittagessen gibt es nicht): 313
9.4 Intelligenz auf menschlicher Ebene: 318
9.5 Kurz und bündig: 321
10 Natural Language Processing (NLP): 323
10.1 Was ist NLP, und warum ist es so wertvoll?: 323
10.2 NLP-Datenaufbereitungstechniken: 325
10.2.1 Die NLP-Pipeline: 325
10.2.2 Konvertierung des Eingabeformats für maschinelles Lernen: 332
10.3 NLP-Aufgaben und -Methoden: 334
10.3.1 Regelbasiert (symbolisch) NLP: 335
10.3.2 Ansätze des statistischen maschinellen Lernens: 338
10.3.3 Neuronales NLP: 347
10.3.4 Transferlernen: 353
10.4 Auf dem neuesten Stand: Aktuelle Forschungsschwerpunkte für NLP: 366
10.5 Kurz und bündig: 369
11 Computer Vision: 372
11.1 Was ist Computer Vision?: 372
11.2 Ein Bild sagt mehr als tausend Worte: 374
11.2.1 Das menschliche Auge: 374
11.2.2 Das Bildaufnahmeprinzip: 376
11.2.3 Digitale Dateiformate: 381
11.2.4 Bildkomprimierung: 383
11.3 Ich sehe was, was du nicht siehst . . .: 384
11.3.1 Computergestützte Fotografie und Bildmanipulation: 387
11.4 Computer-Vision-Anwendungen und zukünftige Richtungen: 390
11.4.1 Image-Retrieval-Systeme: 391
11.4.2 Objekterkennung, Klassifizierung und Verfolgung: 393
11.4.3 Medizinische Computer Vision: 395
11.5 Menschen sehen lassen: 399
11.6 Kurz und bündig: 401
12 Modellierung und Simulation – Erstellen Sie Ihre eigenen Modelle: 403
12.1 Einführung: 404
12.2 Allgemeine Aspekte: 405
12.3 Modellierung zur Beantwortung von Fragen: 406
12.4 Reproduzierbarkeit und Lebenszyklus des Modells: 408
12.4.1 Der Lebenszyklus einer Modellierungs- und Simulationsfrage: 410
12.4.2 Parameter- und Output-Definition: 411
12.4.3 Dokumentation: 414
12.4.4 Verifizierung und Validierung: 415
12.5 Methoden: 419
12.5.1 Gewöhnliche Differentialgleichungen (ODEs): 420
12.5.2 Systemdynamik (SD): 421
12.5.3 Diskrete Ereignissimulation: 424
12.5.4 Agentenbasierte Modellierung: 427
12.6 Beispiele für Modellierung und Simulation: 430
12.6.1 Dynamische Modellierung von Eisenbahnnetzen zur optimalen Wegfindung mit agentenbasierten Methoden und Reinforcement Learning: 430
12.6.2 Strategien zur agentenbasierten Covid-Modellierung: 433
12.6.3 Deep-Reinforcement-Learning-Ansatz für eine optimale Nachschubpolitik in einer VMI-Umgebung: 438
12.7 Zusammenfassung und Lessons Learned: 441
12.8 Kurz und bündig: 442
13 Visualisierung von Daten: 446
13.1 Geschichte: 447
13.2 Welche Tools Sie verwenden sollten: 453
13.3 Arten von Datenvisualisierungen: 455
13.3.1 Streudiagramm: 456
13.3.2 Liniendiagramm: 456
13.3.3 Säulen- und Balkendiagramme: 457
13.3.4 Histogramm: 458
13.3.5 Tortendiagramm: 459
13.3.6 Box Plot: 460
13.3.7 Heat Map: 460
13.3.8 Baumdiagramm: 461
13.3.9 Andere Arten von Visualisierungen: 462
13.4 Wählen Sie die richtige Datenvisualisierung: 462
13.5 Tipps und Tricks: 465
13.6 Präsentation der Datenvisualisierung: 470
13.7 Kurz und bündig: 471
14 Datengetriebene Unternehmen: 473
14.1 Die drei Ebenen eines datengesteuerten Unternehmens: 474
14.2 Kultur: 474
14.2.1 Unternehmensstrategie für Daten: 475
14.2.2 Die Analyse des aktuellen Stands: 477
14.2.3 Unternehmenskultur und Organisation einer erfolgreichen Datenorganisation: 479
14.2.4 Kernproblem: der Fachkräftemangel: 487
14.3 Technologie: 489
14.3.1 Die Auswirkungen von Open Source: 489
14.3.2 Cloud: 490
14.3.3 Auswahl des Anbieters: 490
14.3.4 Data Lake aus der Unternehmensperspektive: 491
14.3.5 Die Rolle der IT: 492
14.3.6 Data Science Labs: 492
14.3.7 Revolution in der Architektur: das Data Mesh: 493
14.4 Business: 494
14.4.1 Daten kaufen und teilen: 494
14.4.2 Implementierung des analytischen Anwendungsfalls: 496
14.4.3 Self-Service Analytics: 496
14.5 Kurz und bündig: 497
15 Rechtliche Grundlagen: 498
15.1 Einführung: 498
15.2 Rechtliche Datenkategorien: 499
15.3 Datenschutzgrundverordnung: 500
15.3.1 Grundsätze der Datenschutzgrundverordnung: 501
15.3.2 Einwilligungserklärung: 502
15.3.3 Risikofolgeabschätzung: 504
15.3.4 Anonymisierung und Pseudo-Anonymisierung: 505
15.3.5 Arten der Anonymisierung: 505
15.3.6 Rechtmäßigkeit, Transparenz und Verarbeitung: 508
15.3.7 Recht auf Datenlöschung und Korrektur: 509
15.3.8 Privacy by Design: 510
15.3.9 Privacy by Default: 510
15.4 ePrivacy-Verordnung: 511
15.5 Datenschutzbeauftragter: 511
15.5.1 Internationaler Datenexport in Drittländern: 512
15.6 Sicherheitsmaßnahmen: 512
15.6.1 Datensicherheit: 513
15.7 Datenschutz in Kalifornien im Vergleich zur DSGVO: 513
15.7.1 Territoriale Gültigkeit: 514
15.7.2 Opt-in versus Opt-out: 514
15.7.3 Recht auf Datenexport: 515
15.7.4 Das Recht, nicht diskriminiert zu werden: 515
15.8 Kurz und bündig: 516
15.9 Weiterführende Literatur: 517
16 AI in verschiedenen Branchen: 518
16.1 Automobilindustrie: 522
16.1.1 Vision: 523
16.1.2 Daten: 523
16.1.3 Anwendungsfälle: 524
16.1.4 Herausforderungen: 525
16.2 Luftfahrt: 526
16.2.1 Vision: 527
16.2.2 Daten: 528
16.2.3 Anwendungsfälle: 528
16.2.4 Herausforderungen: 529
16.3 Energie: 530
16.3.1 Vision: 530
16.3.2 Daten: 531
16.3.3 Anwendungsfälle: 531
16.3.4 Herausforderungen: 532
16.4 Finanzen: 533
16.4.1 Vision: 533
16.4.2 Daten: 533
16.4.3 Anwendungsfälle: 534
16.4.4 Herausforderungen: 536
16.5 Gesundheit: 536
16.5.1 Vision: 537
16.5.2 Daten: 538
16.5.3 Anwendungsfälle: 538
16.5.4 Herausforderungen: 539
16.6 Regierung: 539
16.6.1 Vision: 539
16.6.2 Daten: 540
16.6.3 Anwendungsfälle: 540
16.6.4 Herausforderungen: 544
16.7 Kunst: 544
16.7.1 Vision: 545
16.7.2 Daten: 545
16.7.3 Anwendungsfälle: 546
16.7.4 Herausforderungen: 546
16.8 Produktion: 547
16.8.1 Vision: 547
16.8.2 Daten: 547
16.8.3 Anwendungsfälle: 548
16.8.4 Herausforderungen: 549
16.9 Öl und Gas: 549
16.9.1 Vision: 550
16.9.2 Daten: 550
16.9.3 Anwendungsfälle: 551
16.9.4 Herausforderungen: 552
16.10 Sicherheit am Arbeitsplatz: 553
16.10.1 Vision: 553
16.10.2 Daten: 554
16.10.3 Anwendungsfälle: 554
16.10.4 Herausforderungen: 555
16.11 Einzelhandel: 556
16.11.1 Vision: 556
16.11.2 Daten: 557
16.11.3 Anwendungsfälle: 557
16.11.4 Herausforderungen: 558
16.12 Anbieter von Telekommunikation: 558
16.12.1 Vision: 559
16.12.2 Daten: 559
16.12.3 Anwendungsfälle: 559
16.12.4 Herausforderungen: 561
16.13 Transport: 562
16.13.1 Vision: 562
16.13.2 Daten: 563
16.13.3 Anwendungsfälle: 563
16.13.4 Herausforderungen: 563
16.14 Lehre und Ausbildung: 564
16.14.1 Vision: 564
16.14.2 Daten: 565
16.14.3 Anwendungsfälle: 566
16.14.4 Herausforderungen: 566
16.15 Die digitale Gesellschaft: 567
16.16 Kurz und bündig: 569
17 Mindset und Community: 570
17.1 Data Driven Mindset: 570
17.2 Data-Science-Kultur: 573
17.2.1 Start-up oder Beratungsunternehmen?: 573
17.2.2 Labs statt Konzernpolitik: 574
17.2.3 Keiretsu statt Einzelkämpfertum: 575
17.2.4 Agile Softwareentwicklung: 576
17.2.5 Firmen- und Arbeitskultur: 577
17.3 Antipatterns: 580
17.3.1 Abwertung von Fachwissen: 580
17.3.2 Die IT wird es schon richten: 581
17.3.3 Widerstand gegen Veränderungen: 582
17.3.4 Besserwisser-Mentalität: 582
17.3.5 Schwarzmalerei: 583
17.3.6 Pfennigfuchserei: 584
17.3.7 Angstkultur: 584
17.3.8 Kontrolle über die Ressourcen: 585
17.3.9 Blindes Vertrauen in die Ressourcen: 585
17.3.10 Das Schweizer Taschenmesser: 586
17.3.11 Over-Engineering: 587
17.4 Kurz und bündig: 588
18 Vertrauenswürdige KI: 589
18.1 Rechtlicher und Soft-Law-Rahmen: 590
18.1.1 Normen: 592
18.1.2 Verordnungen: 593
18.2 KI-Stakeholder: 595
18.3 Fairness in der KI: 596
18.3.1 Bias: 597
18.3.2 Fairness-Metriken: 600
18.3.3 Unerwünschten Bias in KI-Systemen reduzieren: 604
18.4 Transparenz von KI-Systemen: 605
18.4.1 Dokumentieren der Daten: 606
18.4.2 Dokumentieren des Modells: 608
18.4.3 Explainability (Erklärbarkeit): 609
18.5 Schlussfolgerung: 611
18.6 Kurz und bündig: 611
19 Die Autor:innen: 612
Index: 617

Services

Verlagsbereiche

Fachbuch Fachzeitschriften Tagungen und Seminare Literatur Kinderbuch

Fachportale

FORM + Werkzeug HANSER automotive Kunststoffe Kunststoffe.tv Kunststoffe international QZ Qualität und Zuverlässigkeit WB Werkstatt + Betrieb

Stefan Papp, Wolfgang Weidinger, Katherine Munro, Bernhard Ortner, Annalisa Cadonna, Georg Langs, Roxane Licandro, Mario Meir-Huber, Danko Nikolic, Zoltan Toth, Barbora Vesela, Rania Wazir, Günther Za

Handbuch Data Science und KI

Mit Machine Learning und Datenanalyse Wert aus Daten generieren

Inhalt

Geleitwort

Vorwort

1 Einführung

1.1 Was sind Data Science, Machine Learning und Künstliche Intelligenz?

1.2 Datenstrategie

1.3 Von der Strategie zu den Anwendungsfällen

1.3.1 Datenteams

1.3.2 Daten und Plattformen

1.3.3 Modellierung und Analyse

1.4 Implementierung von Anwendungsfällen

1.4.1 Iterative Erkundung von Anwendungsfällen

1.4.2 End-to-End-Datenverarbeitung

1.4.3 Datenprodukte

1.5 Beispiele für reale Anwendungsfälle

1.5.1 Digitalisierung der Wertschöpfungskette

1.5.2 Marketing-Segment-Analyse

1.5.3 360°-Sicht auf den Kunden

1.5.4 Anwendungsfälle für NGOs und Nachhaltigkeit

1.6 Ergebnisse liefern

1.7 Kurz und bündig

2 Infrastruktur

2.1 Einführung

2.2 Hardware

2.2.1 Verteilte Systeme

2.2.2 Hardware für KI-Anwendungen

2.3 Linux Essentials für Datenexperten

2.4 Terraform

2.5 Cloud

2.5.1 Basisdienste

2.5.2 Cloud-native Lösungen

2.6 Kurz und bündig

3 Datenarchitektur

3.1 Übersicht

3.1.1 Maslowsche Bedürfnishierarchie für Daten

3.1.2 Anforderungen an die Datenarchitektur

3.1.3 Die Struktur einer typischen Datenarchitektur

3.1.4 ETL (Extrahieren, Transformieren, Laden)

3.1.5 ELT (Extrahieren, Laden, Transformieren)

3.1.6 ETLT

3.2 Datenerfassung und -integration

3.2.1 Datenquellen

3.2.2 Traditionelle Dateiformate

3.2.3 Moderne Dateiformate

3.2.4 Zusammenfassung

3.3 Data Warehouses, Data Lakes und Lakehouses

3.3.1 Data Warehouses

3.3.2 Data Lakes und das Lakehouse

3.3.3 Zusammenfassung: Vergleich zwischen Data Warehouses und Lakehouses

3.4 Datenverarbeitung und -umwandlung

3.4.1 Big Data und Apache Spark

3.4.2 Databricks

3.5 Workflow-Orchestrierung

3.6 Ein Datenarchitektur-Use-Case

3.7 Kurz und bündig

4 Data Engineering

4.1 Integration von Daten

4.1.1 Daten-Pipelines

4.1.2 Entwerfen von Data Pipelines

4.1.3 CI/CD

4.1.4 Programmiersprachen

4.1.5 Kafka als Referenz-ETL-Werkzeug

4.1.6 Entwurfsmuster

4.1.7 Automatisierung der Stufen

4.1.8 Sechs Bausteine der Data Pipeline

4.2 Verwaltung analytischer Modelle

4.2.1 Modelllieferung

4.2.2 Modell-Update

4.2.3 Modell- oder Parameter-Update

4.2.4 Modellskalierung

4.3 Feedback in die operationalen Prozesse

4.4 Kurz und bündig

5 Datenmanagement

5.1 Datenmanagement

5.1.1 Datenkatalog

5.1.2 Data Discovery

5.1.3 Datenqualität