Handbuch Data Science und KI - Mit Machine Learning und Datenanalyse Wert aus Daten generieren

Stefan Papp, Wolfgang Weidinger, Katherine Munro, Bernhard Ortner, Annalisa Cadonna, Georg Langs, Roxane Licandro, Mario Meir-Huber, Danko Nikolic, Zoltan Toth, Barbora Vesela, Rania Wazir, Günther Za

Handbuch Data Science und KI

Mit Machine Learning und Datenanalyse Wert aus Daten generieren

2022

627 Seiten

Format: PDF, ePUB, Online Lesen

E-Book: €  49,99

E-Book kaufen

E-Book kaufen

ISBN: 9783446472457

 

Inhalt

7

Geleitwort

17

Vorwort

21

1 Einführung

25

1.1 Was sind Data Science, Machine Learning und Künstliche Intelligenz?

26

1.2 Datenstrategie

33

1.3 Von der Strategie zu den Anwendungsfällen

35

1.3.1 Datenteams

35

1.3.2 Daten und Plattformen

42

1.3.3 Modellierung und Analyse

43

1.4 Implementierung von Anwendungsfällen

43

1.4.1 Iterative Erkundung von Anwendungsfällen

44

1.4.2 End-to-End-Datenverarbeitung

47

1.4.3 Datenprodukte

47

1.5 Beispiele für reale Anwendungsfälle

48

1.5.1 Digitalisierung der Wertschöpfungskette

48

1.5.2 Marketing-Segment-Analyse

49

1.5.3 360°-Sicht auf den Kunden

49

1.5.4 Anwendungsfälle für NGOs und Nachhaltigkeit

50

1.6 Ergebnisse liefern

51

1.7 Kurz und bündig

54

2 Infrastruktur

55

2.1 Einführung

55

2.2 Hardware

57

2.2.1 Verteilte Systeme

60

2.2.2 Hardware für KI-Anwendungen

63

2.3 Linux Essentials für Datenexperten

65

2.4 Terraform

83

2.5 Cloud

87

2.5.1 Basisdienste

90

2.5.2 Cloud-native Lösungen

94

2.6 Kurz und bündig

97

3 Datenarchitektur

99

3.1 Übersicht

99

3.1.1 Maslowsche Bedürfnishierarchie für Daten

100

3.1.2 Anforderungen an die Datenarchitektur

101

3.1.3 Die Struktur einer typischen Datenarchitektur

102

3.1.4 ETL (Extrahieren, Transformieren, Laden)

102

3.1.5 ELT (Extrahieren, Laden, Transformieren)

103

3.1.6 ETLT

104

3.2 Datenerfassung und -integration

104

3.2.1 Datenquellen

105

3.2.2 Traditionelle Dateiformate

106

3.2.3 Moderne Dateiformate

108

3.2.4 Zusammenfassung

110

3.3 Data Warehouses, Data Lakes und Lakehouses

111

3.3.1 Data Warehouses

111

3.3.2 Data Lakes und das Lakehouse

115

3.3.3 Zusammenfassung: Vergleich zwischen Data Warehouses und Lakehouses

117

3.4 Datenverarbeitung und -umwandlung

118

3.4.1 Big Data und Apache Spark

118

3.4.2 Databricks

125

3.5 Workflow-Orchestrierung

127

3.6 Ein Datenarchitektur-Use-Case

129

3.7 Kurz und bündig

134

4 Data Engineering

136

4.1 Integration von Daten

137

4.1.1 Daten-Pipelines

137

4.1.2 Entwerfen von Data Pipelines

144

4.1.3 CI/CD

147

4.1.4 Programmiersprachen

148

4.1.5 Kafka als Referenz-ETL-Werkzeug

151

4.1.6 Entwurfsmuster

156

4.1.7 Automatisierung der Stufen

157

4.1.8 Sechs Bausteine der Data Pipeline

158

4.2 Verwaltung analytischer Modelle

163

4.2.1 Modelllieferung

164

4.2.2 Modell-Update

165

4.2.3 Modell- oder Parameter-Update

166

4.2.4 Modellskalierung

167

4.3 Feedback in die operationalen Prozesse

167

4.4 Kurz und bündig

168

5 Datenmanagement

169

5.1 Datenmanagement

171

5.1.1 Datenkatalog

173

5.1.2 Data Discovery

175

5.1.3 Datenqualität

178

5.1.4 Verwaltung von Stammdaten

180

5.1.5 Gemeinsame Nutzung von Daten

181

5.2 Informationssicherheit

182

5.2.1 Datenklassifizierung

183

5.2.2 Schutz der Privatsphäre

185

5.2.3 Verschlüsselung

187

5.2.4 Secrets Management

189

5.2.5 Defense in Depth

190

5.3 Kurz und bündig

191

6 Mathematik

192

6.1 Lineare Algebra

193

6.1.1 Vektoren und Matrizen

193

6.1.2 Operationen zwischen Vektoren und Matrizen

197

6.1.3 Lineare Transformationen

199

6.1.4 Eigenwerte, Eigenvektoren und Eigendekomposition

200

6.1.5 Andere Matrixzerlegungen

202

6.2 Kalkulus und Optimierung

204

6.2.1 Ableitung

204

6.2.2 Gradient und Hessian

206

6.2.3 Gradientenabstieg

208

6.2.4 Eingeschränkte Optimierung

210

6.3 Wahrscheinlichkeitsrechnung

211

6.3.1 Diskrete und kontinuierliche Zufallsvariablen

212

6.3.2 Erwartungswert, Varianz und Kovarianz

216

6.3.3 Unabhängigkeit, bedingte Verteilungen und Bayes-Theorem

217

6.4 Kurz und bündig

219

7 Statistik – Grundlagen

220

7.1 Daten

221

7.2 Einfache lineare Regression

222

7.3 Multiple lineare Regression

230

7.4 Logistische Regression

233

7.5 Wie gut ist unser Modell?

241

7.6 Kurz und bündig

242

8 Maschinelles Lernen

244

8.1 Einführung

244

8.2 Grundlegendes: Feature Spaces

246

8.3 Klassifizierungsmodelle

250

8.3.1 K-Nearest-Neighbor-Klassifikator

250

8.3.2 Support Vector Machine

251

8.3.3 Entscheidungsbaum

252

8.4 Ensemble-Methoden

254

8.4.1 Bias und Varianz

254

8.4.2 Bagging: Random Forests

256

8.4.3 Boosten: AdaBoost

259

8.5 Künstliche neuronale Netze und das Perceptron

260

8.6 Lernen ohne Label – Struktur finden

263

8.6.1 Clustering

263

8.6.2 Lernen von Mannigfaltigkeiten

264

8.6.3 Generative Modelle

265

8.7 Reinforcement Learning

266

8.8 Übergreifende Konzepte

269

8.9 In die Tiefe gehen ? Deep Learning

270

8.9.1 Convolutional Neural Networks

270

8.9.2 Training von Convolutional Neural Networks

272

8.9.3 Recurrent Neural Networks

274

8.9.4 Long Short-Term Memory

275

8.9.5 Autoencoder und U-Netze

277

8.9.6 Adversarial-Trainingsansätze

278

8.9.7 Generative Adversarial Networks

279

8.9.8 Cycle GANs und Style GANs

281

8.9.9 Andere Architekturen und Lernstrategien

282

8.10 Validierungsstrategien für maschinelle Lerntechniken

283

8.11 Schlussfolgerung

284

8.12 Kurz und bündig

285

9 Großartige künstliche Intelligenz erschaffen

286

9.1 Wie KI mit Data Science und maschinellem Lernen zusammenhängt

286

9.2 Eine kurze Geschichte der KI

290

9.3 Fünf Empfehlungen für die Entwicklung einer KI-Lösung

292

9.3.1 Empfehlung Nr. 1: Seien Sie pragmatisch

292

9.3.2 Empfehlung Nr. 2: Erleichtern Sie Maschinen das Lernen – schaffen Sie induktive Verzerrungen

295

9.3.3 Empfehlung Nr. 3: Analysen durchführen

301

9.3.4 Empfehlung Nr. 4: Hüten Sie sich vor der Skalierungsfalle

303

9.3.5 Empfehlung Nr. 5: Hüten Sie sich vor der Verallgemeinerungsfalle (so etwas wie ein kostenloses Mittagessen gibt es nicht)

313

9.4 Intelligenz auf menschlicher Ebene

318

9.5 Kurz und bündig

321

10 Natural Language Processing (NLP)

323

10.1 Was ist NLP, und warum ist es so wertvoll?

323

10.2 NLP-Datenaufbereitungstechniken

325

10.2.1 Die NLP-Pipeline

325

10.2.2 Konvertierung des Eingabeformats für maschinelles Lernen

332

10.3 NLP-Aufgaben und -Methoden

334

10.3.1 Regelbasiert (symbolisch) NLP

335

10.3.2 Ansätze des statistischen maschinellen Lernens

338

10.3.3 Neuronales NLP

347

10.3.4 Transferlernen

353

10.4 Auf dem neuesten Stand: Aktuelle Forschungsschwerpunkte für NLP

366

10.5 Kurz und bündig

369

11 Computer Vision

372

11.1 Was ist Computer Vision?

372

11.2 Ein Bild sagt mehr als tausend Worte

374

11.2.1 Das menschliche Auge

374

11.2.2 Das Bildaufnahmeprinzip

376

11.2.3 Digitale Dateiformate

381

11.2.4 Bildkomprimierung

383

11.3 Ich sehe was, was du nicht siehst . . .

384

11.3.1 Computergestützte Fotografie und Bildmanipulation

387

11.4 Computer-Vision-Anwendungen und zukünftige Richtungen

390

11.4.1 Image-Retrieval-Systeme

391

11.4.2 Objekterkennung, Klassifizierung und Verfolgung

393

11.4.3 Medizinische Computer Vision

395

11.5 Menschen sehen lassen

399

11.6 Kurz und bündig

401

12 Modellierung und Simulation – Erstellen Sie Ihre eigenen Modelle

403

12.1 Einführung

404

12.2 Allgemeine Aspekte

405

12.3 Modellierung zur Beantwortung von Fragen

406

12.4 Reproduzierbarkeit und Lebenszyklus des Modells

408

12.4.1 Der Lebenszyklus einer Modellierungs- und Simulationsfrage

410

12.4.2 Parameter- und Output-Definition

411

12.4.3 Dokumentation

414

12.4.4 Verifizierung und Validierung

415

12.5 Methoden

419

12.5.1 Gewöhnliche Differentialgleichungen (ODEs)

420

12.5.2 Systemdynamik (SD)

421

12.5.3 Diskrete Ereignissimulation

424

12.5.4 Agentenbasierte Modellierung

427

12.6 Beispiele für Modellierung und Simulation

430

12.6.1 Dynamische Modellierung von Eisenbahnnetzen zur optimalen Wegfindung mit agentenbasierten Methoden und Reinforcement Learning

430

12.6.2 Strategien zur agentenbasierten Covid-Modellierung

433

12.6.3 Deep-Reinforcement-Learning-Ansatz für eine optimale Nachschubpolitik in einer VMI-Umgebung

438

12.7 Zusammenfassung und Lessons Learned

441

12.8 Kurz und bündig

442

13 Visualisierung von Daten

446

13.1 Geschichte

447

13.2 Welche Tools Sie verwenden sollten

453

13.3 Arten von Datenvisualisierungen

455

13.3.1 Streudiagramm

456

13.3.2 Liniendiagramm

456

13.3.3 Säulen- und Balkendiagramme

457

13.3.4 Histogramm

458

13.3.5 Tortendiagramm

459

13.3.6 Box Plot

460

13.3.7 Heat Map

460

13.3.8 Baumdiagramm

461

13.3.9 Andere Arten von Visualisierungen

462

13.4 Wählen Sie die richtige Datenvisualisierung

462

13.5 Tipps und Tricks

465

13.6 Präsentation der Datenvisualisierung

470

13.7 Kurz und bündig

471

14 Datengetriebene Unternehmen

473

14.1 Die drei Ebenen eines datengesteuerten Unternehmens

474

14.2 Kultur

474

14.2.1 Unternehmensstrategie für Daten

475

14.2.2 Die Analyse des aktuellen Stands

477

14.2.3 Unternehmenskultur und Organisation einer erfolgreichen Datenorganisation

479

14.2.4 Kernproblem: der Fachkräftemangel

487

14.3 Technologie

489

14.3.1 Die Auswirkungen von Open Source

489

14.3.2 Cloud

490

14.3.3 Auswahl des Anbieters

490

14.3.4 Data Lake aus der Unternehmensperspektive

491

14.3.5 Die Rolle der IT

492

14.3.6 Data Science Labs

492

14.3.7 Revolution in der Architektur: das Data Mesh

493

14.4 Business

494

14.4.1 Daten kaufen und teilen

494

14.4.2 Implementierung des analytischen Anwendungsfalls

496

14.4.3 Self-Service Analytics

496

14.5 Kurz und bündig

497

15 Rechtliche Grundlagen

498

15.1 Einführung

498

15.2 Rechtliche Datenkategorien

499

15.3 Datenschutzgrundverordnung

500

15.3.1 Grundsätze der Datenschutzgrundverordnung

501

15.3.2 Einwilligungserklärung

502

15.3.3 Risikofolgeabschätzung

504

15.3.4 Anonymisierung und Pseudo-Anonymisierung

505

15.3.5 Arten der Anonymisierung

505

15.3.6 Rechtmäßigkeit, Transparenz und Verarbeitung

508

15.3.7 Recht auf Datenlöschung und Korrektur

509

15.3.8 Privacy by Design

510

15.3.9 Privacy by Default

510

15.4 ePrivacy-Verordnung

511

15.5 Datenschutzbeauftragter

511

15.5.1 Internationaler Datenexport in Drittländern

512

15.6 Sicherheitsmaßnahmen

512

15.6.1 Datensicherheit

513

15.7 Datenschutz in Kalifornien im Vergleich zur DSGVO

513

15.7.1 Territoriale Gültigkeit

514

15.7.2 Opt-in versus Opt-out

514

15.7.3 Recht auf Datenexport

515

15.7.4 Das Recht, nicht diskriminiert zu werden

515

15.8 Kurz und bündig

516

15.9 Weiterführende Literatur

517

16 AI in verschiedenen Branchen

518

16.1 Automobilindustrie

522

16.1.1 Vision

523

16.1.2 Daten

523

16.1.3 Anwendungsfälle

524

16.1.4 Herausforderungen

525

16.2 Luftfahrt

526

16.2.1 Vision

527

16.2.2 Daten

528

16.2.3 Anwendungsfälle

528

16.2.4 Herausforderungen

529

16.3 Energie

530

16.3.1 Vision

530

16.3.2 Daten

531

16.3.3 Anwendungsfälle

531

16.3.4 Herausforderungen

532

16.4 Finanzen

533

16.4.1 Vision

533

16.4.2 Daten

533

16.4.3 Anwendungsfälle

534

16.4.4 Herausforderungen

536

16.5 Gesundheit

536

16.5.1 Vision

537

16.5.2 Daten

538

16.5.3 Anwendungsfälle

538

16.5.4 Herausforderungen

539

16.6 Regierung

539

16.6.1 Vision

539

16.6.2 Daten

540

16.6.3 Anwendungsfälle

540

16.6.4 Herausforderungen

544

16.7 Kunst

544

16.7.1 Vision

545

16.7.2 Daten

545

16.7.3 Anwendungsfälle

546

16.7.4 Herausforderungen

546

16.8 Produktion

547

16.8.1 Vision

547

16.8.2 Daten

547

16.8.3 Anwendungsfälle

548

16.8.4 Herausforderungen

549

16.9 Öl und Gas

549

16.9.1 Vision

550

16.9.2 Daten

550

16.9.3 Anwendungsfälle

551

16.9.4 Herausforderungen

552

16.10 Sicherheit am Arbeitsplatz

553

16.10.1 Vision

553

16.10.2 Daten

554

16.10.3 Anwendungsfälle

554

16.10.4 Herausforderungen

555

16.11 Einzelhandel

556

16.11.1 Vision

556

16.11.2 Daten

557

16.11.3 Anwendungsfälle

557

16.11.4 Herausforderungen

558

16.12 Anbieter von Telekommunikation

558

16.12.1 Vision

559

16.12.2 Daten

559

16.12.3 Anwendungsfälle

559

16.12.4 Herausforderungen

561

16.13 Transport

562

16.13.1 Vision

562

16.13.2 Daten

563

16.13.3 Anwendungsfälle

563

16.13.4 Herausforderungen

563

16.14 Lehre und Ausbildung

564

16.14.1 Vision

564

16.14.2 Daten

565

16.14.3 Anwendungsfälle

566

16.14.4 Herausforderungen

566

16.15 Die digitale Gesellschaft

567

16.16 Kurz und bündig

569

17 Mindset und Community

570

17.1 Data Driven Mindset

570

17.2 Data-Science-Kultur

573

17.2.1 Start-up oder Beratungsunternehmen?

573

17.2.2 Labs statt Konzernpolitik

574

17.2.3 Keiretsu statt Einzelkämpfertum

575

17.2.4 Agile Softwareentwicklung

576

17.2.5 Firmen- und Arbeitskultur

577

17.3 Antipatterns

580

17.3.1 Abwertung von Fachwissen

580

17.3.2 Die IT wird es schon richten

581

17.3.3 Widerstand gegen Veränderungen

582

17.3.4 Besserwisser-Mentalität

582

17.3.5 Schwarzmalerei

583

17.3.6 Pfennigfuchserei

584

17.3.7 Angstkultur

584

17.3.8 Kontrolle über die Ressourcen

585

17.3.9 Blindes Vertrauen in die Ressourcen

585

17.3.10 Das Schweizer Taschenmesser

586

17.3.11 Over-Engineering

587

17.4 Kurz und bündig

588

18 Vertrauenswürdige KI

589

18.1 Rechtlicher und Soft-Law-Rahmen

590

18.1.1 Normen

592

18.1.2 Verordnungen

593

18.2 KI-Stakeholder

595

18.3 Fairness in der KI

596

18.3.1 Bias

597

18.3.2 Fairness-Metriken

600

18.3.3 Unerwünschten Bias in KI-Systemen reduzieren

604

18.4 Transparenz von KI-Systemen

605

18.4.1 Dokumentieren der Daten

606

18.4.2 Dokumentieren des Modells

608

18.4.3 Explainability (Erklärbarkeit)

609

18.5 Schlussfolgerung

611

18.6 Kurz und bündig

611

19 Die Autor:innen

612

Index

617

 

© 2009-2022 ciando GmbH