Von Data Mining bis Big Data - Handbuch für die industrielle Praxis

Ralf Otte, Boris Wippermann, Viktor Otte

Von Data Mining bis Big Data

Handbuch für die industrielle Praxis

2020

498 Seiten

Format: PDF, Online Lesen

E-Book: €  47,99

E-Book kaufen

E-Book kaufen

ISBN: 9783446457171

 

Vorwort

6

Inhalt

12

1 Einführung

18

2 Warum Data Mining? Wozu Big Data?

20

2.1 Definition und Einordnung der Begriffe

23

2.1.1 Was ist Data Mining?

23

2.1.2 Was ist Big Data?

31

2.1.3 Data Mining im Kontext anderer Datenanalyseverfahren

32

2.2 Spezielle Anforderungen der Industrie an die Datenanalyse

39

2.3 Gibt es einen Handlungsbedarf für die Industrie?

46

3 Das theoretische und mathematische Konzept der technischen Datenauswertung

50

3.1 Einführung

50

3.2 Datenselektion und Datenzusammenführung

52

3.2.1 Aufbau einer Datentabelle

52

3.2.2 Denormalisierung von Datentabellen

53

3.2.3 Synchronisierung von Datentabellen

54

3.3 Datenvorverarbeitung

56

3.3.1 Festlegung der Datentypen

56

3.3.2 Diskretisierung von metrischen Daten

58

3.3.3 Statistiken und Tests für metrische Daten

60

3.3.4 Das Problem ungenauer Messungen

65

3.3.5 Behandlung von Datenlücken

68

3.3.6 Behandlung von Ausreißern

70

3.3.7 Behandlung von Mehrdeutigkeiten

72

3.4 Datentransformation

77

3.5 Datenanalyse

81

3.5.1 Visuelle explorative Analysen

81

3.5.2 Überblick über multivariate Verfahren zur Datenanalyse

84

3.5.2.1 Regressionsanalysen

84

3.5.2.2 Varianzanalyse

90

3.5.2.3 Diskriminanzanalyse

93

3.5.2.4 Korrelationsanalyse

96

3.5.2.5 Faktoranalyse

100

3.5.2.6 Clusteranalyse

103

3.5.3 Einführung in Data-Mining-Methoden

110

3.5.4 Data Mining zum Auffinden von Zusammenhängen

114

3.5.4.1 Neuronale Netze

116

3.5.4.2 Support-Vektor-Maschinen

131

3.5.4.3 Gütemaße für Modelle und Klassifikatoren

136

3.5.5 Data Mining zum Auffinden von Strukturen

144

3.5.5.1 Fuzzy-Clusterverfahren

145

3.5.5.2 Demographisches Clustern

147

3.5.5.3 Selbstorganisierende Merkmalskarten

148

3.5.5.4 Gütemaße für Clusterverfahren

160

3.5.6 Data Mining zum Generieren von Regeln

162

3.5.6.1 Bayessche Netze

163

3.5.6.2 Entscheidungsbäume

169

3.5.6.3 Assoziationsregeln

179

3.5.6.4 Gütemaße für Regeln

182

3.5.7 Data Mining zum Visualisieren hochdimensionaler Datenräume

183

3.5.7.1 Selbstorganisierende Merkmalskarten für topologieerhaltende Projektionen

183

3.5.7.2 Gütemaße für Projektionen

190

3.5.8 Zusammenfassung der Data-Mining-Verfahren

194

3.6 Interpretation der Ergebnisse

197

3.6.1 Fehlinterpretationen

198

3.6.2 Strittige Interpretationen

204

3.6.3 Konsequenzen

206

4 Hilfreiche Auswertemöglichkeiten für praktische Anwendungsfälle

208

4.1 Text Mining – das Auswerten unstrukturierter Daten

208

4.2 Versuchsplanungen zur Erzeugung von Prozessdaten

214

4.3 Automatische Diskretisierungen

219

4.4 Güte und Sicherheit von Regressionsschätzungen

221

4.5 Auffinden der sensitiven Einflussgrößen

225

4.6 Ausschluss von zufälligen Zusammenhängen

229

4.7 Datenbasierte Optimierungen

233

5 Big Data – die Datenhaltungs- und Verarbeitungskonzepte der Gegenwart

246

5.1 Digitale Transformation und Big Data

247

5.2 Grundprinzipien eines Paradigmenwandels

249

5.2.1 Die drei Vs – und der Wert

249

5.2.2 Scale-up und Scale-out

249

5.2.3 Unabhängige Verarbeitung direkt auf den Daten

250

5.2.4 Schema on Read versus Schema on Write

251

5.2.5 Hardwarevirtualisierung und Containermanagement

251

5.2.6 Datenvirtualisierung

252

5.2.7 Entkoppelte Systeme

253

6 Technische Big-Data-Lösungen zur industriellen und kommerziellen Datenanalyse

254

6.1 Datenmanagement im Big-Data-Umfeld

254

6.1.1 Hadoop machte den Anfang

254

6.1.2 Apache Spark – die nächste Evolutionsstufe

257

6.1.3 Abstrahierte Datenverarbeitung und -speicherung

258

6.1.4 Komplexe Eventverarbeitung mit Kafka & Co.

262

6.1.5 Das beste beider Welten – von Lambda und Kappa

263

6.1.6 Big-Data-Plattformen

264

6.1.7 NoSQL-Datenbanken

265

6.1.8 Anwendungsfälle für NoSQL-Datenbanken

266

6.1.9 Technologiestacks

267

6.2 Datenzentrische Architekturen

268

6.2.1 AI-basierte Systeme brauchen IA-basierte Plattformen

268

6.2.2 Die logische Architektur

269

6.2.3 Die Softwarearchitektur

269

6.2.4 Die technische Architektur

269

6.3 Der Supervised Data Lake (SDL)

270

6.3.1 Ein Data Lake braucht ein Konzept, damit der See nicht zum Sumpf wird

270

6.3.2 Die unterschiedlichen Bereiche eines SDL

272

6.3.3 Quellen und Ladearten

272

6.3.4 Raw Zone

273

6.3.5 Ingestion Zone

273

6.3.6 Discovery und Sandbox

273

6.3.7 Integration

274

6.3.8 Serving

275

6.3.9 Associated Processes

275

6.3.10 Access und Application

276

6.4 Aufbau eines Data Lakes

276

6.4.1 Think Big – Start Small – Act Now

276

6.4.2 Vision, Ziele und Standortbestimmung

277

6.4.3 Konzeption des Data Lakes

277

6.4.4 Implementierung der Basisumgebung

278

6.4.5 Data Lake Ramp-up – Use Case Driven

278

6.4.6 Industrialisierung – die betriebsfokussierte Datenfabrik

279

6.5 Cloud-Computing und Services

280

6.5.1 Die Cloud-Ausbaustufen – Everything as a Service

281

6.5.2 Offene Ökosysteme

282

6.5.3 Der Data Lake in der Cloud

283

6.6 Big Data, Data Mining und Artificial Intelligence

285

6.6.1 Analytic Data Hub

286

6.6.2 Data-Science- und Data-Mining-Plattformen

287

7 Die Anwendersicht – Systematik für industrielle Anwendungen

296

7.1 Aufgabenstellung und Zielsetzung

296

7.1.1 Datengetriebene Identifikation von Aufgabenstellungen

296

7.1.2 „Produktgetriebene“ Identifikation

297

7.1.3 Geschäftsorientierte Identifikation von Aufgabenstellungen

297

7.1.3.1 Reduktion von Kosten, Verlusten, Verschwendungen

300

7.1.3.2 Erhöhung operativer Performance

301

7.1.3.3 Ergebnisverbesserung funktionaler Prozesse

302

7.2 Vorgehensmethodik

303

7.2.1 Workshop zur Ideenfindung und Datenanalyse

306

7.2.1.1 Design-Thinking-Workshop

306

7.2.1.2 Wertschöpfungsschritte

307

7.2.1.3 Perspektiven

308

7.2.1.4 Schmerzpunkte und Mehrwerte

309

7.2.1.5 Erzeugen des Mehrwertes

309

7.2.1.6 Geschäftsmodell

311

7.2.1.7 Anwendungen und Lösungsansätze identifizieren

313

7.2.2 Hackathons als alternative Möglichkeit der Lösungsfindung und Pilotierung

314

7.2.3 Aufsetzen konkreter Aufgabenstellungen

316

7.2.3.1 Definition der Aufgabenstellung

316

7.2.3.2 Modellauswahl

317

7.2.3.3 Beauftragung von Dienstleistern

318

7.2.4 Explorations- und Umsetzungsphase eines Use Case

319

7.2.4.1 Sichtung der Daten

319

7.2.4.2 Bestimmung der sensitiven Eingangsgrößen

325

7.2.4.3 Modellierung und Ergebnisbewertung

332

7.2.4.4 Die Königsklasse: Vektorielle Optimierung eines Use Case

333

7.2.5 Auswertung und Detailkonzept, Applikationserstellung und Implementierung

338

8 Die Anwendersicht – typische Anwendungsfelder am konkreten Beispiel

344

8.1 Anwendungen in den Geschäftsfunktionen

347

8.1.1 Forschung und Entwicklung

347

8.1.2 Engineering

350

8.1.3 Produktmanagement

351

8.1.4 Einkauf, Supply Chain Management, Logistik

353

8.1.5 Fertigung und Produktion

355

8.1.6 Qualitätsmanagement

357

8.1.7 Service und Instandhaltung

359

8.1.8 Service und After Market

361

8.1.9 Marketing und Vertrieb

364

8.2 Ausgewählte Data-Mining- und Big-Data-Beispiele

367

8.2.1 Forschung, Entwicklung und Engineering

368

8.2.1.1 Beschleunigung einer Produktentwicklung

368

8.2.2 Einkauf

375

8.2.2.1 Spend Cube

377

8.2.2.2 Bündelung

380

8.2.2.3 Spezifikations- und Kostenhebel

383

8.2.3 Produktion, Fertigung und Service

387

8.2.3.1 Störungsanalysen

387

8.2.3.2 Instabilitätsanalysen in einem Klärwerk

389

8.2.3.3 Fehlerdetektion in einem Kraftwerk

398

8.2.3.4 Analyse der Dynamik von chemischen Batchprozessen

407

8.2.4 Instandhaltung und Service

411

8.2.4.1 Aufbau einer Datenbasis für erweiterte Analysen und Monitoring von Industrieanlagen

411

8.2.4.2 Erweiterung eines digitalen Zwillings um Maschinendaten und Strompreisdaten im Bereich Windenergie

413

8.2.5 Marketing und Vertrieb

415

8.2.5.1 Cross-Selling-Effekte mit Data Mining finden

415

8.2.5.2 Cross-Selling-Analysen mit Big-Data-Technologien beschleunigen

422

8.2.5.3 Optimale Preisschwellen mit Data Mining aufspüren

424

8.2.6 Data Mining für die strategische Unternehmensführung

429

9 Small Data gehört die Zukunft

438

9.1 Einführung in die Thematik

438

9.2 Charakteristik von Small Data

440

9.3 Machine Learning versus menschlicher Geist – die Mind-Data-Hypothese

445

9.4 Bewusstsein als übergeordnete Ordnungsstruktur neuronaler Systeme

448

9.5 Mind-Data-Auswertungen mit maschinellem Bewusstsein

459

10 Ausblick und mögliche Weiterentwicklungen von Data Mining und Big Data

468

11 Liste der häufig verwendeten Formelzeichen und Symbole

474

12 Literaturverzeichnis

478

13 Autoren

488

Index

490

 

© 2009-2021 ciando GmbH