Ralf Otte, Boris Wippermann, Viktor Otte
Von Data Mining bis Big Data
Handbuch für die industrielle Praxis
Vorwort
6
Inhalt
12
1 Einführung
18
2 Warum Data Mining? Wozu Big Data?
20
2.1 Definition und Einordnung der Begriffe
23
2.1.1 Was ist Data Mining?
23
2.1.2 Was ist Big Data?
31
2.1.3 Data Mining im Kontext anderer Datenanalyseverfahren
32
2.2 Spezielle Anforderungen der Industrie an die Datenanalyse
39
2.3 Gibt es einen Handlungsbedarf für die Industrie?
46
3 Das theoretische und mathematische Konzept der technischen Datenauswertung
50
3.1 Einführung
50
3.2 Datenselektion und Datenzusammenführung
52
3.2.1 Aufbau einer Datentabelle
52
3.2.2 Denormalisierung von Datentabellen
53
3.2.3 Synchronisierung von Datentabellen
54
3.3 Datenvorverarbeitung
56
3.3.1 Festlegung der Datentypen
56
3.3.2 Diskretisierung von metrischen Daten
58
3.3.3 Statistiken und Tests für metrische Daten
60
3.3.4 Das Problem ungenauer Messungen
65
3.3.5 Behandlung von Datenlücken
68
3.3.6 Behandlung von Ausreißern
70
3.3.7 Behandlung von Mehrdeutigkeiten
72
3.4 Datentransformation
77
3.5 Datenanalyse
81
3.5.1 Visuelle explorative Analysen
81
3.5.2 Überblick über multivariate Verfahren zur Datenanalyse
84
3.5.2.1 Regressionsanalysen
84
3.5.2.2 Varianzanalyse
90
3.5.2.3 Diskriminanzanalyse
93
3.5.2.4 Korrelationsanalyse
96
3.5.2.5 Faktoranalyse
100
3.5.2.6 Clusteranalyse
103
3.5.3 Einführung in Data-Mining-Methoden
110
3.5.4 Data Mining zum Auffinden von Zusammenhängen
114
3.5.4.1 Neuronale Netze
116
3.5.4.2 Support-Vektor-Maschinen
131
3.5.4.3 Gütemaße für Modelle und Klassifikatoren
136
3.5.5 Data Mining zum Auffinden von Strukturen
144
3.5.5.1 Fuzzy-Clusterverfahren
145
3.5.5.2 Demographisches Clustern
147
3.5.5.3 Selbstorganisierende Merkmalskarten
148
3.5.5.4 Gütemaße für Clusterverfahren
160
3.5.6 Data Mining zum Generieren von Regeln
162
3.5.6.1 Bayessche Netze
163
3.5.6.2 Entscheidungsbäume
169
3.5.6.3 Assoziationsregeln
179
3.5.6.4 Gütemaße für Regeln
182
3.5.7 Data Mining zum Visualisieren hochdimensionaler Datenräume
183
3.5.7.1 Selbstorganisierende Merkmalskarten für topologieerhaltende Projektionen
183
3.5.7.2 Gütemaße für Projektionen
190
3.5.8 Zusammenfassung der Data-Mining-Verfahren
194
3.6 Interpretation der Ergebnisse
197
3.6.1 Fehlinterpretationen
198
3.6.2 Strittige Interpretationen
204
3.6.3 Konsequenzen
206
4 Hilfreiche Auswertemöglichkeiten für praktische Anwendungsfälle
208
4.1 Text Mining – das Auswerten unstrukturierter Daten
208
4.2 Versuchsplanungen zur Erzeugung von Prozessdaten
214
4.3 Automatische Diskretisierungen
219
4.4 Güte und Sicherheit von Regressionsschätzungen
221
4.5 Auffinden der sensitiven Einflussgrößen
225
4.6 Ausschluss von zufälligen Zusammenhängen
229
4.7 Datenbasierte Optimierungen
233
5 Big Data – die Datenhaltungs- und Verarbeitungskonzepte der Gegenwart
246
5.1 Digitale Transformation und Big Data
247
5.2 Grundprinzipien eines Paradigmenwandels
249
5.2.1 Die drei Vs – und der Wert
249
5.2.2 Scale-up und Scale-out
249
5.2.3 Unabhängige Verarbeitung direkt auf den Daten
250
5.2.4 Schema on Read versus Schema on Write
251
5.2.5 Hardwarevirtualisierung und Containermanagement
251
5.2.6 Datenvirtualisierung
252
5.2.7 Entkoppelte Systeme
253
6 Technische Big-Data-Lösungen zur industriellen und kommerziellen Datenanalyse
254
6.1 Datenmanagement im Big-Data-Umfeld
254
6.1.1 Hadoop machte den Anfang
254
6.1.2 Apache Spark – die nächste Evolutionsstufe
257
6.1.3 Abstrahierte Datenverarbeitung und -speicherung
258
6.1.4 Komplexe Eventverarbeitung mit Kafka & Co.
262
6.1.5 Das beste beider Welten – von Lambda und Kappa
263
6.1.6 Big-Data-Plattformen
264
6.1.7 NoSQL-Datenbanken
265
6.1.8 Anwendungsfälle für NoSQL-Datenbanken
266
6.1.9 Technologiestacks
267
6.2 Datenzentrische Architekturen
268
6.2.1 AI-basierte Systeme brauchen IA-basierte Plattformen
268
6.2.2 Die logische Architektur
269
6.2.3 Die Softwarearchitektur
269
6.2.4 Die technische Architektur
269
6.3 Der Supervised Data Lake (SDL)
270
6.3.1 Ein Data Lake braucht ein Konzept, damit der See nicht zum Sumpf wird
270
6.3.2 Die unterschiedlichen Bereiche eines SDL
272
6.3.3 Quellen und Ladearten
272
6.3.4 Raw Zone
273
6.3.5 Ingestion Zone
273
6.3.6 Discovery und Sandbox
273
6.3.7 Integration
274
6.3.8 Serving
275
6.3.9 Associated Processes
275
6.3.10 Access und Application
276
6.4 Aufbau eines Data Lakes
276
6.4.1 Think Big – Start Small – Act Now
276
6.4.2 Vision, Ziele und Standortbestimmung
277
6.4.3 Konzeption des Data Lakes
277
6.4.4 Implementierung der Basisumgebung
278
6.4.5 Data Lake Ramp-up – Use Case Driven
278
6.4.6 Industrialisierung – die betriebsfokussierte Datenfabrik
279
6.5 Cloud-Computing und Services
280
6.5.1 Die Cloud-Ausbaustufen – Everything as a Service
281
6.5.2 Offene Ökosysteme
282
6.5.3 Der Data Lake in der Cloud
283
6.6 Big Data, Data Mining und Artificial Intelligence
285
6.6.1 Analytic Data Hub
286
6.6.2 Data-Science- und Data-Mining-Plattformen
287
7 Die Anwendersicht – Systematik für industrielle Anwendungen
296
7.1 Aufgabenstellung und Zielsetzung
296
7.1.1 Datengetriebene Identifikation von Aufgabenstellungen
296
7.1.2 „Produktgetriebene“ Identifikation
297
7.1.3 Geschäftsorientierte Identifikation von Aufgabenstellungen
297
7.1.3.1 Reduktion von Kosten, Verlusten, Verschwendungen
300
7.1.3.2 Erhöhung operativer Performance
301
7.1.3.3 Ergebnisverbesserung funktionaler Prozesse
302
7.2 Vorgehensmethodik
303
7.2.1 Workshop zur Ideenfindung und Datenanalyse
306
7.2.1.1 Design-Thinking-Workshop
306
7.2.1.2 Wertschöpfungsschritte
307
7.2.1.3 Perspektiven
308
7.2.1.4 Schmerzpunkte und Mehrwerte
309
7.2.1.5 Erzeugen des Mehrwertes
309
7.2.1.6 Geschäftsmodell
311
7.2.1.7 Anwendungen und Lösungsansätze identifizieren
313
7.2.2 Hackathons als alternative Möglichkeit der Lösungsfindung und Pilotierung
314
7.2.3 Aufsetzen konkreter Aufgabenstellungen
316
7.2.3.1 Definition der Aufgabenstellung
316
7.2.3.2 Modellauswahl
317
7.2.3.3 Beauftragung von Dienstleistern
318
7.2.4 Explorations- und Umsetzungsphase eines Use Case
319
7.2.4.1 Sichtung der Daten
319
7.2.4.2 Bestimmung der sensitiven Eingangsgrößen
325
7.2.4.3 Modellierung und Ergebnisbewertung
332
7.2.4.4 Die Königsklasse: Vektorielle Optimierung eines Use Case
333
7.2.5 Auswertung und Detailkonzept, Applikationserstellung und Implementierung
338
8 Die Anwendersicht – typische Anwendungsfelder am konkreten Beispiel
344
8.1 Anwendungen in den Geschäftsfunktionen
347
8.1.1 Forschung und Entwicklung
347
8.1.2 Engineering
350
8.1.3 Produktmanagement
351
8.1.4 Einkauf, Supply Chain Management, Logistik
353
8.1.5 Fertigung und Produktion
355
8.1.6 Qualitätsmanagement
357
8.1.7 Service und Instandhaltung
359
8.1.8 Service und After Market
361
8.1.9 Marketing und Vertrieb
364
8.2 Ausgewählte Data-Mining- und Big-Data-Beispiele
367
8.2.1 Forschung, Entwicklung und Engineering
368
8.2.1.1 Beschleunigung einer Produktentwicklung
368
8.2.2 Einkauf
375
8.2.2.1 Spend Cube
377
8.2.2.2 Bündelung
380
8.2.2.3 Spezifikations- und Kostenhebel
383
8.2.3 Produktion, Fertigung und Service
387
8.2.3.1 Störungsanalysen
387
8.2.3.2 Instabilitätsanalysen in einem Klärwerk
389
8.2.3.3 Fehlerdetektion in einem Kraftwerk
398
8.2.3.4 Analyse der Dynamik von chemischen Batchprozessen
407
8.2.4 Instandhaltung und Service
411
8.2.4.1 Aufbau einer Datenbasis für erweiterte Analysen und Monitoring von Industrieanlagen
411
8.2.4.2 Erweiterung eines digitalen Zwillings um Maschinendaten und Strompreisdaten im Bereich Windenergie
413
8.2.5 Marketing und Vertrieb
415
8.2.5.1 Cross-Selling-Effekte mit Data Mining finden
415
8.2.5.2 Cross-Selling-Analysen mit Big-Data-Technologien beschleunigen
422
8.2.5.3 Optimale Preisschwellen mit Data Mining aufspüren
424
8.2.6 Data Mining für die strategische Unternehmensführung
429
9 Small Data gehört die Zukunft
438
9.1 Einführung in die Thematik
438
9.2 Charakteristik von Small Data
440
9.3 Machine Learning versus menschlicher Geist – die Mind-Data-Hypothese
445
9.4 Bewusstsein als übergeordnete Ordnungsstruktur neuronaler Systeme
448
9.5 Mind-Data-Auswertungen mit maschinellem Bewusstsein
459
10 Ausblick und mögliche Weiterentwicklungen von Data Mining und Big Data
468
11 Liste der häufig verwendeten Formelzeichen und Symbole
474
12 Literaturverzeichnis
478
13 Autoren
488
Index
490
© 2009-2024 ciando GmbH