Sie befinden sich im E-Book-Shop

Von Data Mining bis Big Data - Handbuch für die industrielle Praxis

Ralf Otte, Boris Wippermann, Viktor Otte

Von Data Mining bis Big Data

Handbuch für die industrielle Praxis

2020

495 Seiten

Format: PDF, Online Lesen

E-Book: € 59,99

E-Book kaufen

ISBN: 9783446457171

Vorwort: 6
Inhalt: 12
1 Einführung: 18
2 Warum Data Mining? Wozu Big Data?: 20
2.1 Definition und Einordnung der Begriffe: 23
2.1.1 Was ist Data Mining?: 23
2.1.2 Was ist Big Data?: 31
2.1.3 Data Mining im Kontext anderer Datenanalyseverfahren: 32
2.2 Spezielle Anforderungen der Industrie an die Datenanalyse: 39
2.3 Gibt es einen Handlungsbedarf für die Industrie?: 46
3 Das theoretische und mathematische Konzept der technischen Datenauswertung: 50
3.1 Einführung: 50
3.2 Datenselektion und Datenzusammenführung: 52
3.2.1 Aufbau einer Datentabelle: 52
3.2.2 Denormalisierung von Datentabellen: 53
3.2.3 Synchronisierung von Datentabellen: 54
3.3 Datenvorverarbeitung: 56
3.3.1 Festlegung der Datentypen: 56
3.3.2 Diskretisierung von metrischen Daten: 58
3.3.3 Statistiken und Tests für metrische Daten: 60
3.3.4 Das Problem ungenauer Messungen: 65
3.3.5 Behandlung von Datenlücken: 68
3.3.6 Behandlung von Ausreißern: 70
3.3.7 Behandlung von Mehrdeutigkeiten: 72
3.4 Datentransformation: 77
3.5 Datenanalyse: 81
3.5.1 Visuelle explorative Analysen: 81
3.5.2 Überblick über multivariate Verfahren zur Datenanalyse: 84
3.5.2.1 Regressionsanalysen: 84
3.5.2.2 Varianzanalyse: 90
3.5.2.3 Diskriminanzanalyse: 93
3.5.2.4 Korrelationsanalyse: 96
3.5.2.5 Faktoranalyse: 100
3.5.2.6 Clusteranalyse: 103
3.5.3 Einführung in Data-Mining-Methoden: 110
3.5.4 Data Mining zum Auffinden von Zusammenhängen: 114
3.5.4.1 Neuronale Netze: 116
3.5.4.2 Support-Vektor-Maschinen: 131
3.5.4.3 Gütemaße für Modelle und Klassifikatoren: 136
3.5.5 Data Mining zum Auffinden von Strukturen: 144
3.5.5.1 Fuzzy-Clusterverfahren: 145
3.5.5.2 Demographisches Clustern: 147
3.5.5.3 Selbstorganisierende Merkmalskarten: 148
3.5.5.4 Gütemaße für Clusterverfahren: 160
3.5.6 Data Mining zum Generieren von Regeln: 162
3.5.6.1 Bayessche Netze: 163
3.5.6.2 Entscheidungsbäume: 169
3.5.6.3 Assoziationsregeln: 179
3.5.6.4 Gütemaße für Regeln: 182
3.5.7 Data Mining zum Visualisieren hochdimensionaler Datenräume: 183
3.5.7.1 Selbstorganisierende Merkmalskarten für topologieerhaltende Projektionen: 183
3.5.7.2 Gütemaße für Projektionen: 190
3.5.8 Zusammenfassung der Data-Mining-Verfahren: 194
3.6 Interpretation der Ergebnisse: 197
3.6.1 Fehlinterpretationen: 198
3.6.2 Strittige Interpretationen: 204
3.6.3 Konsequenzen: 206
4 Hilfreiche Auswertemöglichkeiten für praktische Anwendungsfälle: 208
4.1 Text Mining – das Auswerten unstrukturierter Daten: 208
4.2 Versuchsplanungen zur Erzeugung von Prozessdaten: 214
4.3 Automatische Diskretisierungen: 219
4.4 Güte und Sicherheit von Regressionsschätzungen: 221
4.5 Auffinden der sensitiven Einflussgrößen: 225
4.6 Ausschluss von zufälligen Zusammenhängen: 229
4.7 Datenbasierte Optimierungen: 233
5 Big Data – die Datenhaltungs- und Verarbeitungskonzepte der Gegenwart: 246
5.1 Digitale Transformation und Big Data: 247
5.2 Grundprinzipien eines Paradigmenwandels: 249
5.2.1 Die drei Vs – und der Wert: 249
5.2.2 Scale-up und Scale-out: 249
5.2.3 Unabhängige Verarbeitung direkt auf den Daten: 250
5.2.4 Schema on Read versus Schema on Write: 251
5.2.5 Hardwarevirtualisierung und Containermanagement: 251
5.2.6 Datenvirtualisierung: 252
5.2.7 Entkoppelte Systeme: 253
6 Technische Big-Data-Lösungen zur industriellen und kommerziellen Datenanalyse: 254
6.1 Datenmanagement im Big-Data-Umfeld: 254
6.1.1 Hadoop machte den Anfang: 254
6.1.2 Apache Spark – die nächste Evolutionsstufe: 257
6.1.3 Abstrahierte Datenverarbeitung und -speicherung: 258
6.1.4 Komplexe Eventverarbeitung mit Kafka & Co.: 262
6.1.5 Das beste beider Welten – von Lambda und Kappa: 263
6.1.6 Big-Data-Plattformen: 264
6.1.7 NoSQL-Datenbanken: 265
6.1.8 Anwendungsfälle für NoSQL-Datenbanken: 266
6.1.9 Technologiestacks: 267
6.2 Datenzentrische Architekturen: 268
6.2.1 AI-basierte Systeme brauchen IA-basierte Plattformen: 268
6.2.2 Die logische Architektur: 269
6.2.3 Die Softwarearchitektur: 269
6.2.4 Die technische Architektur: 269
6.3 Der Supervised Data Lake (SDL): 270
6.3.1 Ein Data Lake braucht ein Konzept, damit der See nicht zum Sumpf wird: 270
6.3.2 Die unterschiedlichen Bereiche eines SDL: 272
6.3.3 Quellen und Ladearten: 272
6.3.4 Raw Zone: 273
6.3.5 Ingestion Zone: 273
6.3.6 Discovery und Sandbox: 273
6.3.7 Integration: 274
6.3.8 Serving: 275
6.3.9 Associated Processes: 275
6.3.10 Access und Application: 276
6.4 Aufbau eines Data Lakes: 276
6.4.1 Think Big – Start Small – Act Now: 276
6.4.2 Vision, Ziele und Standortbestimmung: 277
6.4.3 Konzeption des Data Lakes: 277
6.4.4 Implementierung der Basisumgebung: 278
6.4.5 Data Lake Ramp-up – Use Case Driven: 278
6.4.6 Industrialisierung – die betriebsfokussierte Datenfabrik: 279
6.5 Cloud-Computing und Services: 280
6.5.1 Die Cloud-Ausbaustufen – Everything as a Service: 281
6.5.2 Offene Ökosysteme: 282
6.5.3 Der Data Lake in der Cloud: 283
6.6 Big Data, Data Mining und Artificial Intelligence: 285
6.6.1 Analytic Data Hub: 286
6.6.2 Data-Science- und Data-Mining-Plattformen: 287
7 Die Anwendersicht – Systematik für industrielle Anwendungen: 296
7.1 Aufgabenstellung und Zielsetzung: 296
7.1.1 Datengetriebene Identifikation von Aufgabenstellungen: 296
7.1.2 „Produktgetriebene“ Identifikation: 297
7.1.3 Geschäftsorientierte Identifikation von Aufgabenstellungen: 297
7.1.3.1 Reduktion von Kosten, Verlusten, Verschwendungen: 300
7.1.3.2 Erhöhung operativer Performance: 301
7.1.3.3 Ergebnisverbesserung funktionaler Prozesse: 302
7.2 Vorgehensmethodik: 303
7.2.1 Workshop zur Ideenfindung und Datenanalyse: 306
7.2.1.1 Design-Thinking-Workshop: 306
7.2.1.2 Wertschöpfungsschritte: 307
7.2.1.3 Perspektiven: 308
7.2.1.4 Schmerzpunkte und Mehrwerte: 309
7.2.1.5 Erzeugen des Mehrwertes: 309
7.2.1.6 Geschäftsmodell: 311
7.2.1.7 Anwendungen und Lösungsansätze identifizieren: 313
7.2.2 Hackathons als alternative Möglichkeit der Lösungsfindung und Pilotierung: 314
7.2.3 Aufsetzen konkreter Aufgabenstellungen: 316
7.2.3.1 Definition der Aufgabenstellung: 316
7.2.3.2 Modellauswahl: 317
7.2.3.3 Beauftragung von Dienstleistern: 318
7.2.4 Explorations- und Umsetzungsphase eines Use Case: 319
7.2.4.1 Sichtung der Daten: 319
7.2.4.2 Bestimmung der sensitiven Eingangsgrößen: 325
7.2.4.3 Modellierung und Ergebnisbewertung: 332
7.2.4.4 Die Königsklasse: Vektorielle Optimierung eines Use Case: 333
7.2.5 Auswertung und Detailkonzept, Applikationserstellung und Implementierung: 338
8 Die Anwendersicht – typische Anwendungsfelder am konkreten Beispiel: 344
8.1 Anwendungen in den Geschäftsfunktionen: 347
8.1.1 Forschung und Entwicklung: 347
8.1.2 Engineering: 350
8.1.3 Produktmanagement: 351
8.1.4 Einkauf, Supply Chain Management, Logistik: 353
8.1.5 Fertigung und Produktion: 355
8.1.6 Qualitätsmanagement: 357
8.1.7 Service und Instandhaltung: 359
8.1.8 Service und After Market: 361
8.1.9 Marketing und Vertrieb: 364
8.2 Ausgewählte Data-Mining- und Big-Data-Beispiele: 367
8.2.1 Forschung, Entwicklung und Engineering: 368
8.2.1.1 Beschleunigung einer Produktentwicklung: 368
8.2.2 Einkauf: 375
8.2.2.1 Spend Cube: 377
8.2.2.2 Bündelung: 380
8.2.2.3 Spezifikations- und Kostenhebel: 383
8.2.3 Produktion, Fertigung und Service: 387
8.2.3.1 Störungsanalysen: 387
8.2.3.2 Instabilitätsanalysen in einem Klärwerk: 389
8.2.3.3 Fehlerdetektion in einem Kraftwerk: 398
8.2.3.4 Analyse der Dynamik von chemischen Batchprozessen: 407
8.2.4 Instandhaltung und Service: 411
8.2.4.1 Aufbau einer Datenbasis für erweiterte Analysen und Monitoring von Industrieanlagen: 411
8.2.4.2 Erweiterung eines digitalen Zwillings um Maschinendaten und Strompreisdaten im Bereich Windenergie: 413
8.2.5 Marketing und Vertrieb: 415
8.2.5.1 Cross-Selling-Effekte mit Data Mining finden: 415
8.2.5.2 Cross-Selling-Analysen mit Big-Data-Technologien beschleunigen: 422
8.2.5.3 Optimale Preisschwellen mit Data Mining aufspüren: 424
8.2.6 Data Mining für die strategische Unternehmensführung: 429
9 Small Data gehört die Zukunft: 438
9.1 Einführung in die Thematik: 438
9.2 Charakteristik von Small Data: 440
9.3 Machine Learning versus menschlicher Geist – die Mind-Data-Hypothese: 445
9.4 Bewusstsein als übergeordnete Ordnungsstruktur neuronaler Systeme: 448
9.5 Mind-Data-Auswertungen mit maschinellem Bewusstsein: 459
10 Ausblick und mögliche Weiterentwicklungen von Data Mining und Big Data: 468
11 Liste der häufig verwendeten Formelzeichen und Symbole: 474
12 Literaturverzeichnis: 478
13 Autoren: 488
Index: 490

Services

Verlagsbereiche

Fachbuch Fachzeitschriften Tagungen und Seminare Literatur Kinderbuch

Fachportale

FORM + Werkzeug HANSER automotive Kunststoffe Kunststoffe.tv Kunststoffe international QZ Qualität und Zuverlässigkeit WB Werkstatt + Betrieb

Ralf Otte, Boris Wippermann, Viktor Otte

Von Data Mining bis Big Data

Handbuch für die industrielle Praxis

Vorwort

Inhalt

1 Einführung

2 Warum Data Mining? Wozu Big Data?

2.1 Definition und Einordnung der Begriffe

2.1.1 Was ist Data Mining?

2.1.2 Was ist Big Data?

2.1.3 Data Mining im Kontext anderer Datenanalyseverfahren

2.2 Spezielle Anforderungen der Industrie an die Datenanalyse

2.3 Gibt es einen Handlungsbedarf für die Industrie?

3 Das theoretische und mathematische Konzept der technischen Datenauswertung

3.1 Einführung

3.2 Datenselektion und Datenzusammenführung

3.2.1 Aufbau einer Datentabelle

3.2.2 Denormalisierung von Datentabellen

3.2.3 Synchronisierung von Datentabellen

3.3 Datenvorverarbeitung

3.3.1 Festlegung der Datentypen

3.3.2 Diskretisierung von metrischen Daten

3.3.3 Statistiken und Tests für metrische Daten

3.3.4 Das Problem ungenauer Messungen

3.3.5 Behandlung von Datenlücken

3.3.6 Behandlung von Ausreißern

3.3.7 Behandlung von Mehrdeutigkeiten

3.4 Datentransformation

3.5 Datenanalyse

3.5.1 Visuelle explorative Analysen

3.5.2 Überblick über multivariate Verfahren zur Datenanalyse

3.5.2.1 Regressionsanalysen

3.5.2.2 Varianzanalyse

3.5.2.3 Diskriminanzanalyse

3.5.2.4 Korrelationsanalyse

3.5.2.5 Faktoranalyse

3.5.2.6 Clusteranalyse

3.5.3 Einführung in Data-Mining-Methoden

3.5.4 Data Mining zum Auffinden von Zusammenhängen

3.5.4.1 Neuronale Netze

3.5.4.2 Support-Vektor-Maschinen

3.5.4.3 Gütemaße für Modelle und Klassifikatoren

3.5.5 Data Mining zum Auffinden von Strukturen

3.5.5.1 Fuzzy-Clusterverfahren

3.5.5.2 Demographisches Clustern

3.5.5.3 Selbstorganisierende Merkmalskarten

3.5.5.4 Gütemaße für Clusterverfahren

3.5.6 Data Mining zum Generieren von Regeln

3.5.6.1 Bayessche Netze

3.5.6.2 Entscheidungsbäume

3.5.6.3 Assoziationsregeln

3.5.6.4 Gütemaße für Regeln

3.5.7 Data Mining zum Visualisieren hochdimensionaler Datenräume

3.5.7.1 Selbstorganisierende Merkmalskarten für topologieerhaltende Projektionen

3.5.7.2 Gütemaße für Projektionen

3.5.8 Zusammenfassung der Data-Mining-Verfahren

3.6 Interpretation der Ergebnisse

3.6.1 Fehlinterpretationen

3.6.2 Strittige Interpretationen

3.6.3 Konsequenzen

4 Hilfreiche Auswertemöglichkeiten für praktische Anwendungsfälle

4.1 Text Mining – das Auswerten unstrukturierter Daten

4.2 Versuchsplanungen zur Erzeugung von Prozessdaten

4.3 Automatische Diskretisierungen

4.4 Güte und Sicherheit von Regressionsschätzungen

4.5 Auffinden der sensitiven Einflussgrößen

4.6 Ausschluss von zufälligen Zusammenhängen

4.7 Datenbasierte Optimierungen

5 Big Data – die Datenhaltungs- und Verarbeitungskonzepte der Gegenwart

5.1 Digitale Transformation und Big Data

5.2 Grundprinzipien eines Paradigmenwandels

5.2.1 Die drei Vs – und der Wert

5.2.2 Scale-up und Scale-out

5.2.3 Unabhängige Verarbeitung direkt auf den Daten

5.2.4 Schema on Read versus Schema on Write

5.2.5 Hardwarevirtualisierung und Containermanagement

5.2.6 Datenvirtualisierung

5.2.7 Entkoppelte Systeme

6 Technische Big-Data-Lösungen zur industriellen und kommerziellen Datenanalyse

6.1 Datenmanagement im Big-Data-Umfeld