Sie befinden sich im E-Book-Shop

Dani Schnider, Claus Jordan, Peter Welker, Joachim Wehner

Data Warehouse Blueprints

Business Intelligence in der Praxis

2016

281 Seiten

Format: PDF, ePUB, Online Lesen

E-Book: € 41,99

E-Book kaufen

ISBN: 9783446451117

Inhalt: 5
Geleitwort: 14
Über dieses Buch: 16
Die Autoren: 18
1 Einleitung: 20
1.1 Ziele dieses Buches: 21
1.2 Struktur dieses Buches: 22
1.3 Hinweis zur Anwendung dieses Buches: 23
2 Architektur: 24
2.1 Data Warehouse-Architektur: 24
2.1.1 Aufbau eines Data Warehouse: 25
2.1.2 Transformationsschritte: 28
2.1.3 Architekturgrundsätze: 29
2.2 Architektur BI-Anwendungen: 32
2.2.1 Die BI-Plattform zur Integration von Datenquellen: 34
2.2.2 Die BI-Plattform zur Vereinheitlichung der Frontends: 36
2.3 Datenhaltung: 37
2.3.1 Grenzen gängiger DWH/BI-Technologien: 38
2.3.2 Datenhaltung im Hadoop-Ecosystem: 39
2.3.3 In-Memory-Datenbanken: 42
3 Datenmodellierung: 46
3.1 Vorgehensweise: 46
3.1.1 Anforderungsgetriebene Modellierung: 46
3.1.2 Quellsystemgetriebene Modellierung: 48
3.1.3 Kombination der Ansätze: 49
3.2 Relationale Modellierung: 49
3.2.1 Darstellung von relationalen Datenmodellen: 50
3.2.2 Normalisierung: 50
3.2.3 Stammdaten und Bewegungsdaten: 51
3.2.4 Historisierung: 51
3.2.5 Relationales Core: 53
3.2.6 Corporate Information Factory: 54
3.2.7 Data Vault Modeling: 54
3.3 Dimensionale Modellierung: 56
3.3.1 Implementierung von dimensionalen Modellen: 57
3.3.1.1 Relationale Implementierung: 58
3.3.1.2 Multidimensionale Implementierung: 59
3.3.2 Dimensionen: 60
3.3.2.1 Fachliche Attribute: 60
3.3.2.2 Technische Attribute: 60
3.3.2.3 Hierarchien: 61
3.3.2.4 Conformed Dimensions: 62
3.3.2.5 Slowly Changing Dimensions: 63
3.3.2.6 Zeitdimension: 66
3.3.2.7 Bridge Tables: 67
3.3.2.8 Spezielle Dimensionen: 69
3.3.3 Fakten: 70
3.3.3.1 Kennzahlen: 70
3.3.3.2 Typen von Fakten: 70
3.3.4 Modellierung spezieller Problemstellungen: 72
3.3.4.1 Fakten unterschiedlicher Granularität und Rollen: 72
3.3.4.2 Gemeinsame Hierarchiestufen in verschiedenen Dimensionen: 73
3.3.4.3 Modellierungsgrundsätze für Dimensionen und Fakten: 74
3.3.5 Darstellung von dimensionalen Modellen: 75
3.3.5.1 ADAPT-Notation: 75
3.3.5.2 Entity-Relationship-Diagramme: 77
3.3.5.3 Data-Warehouse-Bus-Matrix: 77
3.3.6 Dimensionales Core: 78
3.4 Tools zur Datenmodellierung: 79
3.4.1 Tools für relationale Datenmodellierung: 79
3.4.2 Tools für dimensionale Datenmodellierung: 80
4 Datenintegration: 82
4.1 Data Profiling: 83
4.1.1 Probleme mangelnder Datenqualität: 83
4.1.2 Einsatz von Data Profiling: 84
4.2 ETL: 85
4.2.1 Aufgaben der ETL-Prozesse: 86
4.2.1.1 Extraktion aus Quellsystemen: 86
4.2.1.2 Transformationen: 86
4.2.1.3 Laden in die Zieltabellen: 87
4.2.2 ETL-Tools: 87
4.2.2.1 Funktionalität von ETL-Tools: 89
4.2.2.2 ETL oder ELT?: 89
4.2.2.3 Positionierung von ETL-Tools: 91
4.2.3 Performance-Aspekte: 91
4.2.3.1 Mengenbasierte statt datensatzbasierte Verarbeitung: 91
4.2.3.2 ELT-Tool statt ETL-Tool: 92
4.2.3.3 Reduktion der Komplexität: 93
4.2.3.4 Frühzeitige Mengeneinschränkung: 94
4.2.3.5 Parallelisierung: 95
4.2.4 Steuerung der ETL-Prozesse: 97
4.2.4.1 Protokollierung des ETL-Ablaufs: 97
4.2.4.2 Restartfähigkeit und Wiederaufsetzpunkte: 98
4.3 Extraktion und Delta-Ermittlung: 99
4.3.1 Delta-Extraktion im Quellsystem: 100
4.3.1.1 Änderungsmarker und Journaltabellen: 100
4.3.1.2 Delta-Ermittlung und Pending Commits: 101
4.3.1.3 Change Data Capture: 102
4.3.2 Voll-Extraktion und Delta-Abgleich im Data Warehouse: 103
4.3.2.1 Zwei Versionen des Vollabzugs in der Staging Area: 104
4.3.2.2 Vorteil einer Voll-Extraktion für die Delta-Ermittlung: 106
4.3.3 Wann verwende ich was?: 106
4.4 Fehlerbehandlung: 107
4.4.1 Fehlende Attribute: 108
4.4.1.1 Filtern von fehlerhaften Datensätzen: 108
4.4.1.2 Fehlerhafte Datensätze in Fehlertabelle schreiben: 108
4.4.1.3 Singletons auf Attributebene: 109
4.4.2 Unbekannte Codewerte: 109
4.4.2.1 Filtern von fehlerhaften Datensätzen: 110
4.4.2.2 Singletons auf Datensatzebene: 110
4.4.2.3 Generierung von Embryo-Einträgen: 110
4.4.3 Fehlende Dimensionseinträge: 111
4.4.3.1 Filtern von unvollständigen Fakten: 112
4.4.3.2 Referenz auf Singleton-Einträge: 113
4.4.3.3 Generieren von Embryo-Einträgen: 114
4.4.4 Doppelte Datensätze: 115
4.4.4.1 Verwendung von DISTINCT: 116
4.4.4.2 Nur ersten Datensatz übernehmen: 116
4.5 Qualitätschecks: 116
4.5.1 Qualitätschecks vor und während des Ladens: 117
4.5.2 Qualitätschecks nach dem Laden: 118
4.5.3 Qualitätschecks mithilfe von Test-Tools: 118
4.6 Real-Time BI: 119
4.6.1 Begriffsbestimmung: 120
4.6.2 Garantierte Verfügbarkeit von Informationen zu gegebenem Zeitpunkt: 120
4.6.3 Verfügbarkeit von Informationen simultan zur Entstehung: 121
4.6.4 Verfügbarkeit von Informationen kurz nach ihrer Entstehung: 123
4.6.4.1 Events und Batchverarbeitung: 124
4.6.4.2 Real-Time-Partitionen: 125
4.6.5 Zusammenfassung: 126
5 Design der DWH-Schichten: 128
5.1 Staging Area: 129
5.1.1 Gründe für eine Staging Area: 130
5.1.2 Struktur der Stage-Tabellen: 131
5.1.3 ETL-Logik für Stage-Tabellen: 132
5.1.3.1 Einschränkungen bei der Extraktion: 133
5.1.3.2 Transformation: 133
5.1.3.3 Sonstige Informationen: 134
5.2 Cleansing Area: 134
5.2.1 Gründe für eine Cleansing Area: 134
5.2.2 Struktur der Cleanse-Tabellen: 135
5.2.3 Beziehungen in der Cleansing Area: 137
5.2.4 ETL-Logik für Cleanse-Tabellen: 139
5.2.4.1 Einschränkungen bei der Extraktion: 140
5.2.4.2 Transformation: 140
5.2.4.3 Sonstige Informationen: 141
5.3 Core-Datenmodell allgemein: 141
5.3.1 Aufgaben und Anforderungen an das Core: 142
5.3.2 Stammdaten im Core: 143
5.3.3 Bewegungsdaten im Core: 143
5.3.4 Beziehungen im Core: 143
5.3.5 Datenmodellierungsmethoden für das Core: 144
5.4 Core-Datenmodell relational mit Kopf- und Versionstabellen: 145
5.4.1 Historisierung von Stammdaten mit Kopf- und Versionstabellen: 146
5.4.2 Struktur der Stammdatentabellen: 147
5.4.2.1 Tabellenspalten und Schlüssel: 148
5.4.2.2 Beziehungen (1:n) zwischen Stammdaten: 151
5.4.2.3 Beziehungen (m:n) zwischen Stammdaten: 152
5.4.3 ETL-Logik für Stammdatentabellen: 154
5.4.3.1 Lookups (Schritt 1): 155
5.4.3.2 Outer Join (Schritt 2): 156
5.4.3.3 Neue Datensätze (Schritt 3): 160
5.4.3.4 Schließen einer Version/Fall 1 (Schritt 4): 161
5.4.3.5 Aktualisieren/Fall 2 (Schritt 5): 161
5.4.3.6 Versionieren/Fall 3 und 4 (Schritt 6): 161
5.4.3.7 Singletons: 161
5.4.4 Typen von Bewegungsdaten: 162
5.4.4.1 Transaction Tables: 163
5.4.4.2 Snapshot Tables: 163
5.4.4.3 Snapshot Tables versioniert: 164
5.4.5 Struktur der Bewegungstabellen: 165
5.4.5.1 Tabellenspalten und Schlüssel: 166
5.4.5.2 Beziehungen zu Stammdaten: 169
5.4.6 ETL-Logik für Bewegungstabellen: 172
5.4.6.1 Lookups: 173
5.4.6.2 Sonstige Informationen: 174
5.4.7 Views für externen Core-Zugriff: 174
5.4.7.1 Views für Stammdaten: 175
5.4.7.2 Views für Bewegungsdaten: 179
5.5 Core-Datenmodell relational mit Data Vault: 180
5.5.1 Stammdaten: 180
5.5.2 Beziehungen: 181
5.5.3 Bewegungsdaten: 181
5.5.4 Historisierung: 182
5.5.5 Struktur der Tabellen: 182
5.5.5.1 Hubtabellen – Tabellenspalten und Schlüssel: 182
5.5.5.2 Satellitentabellen – Tabellenspalten und Schlüssel: 183
5.5.5.3 Linktabellen – Tabellenspalten und Schlüssel: 184
5.5.6 ETL-Logik: 185
5.5.7 Views für externen Core-Zugriff auf das Data-Vault-Datenmodell: 186
5.5.7.1 Views für Stammdaten (ein Satellite pro Hub bzw. Link): 186
5.5.7.2 Views für Stammdaten (mehrere Satellites pro Hub bzw. Link): 189
5.6 Core-Datenmodell dimensional: 192
5.6.1 Star- oder Snowflake-Schema: 193
5.6.1.1 Star-Schema: 193
5.6.1.2 Snowflake-Schema: 194
5.6.2 Historisierung von Stammdaten mit SCD: 196
5.6.3 Struktur der Dimensionstabellen (Snowflake): 199
5.6.3.1 Tabellenspalten und Schlüssel: 200
5.6.3.2 Beziehungen zwischen Hierarchiestufen: 203
5.6.4 ETL-Logik für Dimensionstabellen (Snowflake): 204
5.6.4.1 Lookup: 204
5.6.4.2 Weitere Schritte: 205
5.6.5 Struktur der Faktentabellen (Snowflake): 205
5.6.6 ETL-Logik für Faktentabellen (Snowflake): 207
5.6.7 n:m-Beziehungen im dimensionalen Core: 207
5.7 Marts: 209
5.7.1 ROLAP oder MOLAP?: 210
5.7.2 Historisierung von Data Marts: 211
5.7.3 Star- oder Snowflake-Schema (ROLAP): 212
5.7.4 Struktur der Dimensionstabellen (Star): 213
5.7.4.1 Tabellenspalten und Schlüssel: 213
5.7.4.2 Beispiel für Conformed Rollup: 216
5.7.4.3 Beispiel für Dimension mit mehreren Hierarchien: 217
5.7.5 ETL-Logik für Dimensionstabellen (Star): 218
5.7.5.1 Extraktion aus dem relationalen Core: 219
5.7.5.2 Extraktion aus dem dimensionalen Core: 226
5.7.6 Struktur der Faktentabellen (Star-Schema): 228
5.7.7 ETL-Logik für Faktentabellen (Star): 229
5.7.8 Multidimensionale Data Marts: 229
5.7.8.1 Dimensionen (Cube): 230
5.7.8.2 Fakten (Cube): 231
6 Physisches Datenbankdesign: 234
6.1 Indexierung: 235
6.1.1 Staging Area: 236
6.1.2 Cleansing Area: 236
6.1.3 Core: 236
6.1.4 Data Marts: 237
6.2 Constraints: 238
6.2.1 Primary Key Constraints: 238
6.2.2 Foreign Key Constraints: 239
6.2.3 Unique Constraints: 240
6.2.4 Check Constraints: 240
6.2.5 NOT NULL Constraints: 241
6.3 Partitionierung: 241
6.3.1 Grundprinzip von Partitionierung: 242
6.3.2 Gründe für Partitionierung: 242
6.3.3 Partitionierung in Staging und Cleansing Area: 243
6.3.4 Partitionierung im Core: 244
6.3.5 Partitionierung in den Data Marts: 244
6.4 Datenkomprimierung: 245
6.4.1 Redundanz: 246
6.4.2 Wörterbuchmethode/Tokenbasierte Reduktion: 246
6.4.3 Entropiekodierung: 246
6.4.4 Deduplikation: 247
6.4.5 Komprimierung bei spaltenorientierter Datenhaltung: 247
6.5 Aggregationen: 248
6.5.1 Vorberechnete Aggregationen: 249
6.5.2 Query Rewrite: 249
6.5.3 Einsatz im Data Warehouse: 250
7 BI-Anwendungen: 252
7.1 Überblick: 252
7.2 Standardberichte: 255
7.3 Ad-hoc-Analyse: 257
7.4 BI-Portale: 258
8 Betrieb: 260
8.1 Release-Management: 260
8.1.1 Kategorisierung der Anforderungen: 261
8.1.2 Schnittstellen zu Quellsystemen: 262
8.1.3 Umgang mit historischen Daten: 264
8.1.4 Datenbankumgebungen: 265
8.2 Deployment: 267
8.2.1 Manuelles Deployment: 267
8.2.2 Filebasiertes Deployment: 268
8.2.3 Repository-basiertes Deployment: 269
8.2.4 Kombiniertes Deployment: 269
8.3 Monitoring: 271
8.3.1 Betriebsmonitoring: 271
8.3.2 System und DB-Monitoring: 271
8.3.3 ETL-Monitoring: 271
8.3.4 Performance-Monitoring: 272
8.4 Migration: 274
8.4.1 Datenbank: 275
8.4.2 ETL-Tool: 276
8.4.3 BI-Tools: 277
Literatur: 278
Index: 280

Services

Verlagsbereiche

Fachbuch Fachzeitschriften Tagungen und Seminare Literatur Kinderbuch

Fachportale

FORM + Werkzeug HANSER automotive Kunststoffe Kunststoffe.tv Kunststoffe international QZ Qualität und Zuverlässigkeit WB Werkstatt + Betrieb

Dani Schnider, Claus Jordan, Peter Welker, Joachim Wehner

Data Warehouse Blueprints

Business Intelligence in der Praxis

Inhalt

Geleitwort

Über dieses Buch

Die Autoren

1 Einleitung

1.1 Ziele dieses Buches

1.2 Struktur dieses Buches

1.3 Hinweis zur Anwendung dieses Buches

2 Architektur

2.1 Data Warehouse-Architektur

2.1.1 Aufbau eines Data Warehouse

2.1.2 Transformationsschritte

2.1.3 Architekturgrundsätze

2.2 Architektur BI-Anwendungen

2.2.1 Die BI-Plattform zur Integration von Datenquellen

2.2.2 Die BI-Plattform zur Vereinheitlichung der Frontends

2.3 Datenhaltung

2.3.1 Grenzen gängiger DWH/BI-Technologien

2.3.2 Datenhaltung im Hadoop-Ecosystem

2.3.3 In-Memory-Datenbanken

3 Datenmodellierung

3.1 Vorgehensweise

3.1.1 Anforderungsgetriebene Modellierung

3.1.2 Quellsystemgetriebene Modellierung

3.1.3 Kombination der Ansätze

3.2 Relationale Modellierung

3.2.1 Darstellung von relationalen Datenmodellen

3.2.2 Normalisierung

3.2.3 Stammdaten und Bewegungsdaten

3.2.4 Historisierung

3.2.5 Relationales Core

3.2.6 Corporate Information Factory

3.2.7 Data Vault Modeling

3.3 Dimensionale Modellierung

3.3.1 Implementierung von dimensionalen Modellen

3.3.1.1 Relationale Implementierung

3.3.1.2 Multidimensionale Implementierung

3.3.2 Dimensionen

3.3.2.1 Fachliche Attribute

3.3.2.2 Technische Attribute

3.3.2.3 Hierarchien

3.3.2.4 Conformed Dimensions

3.3.2.5 Slowly Changing Dimensions

3.3.2.6 Zeitdimension

3.3.2.7 Bridge Tables

3.3.2.8 Spezielle Dimensionen

3.3.3 Fakten

3.3.3.1 Kennzahlen

3.3.3.2 Typen von Fakten

3.3.4 Modellierung spezieller Problemstellungen

3.3.4.1 Fakten unterschiedlicher Granularität und Rollen

3.3.4.2 Gemeinsame Hierarchiestufen in verschiedenen Dimensionen

3.3.4.3 Modellierungsgrundsätze für Dimensionen und Fakten

3.3.5 Darstellung von dimensionalen Modellen

3.3.5.1 ADAPT-Notation

3.3.5.2 Entity-Relationship-Diagramme

3.3.5.3 Data-Warehouse-Bus-Matrix

3.3.6 Dimensionales Core

3.4 Tools zur Datenmodellierung

3.4.1 Tools für relationale Datenmodellierung

3.4.2 Tools für dimensionale Datenmodellierung

4 Datenintegration

4.1 Data Profiling

4.1.1 Probleme mangelnder Datenqualität

4.1.2 Einsatz von Data Profiling

4.2 ETL

4.2.1 Aufgaben der ETL-Prozesse

4.2.1.1 Extraktion aus Quellsystemen

4.2.1.2 Transformationen

4.2.1.3 Laden in die Zieltabellen

4.2.2 ETL-Tools

4.2.2.1 Funktionalität von ETL-Tools

4.2.2.2 ETL oder ELT?

4.2.2.3 Positionierung von ETL-Tools

4.2.3 Performance-Aspekte

4.2.3.1 Mengenbasierte statt datensatzbasierte Verarbeitung

4.2.3.2 ELT-Tool statt ETL-Tool