Pavlo Baron
Big Data für IT-Entscheider
Riesige Datenmengen und moderne Technologien gewinnbringend nutzen
Inhalt
6
Vorwort
12
1 Management Summary
14
2 Was?
20
2.1 Mein klassisches Business ist konkurrenzlos, nicht wahr?
21
2.1.1 Der heimliche Markteroberer: Amazon
21
2.1.2 Der klare Fall: Google
24
2.1.3 Der zunehmende Lebensinhalt: Facebook
26
2.1.4 Nachrichtenquelle Nr. 1: Twitter
28
2.2 Die wilden Kleinen
29
2.2.1 Das unscheinbare Orakel: Prismatic
30
2.2.2 Der stille Mitlauscher: Boundary
31
2.3 Big Data ist das neue Öl, nicht wahr?
31
2.4 Technologie steht im Vordergrund, nicht wahr?
33
2.5 Die Essenz von Daten ist angewendete Information
34
2.6 Die „Big Data“-Schmerzen und -Symptome
35
2.6.1 Die 3 V's – ganz einfach, oder?
36
Velocity
36
Volume
37
Variety
37
2.6.2 Das lokale Denken: Business-Verbesserung
38
Bessere Angebote durch mehr Wissen
39
Menschen zusammenbringen
40
2.6.3 Das kostenbewusste Denken: Kostenreduktion
41
Geld mit günstiger Maschinerie und geeigneten Technologien sparen
41
Kosten durch Analyse drücken
42
2.6.4 Die Wachsamkeit: Die Gefahren aus dem bösen Internet
43
Enterprise-Level Stalking
43
Fraud Detection
44
2.6.5 Das globale Denken: Weltverbesserung
45
Öffentlichen Verkehr endlich funktionsfähig machen
45
Precogs implementieren
46
3 Wie?
48
3.1 Typische falsche Hoffnungen
49
3.1.1 Große Daten sind wie alle anderen Daten, nicht wahr?
50
3.1.2 Tools machen es für mich, nicht wahr?
51
3.1.3 Meine Prozesse müssen sich nicht ändern, nicht wahr?
52
3.2 Angewandte Wissenschaft ist der entscheidende Marktvorteil
53
3.2.1 Mathe pauken
53
3.3 Ihr Staff – die einzig sinnvolle Investition
55
3.3.1 Ich kann Big Data mit normalen Entwicklern, nicht wahr?
56
3.3.2 Also, alle Entwickler zurück in die Schule schicken?
59
3.3.3 Die neuen Berufsgruppen
60
3.3.4 Polyglott, auf jeder Ebene
61
3.4 „Big Data“-Schmerzen lassen sich erzeugen
63
3.4.1 Alles protokollieren, was Nutzer tun
63
3.4.2 Nutzer solange wie möglich beim Online-Angebot halten
65
3.4.3 Nutzer anregen, mehr zu tun und Daten zu hinterlassen
67
3.4.4 Soziale Netzwerke anzapfen
68
3.4.5 Crowdsourcing
71
3.4.6 Wissen, wer wo ist
72
3.5 IT-Strategie im „Big Data“-Licht
74
3.5.1 Daten bzw. Informationen sind gemeinsame Sprache von Business und IT
74
3.5.2 Daten sind Ihr Gold
76
Wie werden Daten klassischerweise behandelt?
77
Wie werden große, chaotische Daten behandelt?
79
Wie leitet man Informationen aus vielen und chaotischen Daten ab?
82
Wie hält man Unmengen chaotischer Daten sauber?
84
Wie kombiniert man mehrere Datenquellen?
84
3.6 Was bedeutet es, datenzentriert zu arbeiten?
86
3.6.1 Statistiken lügen nicht
86
3.6.2 Der entscheidende Unterschied zwischen schnell und gleich
87
3.6.3 Die Macht der Suche
90
3.6.4 Die Macht der Empfehlung
92
3.6.5 Die Macht des Bildes
93
3.7 IT-Instrumente richtig nutzen oder richtige Instrumente nutzen
95
3.7.1 Commodity Hardware nutzen
96
3.7.2 Alles aus der Technik herauspressen
98
3.7.3 Dort in den Wolken
98
3.7.4 Die Open Source Welt hat klar die Nase vorn
100
3.8 „Big Data“-Perspektiven
102
3.8.1 Wie speichert man große Datenmengen?
102
Der schwierige Weg der RDBMS
102
Tipps und Tricks
104
Der Preis der Verteilung
106
Und noch ein paar Randthemen
108
3.8.2 Wie bereitet man große Datenmengen auf?
110
3.8.3 Wie stellt man große Datenmengen bereit?
111
3.8.4 Wie analysiert man große Daten in Echtzeit?
113
3.8.5 Wie visualisiert man große Datenmengen?
115
3.9 Von der Hand in den Mund
116
3.10 Segen für Europa, Fluch für Big Data: Datenschutz
118
4 Womit?
122
4.1 Willkommen im Zoo der „Big Data“-Technologien
130
4.2 Einige theoretische Grundlagen
130
4.2.1 Verteilte Systeme bzw. verteilte Data Stores
130
Hashing und Delta-Tracking
132
Replikation und Redundanz
134
Objekte versionieren
139
Sharding
143
Herr der Ringe
147
Anti-Entropy und Garbage Collection
149
Infrastrukturinformationen aktuell halten
151
CAP – nicht die Kappe
151
Eventual Consistency
153
4.2.2 Caching bzw. In-Memory-Datenhaltung
157
4.2.3 Graphen – ein Sonderfall
161
4.3 Analytics sind das A und O. Aber womit machen?
162
4.4 Was ist NoSQL?
164
4.4.1 Key/Value Stores
165
4.4.2 Document Stores
168
4.4.3 In-Memory Stores
169
4.4.4 Graphen, mal wieder ein Sonderfall
170
4.4.5 ... und noch weitere Hundert Stores
172
4.4.6 Und was ist mit der Cloud?
172
4.5 Was ist NewSQL?
173
4.6 Wo kommen klassische RDBMS ins Spiel
174
4.7 Was ist MapReduce?
175
4.8 Und welche Programmiersprache ist nun die beste für „Big Data“?
179
4.8.1 Kann/muss ich alles mit Java machen?
179
4.8.2 Ist JavaScript nicht etwa nur für Script-Kiddies?
180
4.9 Analyse von Logs
180
4.10 Time-Series-Daten
182
4.11 Umgang mit Commodity Hardware
183
4.12 Wie kann ich es richtig flott machen?
185
4.12.1 Was ist (Fast-)Echtzeit?
185
4.12.2 Die superschnelle Technik
186
4.13 Suche, Index und Secondary Index
188
4.14 Die Antwort der Dinosaurier: die Appliances
189
4.15 Kann ich das alles mit einem einzigen Tool machen?
190
4.16 Visualisierung
192
4.17 Wohin mit meinen aktuellen Errungenschaften?
194
4.17.1 Wohin mit meiner Enterprise-Architektur?
194
4.17.2 Wohin mit meinem Enterprise-Datenmodell?
195
4.17.3 Wohin mit meinem MDM?
195
4.17.4 Wohin mit meinem Enterprise-Technologie-Stack?
197
4.17.5 Wohin mit meiner SOA?
198
4.17.6 Wohin mit meiner BI-Lösung?
199
4.17.7 Wohin mit der Cloud?
201
4.18 Ist „Big Data“ also Hadoop mit einem Schuss MongoDB?
203
5 Way Forward
206
5.1 Aktuelle Trends
207
5.1.1 NoSQL und der Rest der Welt
207
5.1.2 Hadoop und der Rest der Welt
209
5.1.3 Hauptspeicher und Plattenspeicher werden immer billiger
210
5.1.4 Die Monster wachen auf
211
5.2 Wie starte ich mit Big Data?
213
5.3 Ich habe schon Big Data. Wie mache ich weiter?
214
5.4 ROI, TCO und dergleichen und worauf es ankommt
216
5.5 Wo und wie kann ich mich weiter informieren?
218
5.6 Persönlicher Blick in die ferne Zukunft
221
Stichwortverzeichnis
224
© 2009-2024 ciando GmbH