Die öffentlichen und privaten Datenbestände wachsen mit einer unvorstellbar schnellen Rate. In der Zeit, in der Sie diesen Satz lesen, sind weltweit mehr neue Daten entstanden, als in allen jemals geschriebenen Büchern vorhanden sind. In YouTube beispielsweise werden pro Minute 35 Stunden Videoshochgeladen; ferner wächst die Menge der unstrukturierten Daten jedes Jahr um 80 Prozent. Je mehr Menschen ihr Leben online verbringen, je mehr Unternehmen aller Größen immense Mengen an Kundendaten erfassen und je strenger die gesetzlichen Vorschriften zur Vorratsdatenspeicherung werden, desto mehr hat sich die Datenspeicherung von einem routinemäßig ablaufenden IT-Prozess zu einem wichtigen Geschäftsanliegen entwickelt.
In einigen Einsatzgebieten wie Meteorologie, Seismologie, Energieversorgung und Finanzdienstleistungen gehören die Erfassung und Aufbereitung von sehr großen Datenmengen zum integralen Bestandteil des Geschäftsalltags. Organisationen aus diesen Branchen sind in Big Data hineingewachsen und verfügen über ausreichende Finanzmittel für die dazu notwendige IT-Infrastruktur. Heute aber arbeiten Unternehmen aus allen Branchen mit ihren Kunden über die unterschiedlichsten Kanäle zusammen: das Web, mobile Endgeräte, Social Media und im persönlichen Gespräch. Sie sind mehr und mehr auf der Suche nach Möglichkeiten, um Daten aus den verschiedensten Quellen zusammenzuführen, die Zufriedenheit der Kunden zu ermitteln, um dann Einzelpersonen proaktiv und gezielt ansprechen zu können.
Die Vorteile einer Erfassung und sicheren Verarbeitung von Daten sollten heute allgemein bekannt sein. Einem IDC-Report zufolge wird jedoch weniger als ein Prozent aller Daten tatsächlich analysiert und mehr als 80 Prozent bleiben ungenutzt. Warum wird so wenig analysiert und warum sind so viele Daten ungenutzt? Einfach ausgedrückt: Big Data ist „zu gigantisch“ und zu teuer für die meisten und nur etwas für die größten Unternehmen. Traditionelle Speicherverfahren können mit dem Datenwachstum nicht mithalten und die benötigte Rechenleistung, um schnell die nahezu unendliche Menge nützlicher Daten zu analysieren und für Entscheidungen aufzubereiten, können sich nur Unternehmen mit viel Geld leisten.
Viel wurde bereits über Big Data geschrieben, eine Suche bei Google ergibt nahezu 19 Millionen Ergebnisse. Angenommen, der Browser benötigt rund fünf Sekunden, um jeden Link zu öffnen, dauert es mehr als 26.000 Stunden, um jede Seite kurz anzuschauen. Dabei kann aber keine Rede davon sein, die Inhalte zu analysieren und nutzbringend für das eigene Business einzusetzen. Das sollte den Umfang der Aufgabe verdeutlichen, Big-Data-Verfahren sowohl auf öffentlich als auch auf privat verfügbare Datenquellen anzuwenden. Genau das aber macht Red Hat als Teil einer EU-Initiative, bei der eine Large-scale Elastic Architecture for Data-as-a-Service (LEADS) erstellt wird, mit der Unternehmen alle öffentlichen Webseiten analysieren und aufbereiten können.
Ziel von LEADS ist ein dezentrales DaaS-Framework, das auf einer elastischen Kollektion von Micro-Clouds läuft. LEADS bietet die notwendigen Instrumente, um öffentlich zugängliche Daten zu ermitteln, aufzubereiten und zu speichern sowie diese Daten in Echtzeit zu verarbeiten. Ferner können die öffentlich verfügbaren Daten im Kundenauftrag mit privaten Daten angereichert und die Echtzeitverarbeitung kann mit älteren Zeitreihen der gleichen Daten ergänzt werden.
Cloudbasierte oder DaaS-Modelle können wahrscheinlich am ehesten die Antwort auf Big-Data-Anforderungen liefern. Anstatt die Daten vor Ort im eigenen Rechenzentrum zu speichern, ist es sowohl wirtschaftlich als auch ökologisch intelligenter, sie in einer gemeinsam genutzten Open-Source-Infrastruktur unterzubringen.
Mitglieder im LEADS-Konsortium sind Universitäten und Forschungseinrichtungen (UniNE Université de Neuchâtel Switzerland, Technische Universität Dresden, TSI GreeceTelecommunication Systems Institute), deren Mitarbeiter neue Ideen schnell und effektiv in der akademischen Welt umsetzen können. Dazu kommen große Unternehmen (Red Hat, BM-Yahoo! und Adidas), die in der Lage sind, neue Technologien und Methoden für den internen Gebrauch, zum Nutzen ihrer Kunden und als neue operative Standards einzuführen. Speziell BM-Yahoo! und Red Hat sind führend bei der Entwicklung und dem Vertrieb von Open-Source-Lösungen und die zu erwartende positive Wirkung für die Community ist enorm.
Eines ist klar: Der finanzielle Aufwand, um selbst einen kleinen Teil des Webs zu durchsuchen, zu speichern und zu verarbeiten, ist enorm; eine solche Aufgabe ist für Start-ups, kleine und mittlere Unternehmen unerschwinglich. Aktuell verfügen nur die größten IT-Player über die Infrastruktur zur Speicherung riesiger Datenmengen und die Rechenleistung zu deren Verarbeitung. Kleinen und mittleren Unternehmen bleibt nichts anderes übrig, als auf die Ressourcen großer Organisationen mit dedizierten Rechenzentren und den benötigten Daten- und Verarbeitungskapazitäten zuzugreifen.
Die monetären Kosten der Infrastruktur zählen zu den kritischen Faktoren, wenn es um die Speicherung von Big Data geht. Wie bereits erwähnt, betrifft dieses Problem insbesondere kleine und mittlere Unternehmen mit begrenzten Ressourcen. Daher muss jede neue Lösung, um attraktiv zu sein, wettbewerbsfähige Preise bieten, die mit denen herkömmlicher Rechenzentren mithalten können oder sogar darunter liegen.
Auf unberechenbaren Märkten reicht Data Warehousing nicht mehr aus. Denn damit verarbeiten Organisationen bislang große Datenmengen und nutzen dazu ausschließlich vordefinierte Analysemethoden. Das ist zu restriktiv: Wer kann schon vorhersagen, welche Analysen vielleicht im nächsten Monat oder gar in einem Jahr benötigt werden? Unternehmen müssen die Freiheit haben, sich alle Optionen offen zu halten. Genau hier zeigt das Big-Data-Modell seine Stärken. Damit lassen sich unstrukturierte Daten von Log-Files, virtuellen Maschinen, E-Mails, Audio-, Video- und Textdokumenten auf neue Arten untersuchen, um nützliche Erkenntnisse zu gewinnen, und um damit den maximalen Business-Nutzen aus den Informationen zu erzielen.
Unternehmen können damit präzisere Prognosen und bessere Entscheidungen treffen. Nutzen Organisationen die Vorteile von Big Data, erhalten sie einen besseren Einblick in ihr Business. Sie können sofort auf neue Anforderungen reagieren, innovative Produkte und Services schneller auf den Markt bringen und sind ihren Wettbewerbern einen Schritt voraus.
Die LEADS-Plattform berücksichtigt Anforderungen wie Schutz der Privatsphäre, Datensicherheit, Energieeffizienz, Verfügbarkeit, hohe Skalierbarkeit und Performance. Die Projektergebnisse werden anhand konkreter Anwendungsfälle bei der Suche in Webdaten und deren Einsatz in verschiedenen Einsatzszenarien validiert.
LEADS nutzt die umfangreichen Erfahrungen von Red Hat bei Big Data. Bei der Auswahl der Technologiepartner verzichtete die Europäische Union bewusst auf proprietäre Anbieter. Eine Entscheidung zwischen Produkten, die eine Lösung für Big-Data-Herausforderungen versprechen, ist selbst für sehr erfahrene IT-Manager eine anspruchsvolle Aufgabe. Alle bedeutenden Storagehersteller haben eine Big-Data-Lösung im Portfolio, die typischerweise ein Bundle aus ihrer eigenen Hardware und einer vorkonfigurierten Software umfassen. Open-Source-Software jedoch bietet eine andere Möglichkeit beim Aufbau einer kostengünstigen Lösung. Dabei kommen standardbasierte Softwarekomponenten zum Einsatz, die auf Commodity-Hardware laufen. Damit lässt sich ein Weg beschreiten, der Anwenderorganisationen eine breite Auswahl an preisgünstiger Hardware und portabler Open-Source-Software zur Verfügung stellt.
Durch die Entscheidung für Open Source vermeidet LEADS die Abhängigkeit von einem bestimmten Hardwarehersteller und den hohen Softwarelizenzkosten wie sie mit proprietären Betriebssystemen, Middleware und Applikationen verbunden sind. Gleichzeitig profitieren Red Hats Enterprise-Lösungen von kontinuierlichen Tests, Weiterentwicklungen und Innovationen. Ferner kann die Open-Source-Technologie parallel zu einer bereits vorhandenen Storage-Infrastruktur eingesetzt werden.
Red Hat bietet eine hochskalierbare Lösung für unstrukturierte Daten, die bei Bedarf mitwächst und so einen unendlich großen Datenpool bietet. Die Lösung kann nahtlos in die Cloud ausgedehnt werden. Produkte von Red Hat lassen sich ohne Änderungen am Programmcode in den Public Cloud Services von Amazon einsetzen. Durch den Zugriff auf cloudbasierte Speicherressourcen kann die Kapazität je nach Bedarf erweitert oder reduziert werden. Dies ist besonders dann nützlich, wenn sich der tatsächliche Bedarf nur schwer abschätzen lässt.
Die künftige Nachfrage zu prognostizieren, hat sich gerade in den letzten Jahren als ein enormes Problem erwiesen. Es besteht kein Zweifel: Das rasante Datenwachstum ist für Unternehmen mit einer eigenen Rechenzentrumsinfrastruktur aktuell eine der größten Herausforderungen. Der Konjunktureinbruch hat viele IT-Manager dazu gezwungen, anstehende Infrastruktur- und Technologie-Upgradezyklen zu verschieben. LEADS und Red Hat bieten ein wirtschaftlich attraktives Verfahren zur Verarbeitung großer Datenmengen, bei dem öffentlich zugängliche und private Daten gemeinsam genutzt, gespeichert und abgefragt werden können. Die Kombination von privat vorhandenen mit öffentlich verfügbaren „kostenlosen“ Daten ist der nächste logische Schritt für Big Data. Google gelang es, die einfache Suche nach öffentlich verfügbaren Informationen zu einem 50 Milliarden US-Dollar schweren Unternehmen auszubauen. Stellen Sie sich vor, was Red Hat und LEADS für ihr Unternehmen bewirken können.