Big Data Diskussion - Abschrift (Panasas und IDC):
Garth Gibson: Big Data sind heute einer der großen HPC-Trends. Was sind Big Data in HPC?
Steve Conway: Sobald sich irgendein Trend abzeichnet, erfinden die Menschen Worte und begeistern sich an diesen, aber die Dinge werden nicht konkretisiert. In diesem Fall glauben wir jedoch, dass die Märkte sich nahezu bereits gebildet haben, bevor der Markt seine Slogans entwickeln kann. Dies ist sehr real. Eigentlich war HPC immer ein Markt, der in Zusammenhang mit Simulation und Modellierung datenintensiv war. Nun werden diesem Baukasten jedoch analytische Methoden hinzugefügt.
GG: Benennen wir nicht einfach Visualisierung in Analytik um?
SC: Nein, es geht um viel mehr, weil es auf den traditionellen HPC-Sektoren stattfinden; zudem wird HPC nun für die kommerzielle Analytik benötigt, weil es sich um wiederholbare Anwendungsfälle und nicht nur um einmalige Vorgänge handelt. Wir sehen tatsächlich, dass sich einige dieser Anwendungsfälle zu nachvollziehbaren Märkten entwickeln.
GG: Wenn nun, angesichts der riesigen Datenmengen, die Unternehmen ins Spiel kommen, dann reden wir von Rechnerarchitekturen und Rechnerparadigmen, die sich notwendigerweise von HPC unterscheiden. Ist das der Grund dafür, dass wir Hadoop und MapReduce haben?
SC: Man hat Hadoop und MapReduce übernommen, aber auch vorangetrieben. Wie Sie wissen, benötigt man dafür nicht notwendigerweise HPC-Ressourcen, aber beide wurden für das HPC übernommen, und das Interessante ist, dass dies nicht mit der alten 3-Tier-Serverarchitektur vergleichbar ist, bei der man die Musterdaten vernachlässigt und auf einem dedizierten Server arbeitet. Hier nutzt man die HPC-Ressourcen, Cluster und Speicher, die direkt in den Workflow integriert werden.
GG: Dann ist die Hadoop-Infrastruktur ein anderes Paradigma für die Verarbeitung großer Datenmengen. Im Wesentlichen wird dadurch diese eng gekoppelte Kommunikation des verteilten gemeinsamen Speichers geopfert, die wir für die physikalische Simulation nutzen. Es handelt sich also nicht um eine vollständige Ersetzung. Beide ergänzen sich wirklich. Und wie sieht es auf der anderen Seite aus, bei der Business Intelligence und dem Datawarehousing?
SC: Dies ist eines der von mir angesprochenen Beispiele hinsichtlich der engen Integration. PayPal ist ein Beispiel. Es ist ein Ebay-Unternehmen, man ist für die Betrugserkennung bei Ebay und Skype verantwortlich. Dort wird Hadoop seit geraumer Zeit erfolgreich eingesetzt. Aber für die Betrugserkennung im Rahmen der Aufgaben bei PayPal war eine Echtzeitlösung unerlässlich. Deshalb musste eine Verschiebung auf die HPC-Cluster stattfinden. Im wesentlich nutzt man Kurven, findet versteckte Muster, und das nahezu in Echtzeit. Nahezu Echtzeit bedeutet, dass man Betrugsversuche erkennen muss, bevor die Kreditkarten ins Spiel kommen.
GG: In akademischen Kreisen nennen wir das maschinelles Lernen. Maschinelle Lernalgorithmen verändert sich rapide zugunsten von Parallelismen, weil sie vorrangig für die serielle Ausführung mit Einzelprozessoren entwickelt wurden. Das heißt, fortschrittliche Statistiken, die nicht parallel sind müssen parallel werden.
SC: Und plötzlich multiplizieren sich die Speicheranforderungen sehr, sehr schnell. Sowohl hinsichtlich der Kapazität, die kein großes Problem ist, als auch hinsichtlich der Leistung ist die Speicherung immer eine Herausforderung - Datenverschiebung, wohin und wie viel.
GG: IDC hat prognostiziert, dass die Ausgaben für HPC-Speicher, ich meine hiermit alle Speichervarianten, regelmäßig steigen werden, beides jedoch schneller als die Gesamtausgaben, nicht wahr? Eine Steigerung bei HPC, jedoch langsamer als die Vergrößerung der Flächendichte in der Platte. Wird es so enden?
SC: Wir sehen bereits, dass diese Prognose zur Realität wird. Von heute bis 2016 gehen wir von einem Anstieg um 8,9 Prozent aus - der am schnellsten wachsende Teil des HPC-Ökosystems. Wir stehen am Anfang, noch ist die Akzeptanz zögerlich, jedoch bereits so vielversprechend, dass wir uns einer Fortsetzung sicher sein können, und dank der wachsenden Anerkennung unserer HPC-Systeme, die den Anforderungen noch nicht ganz gerecht wurden, haben wir diese nun so rechnerorientiert entwickelt, dass wir ganz plötzlich einen wachsenden Bedarf bei den eher datenorientierte Architekturen sehen. Und exakt darüber reden wir hier. Deshalb wächst der Speicher-Teil des Konzeptes schneller als alles andere.
GG: Wie wird sich das wohl zwischen langsamen Platten, schnellen Platten, SSD und anderen Technologien aufteilen?
SC: Ich glaube, dass wir keine flacheren, sondern tiefere Speicherhierarchien haben werden, und dass diese Hierarchien sehr stark auf der Leistungsfähigkeit basieren werden (umso leistungsfähiger der Speicher ist, um so schneller nähert sich der Speicher den Prozessoren an) und hier kommen die SSD ins Spiel, die bereits für viele HPC-Bereiche implementiert werden, und ich sehe deren starke Vermehrung. Insbesondere die Leistungsfähigkeit der SSD wird bewundert, ist gewünscht und so weiter - die Frage ist, wie schnell die Preise sinken werden.
GG: Ja, wir haben SSD in ActiveStor 14 integriert. Der Schlüsselgedanke, den wir hier verfolgt haben, lautete "alle richtigen Daten am richtigen Ort". Das heißt, wenn Sie Ihre Daten verstehen, dann wissen Sie, worauf die vielen zufälligen Festplattenzugriffe sich richten, um die SSD vollständig auszunutzen, und welche große Sequenz die Bandbreite der Platte ausnutzt, und dann können sie nach Bedarf streamen und migrieren. Ich glaube, dass diese Art der Technologie unerlässlich ist, nicht als Cache, den Sie auf die SSD kopieren und dann auf die Platte, die die SSD viel zu schnell leert und alle kleinen Dinge außer acht lässt, sondern eher so etwas wie 'Ich weiß wo die Daten sein sollten'. Daher stimme ich zu. Ich glaube, das ist der Trend. Das Verständnis unserer Daten muss nicht immer tiefgreifend sein, gelegentlich ist es eher horizontal, und dann können wir sie an den richtigen Ort streamen.
SC: Ja, und wie Sie wissen, hat sich die Flächendichte von Festplatten gut entwickelt, daher ist das kein großes Problem (es ist ein Problem, aber kein großes). Die wirkliche Problem ist die Zugriffsdichte, dazu kommt, aus vielen Gründen, die Datenbewegung. Das heißt, dass Ihre Leute das Problem von der richtigen Seite angehen. Es ist eines der zwei oder drei größten Probleme die HPC-Nutzer aktuell haben. Sie haben, wenn auch nicht in Worten, die Metadaten angesprochen. Es ist das Metadaten-Management, das wirklich Angst macht. Deswegen liegen die Leute nachts wach - wie können wir wissen, was wo ist?
GG: Metadaten werden falsch definiert. Gelegentlich bezeichnet man damit alles das was nicht in das Datenparadigma passt. Es gibt viele 'Metadaten'. Im Fall des Speichersystems selbst geht es in etwa um Namen, Speicherorte der Blöcke und Berechtigungen. Mit dieser Art Metadaten befassen wir uns. Wir spielen immerzu damit. Wir haben sie recht gut abgeleitet und kommen damit zurecht. Aber es gibt eine neue Klasse der Metadaten, eine Struktur innerhalb der Daten, die man freilegen möchte, damit man sie durchsuchen und nachschlagen kann. Traditionell nennen wir all dies in Zusammenhang mit Datenbanken die Indizes. Es glaube, automatische und spezielle Indizierungen werden sch explosionsartig ausbreiten. Eine kluge Strategie von maschinellem Lernen/Datawarehouse bis ganz nach unten zur Einbettung in die Speicherung. Gestern habe ich einen Workshop geleitet und es gab haufenweise Papier zur Metadaten-Beschleunigung und automatischer Indizierung. Diese Technologien sind auf dem Vormarsch. Ich glaube, Sie haben recht, die Metadaten, das heißt der hohe zufällige Zugriff auf Kleinigkeiten, sind nun, nachdem wir gelernt haben mit den Big Data umzugehen, die nächste Herausforderung.
SC: Richtig. Und, wie Sie sagten, lassen sich Suchen und Finden nicht immer voneinander trennen. Bei vielen Implementierungen wird beides genutzt, das heißt eine Art Suche auf Hadoop-Basis, allerdings lieben die Menschen im Kurvenanalysen oder andere Suchalgorithmen, gleich, ob es sich um traditionelle HPC-Sektoren oder die Klimaforschung handelt. (Bei SC12) haben sie an Erkenntnisgewinnungs-Workshops zum Thema Klima teilgenommen und so weiter... oder ist das, was wir als eine wachsende Flut kommerzieller Unternehmen sehen, die plötzlich und gelegentlich verzweifelt etwas über HPC erfahren möchten, lediglich darauf zurückzuführen, dass deren Schlüsselkunden Bedürfnisse haben und sie in diese Richtung drängen.
GG: Würden Sie daher vorschlagen, dass die Hadoop-Seite des HPC auf breiter Front in Unternehmen eindringen sollte?
SC: Ja. Viele Leute sprechen über Hadoop, als handele es sich nur um ein Phänomen, dass die Unternehmen betrifft. Wir beide wissen, weil wir mit HPC vertraut sind, dass die HPC-Leute Neues gerne vorantreiben, und das bedeutet, der Prozentsatz der HPC-Standorte, die mit Hadoop arbeiten ist wesentlich größer, als im Unternehmenssegment. Was wir sehen, sind mehr Erfahrung und mehr Wissen, und damit helfen sie den Leuten im Unternehmen wirklich. Ich glaube daher, dass Hadoop sich im Unternehmen ausbreiten wird.
GG: Das heißt, die Unternehmensstandards werden für die Hadoop-Daten übernommen. Dann müssen wir über die 'Rolle von Hadoop in der vorhandenen Infrastruktur und die Best-Practices' reden. Nach unserer Erfahrung ist Hadoop vorrangig ein paralleles Programmierungsparadigma. Die Speicherabstrahierung wird im Allgemeinen lokal im HDFS auf den gleichen Knoten im selben Cluster implementiert.
SC: Ja.
GG: Aber die Ziele können einfach neu definiert werden. Bei einer Neuorientierung anhand traditioneller NAS sind diese traditionellen NAS zu langsam und das wird als grundlegend wahrgenommen, was es jedoch nicht ist. Mit einem schnellen Speicher, wie ActiveStor, können Sie die Daten genau in der Geschwindigkeit verschieben, die Hadoop wünscht. Wir setzen Hadoop-Services erfolgreich ein und dann erhalten wir dieselbe Verlässlichkeit und Unterstützung der Kunden wie bei kommerziellen und Enterprise-NAS.
SC: Richtig. Ihr Ziel und das was Sie definitiv tun, ist den Einsatz von Hadoop in der verteilten Rechnerarchitektur, in Rechenzentren und so weiter zu ermöglichen. Das ist wirklich ein wichtiger nächster Schritt.
GG: Das ist machbar. Was ist mit dem Bedarf? Möchten die Kunden ihre Hadoop-Systeme nutzen? Möchten Sie ihre vorhandenen NAS- und SAN-Speicherarchitekturen mit diesem neuen Stil nutzen? Oder möchten sie alles neu kaufen, irgendwo in der Ecke einrichten und separat ausführen?
SC: Nein. Die Beispiele PayPal, Geico oder Mayo Klinik, ich kann sie alle aufzählen, zeigen ganz klar, dass sie Hadoop nicht separat ausführen möchten. Es geht nicht mehr um die alte Drei-Tier-Architektur. Man möchte alles direkt in den Workflow einbeziehen. Aber das ist nicht möglich, weil es aufgrund der Echtzeitanforderungen sehr schwierig ist, etwas ungenutzt zu lassen und es lediglich für eine Art Musterdaten einzusetzen.