Start Cloud Die Trennung von Speicher und Rechenleistung

Die Trennung von Speicher und Rechenleistung [Q&A]

3
0


Business Intelligence- und Analyseprojekte basieren traditionell auf dem Konzept des Enterprise Data Warehouse, bei dem Rechenleistung und Speicher in einer monolithischen Plattform kombiniert wurden, um die für Hochleistungsanalysen erforderliche Leistung zu erzielen. In jüngerer Zeit ging der Trend zu Data Lakes, aber dies basierte ebenfalls auf dem Ansatz, alle Daten in einer einzigen Umgebung – zunächst Hadoop – zur Speicherung und Analyse zu speichern.

Wir sprachen mit Justin Borgman, CEO für Starburst-Daten, warum er glaubt, dass die Trennung von Storage und Computing in der Datenverarbeitungs- und Analysebranche ein Trend ist, der weiter an Dynamik gewinnen wird.

BN: Warum ist die Trennung von Storage und Computing so ein heißes Thema?

JB: Beginnen wir zunächst damit, was die Trennung von Storage und Compute eigentlich bedeutet. Vor der Cloud kaufen Sie Ihre gesamte Hardware zusammen mit den zugehörigen Lizenzen und Serviceverträgen im Voraus und statten Ihr Rechenzentrum mit allen Ressourcen aus, die Sie möglicherweise zum Speichern und Analysieren Ihrer Daten benötigen. Wenn Ihre Spitzenauslastung 100 Maschinen erfordert, würden Sie 100 Maschinen kaufen – selbst wenn Sie all diese Ressourcen nur für ein paar Stunden am Tag benötigen. Den Rest der Zeit würde Ihre teure Hardware ruhen und schnell abwerten.

Diese Kosten wurden nie wieder hereingeholt. Es handelte sich um versenkte Investitionen in Höhe von verschwendetem Geld.

Mit dem Aufkommen von Cloud-Architekturen können Sie Ihre Daten jetzt auf der günstigsten Speicherschicht belassen (AWS S3, Azure ADLS, Googles GCS oder lokaler S3-kompatibler Objektspeicher wie Minio oder Ceph) und dann Rechenressourcen hochfahren, wenn Sie brauchen sie, und zwar nur so lange, wie Sie sie brauchen. Sie zahlen nur für Computing, wenn Sie Ihre Analysen tatsächlich ausführen.

BN: Was sind weitere wichtige Vorteile dieser Art von Architektur?

JB: Offensichtlich sind die Kosten einer der wichtigsten Vorteile der Trennung der beiden. Wenn Rechenressourcen vom Speicher getrennt sind und nur bei Bedarf eingeschaltet werden müssen, um mit Daten zu interagieren oder nach oben oder unten zu skalieren, können Unternehmen Geld sparen, indem sie nur für das bezahlen, was sie tatsächlich nutzen. Verkleinern Sie den Cluster, wenn Sie ihn nicht verwenden, und sparen Sie Geld. In ähnlicher Weise haben Sie jetzt auch die vollständige Kontrolle über die Leistungssteigerung. Drehen Sie den Drehregler in die andere Richtung und erweitern Sie den Cluster, um mehr Rechenressourcen auf die aktuelle Arbeitslast anzuwenden.

Ein weiterer Vorteil ist die Möglichkeit, Ihre Compute auf verschiedene Speichertypen auszurichten, sodass Sie überall auf die Daten zugreifen können, anstatt alles in eine Datenbank laden zu müssen. Beispielsweise können Sie einige Daten in Hadoop und Teradata On-Prem und einige Daten in der Cloud haben. Wenn Sie Abfrage-Engine-Technologien verwenden, die die Trennung von Speicher und Rechenleistung umfassen, wie die Open-Source-Presto-Engine, können Sie jetzt alles und überall abfragen. Auf diese Weise können Sie eine einheitliche Abfrageschicht für alle Ihre Datenquellen erstellen, ohne Daten verschieben zu müssen.

BN: Welche Branchen profitieren von diesem Verhalten?

JB: Nehmen wir als Beispiel große Einzelhändler. Wenn ein CEO oder Marketingmanager einen Bericht über jedes Produkt, das an jedem Standort im ganzen Land verkauft wurde, vom Vortag, vom Vormonat, von der Ferienzeit usw indem Sie die Computing-Ressourcen nach Bedarf hochskalieren, um die Aufgabe zu erledigen, und sie anschließend herunterfahren. In der Vergangenheit musste das Unternehmen die notwendigen Hardware-Ressourcen in Bereitschaft halten, um diese Ergebnisse zu generieren. Der Rest des Tages? Diese teuren Ressourcen würden brachliegen und an Wert verlieren.

Ein anderes Beispiel wäre eine große Bank. Nach Jahrzehnten der Fusionen und Übernahmen hat die Bank Dutzende verschiedener Datenbanksysteme angehäuft. Um einen ganzheitlichen Überblick über das Hypothekendarlehensgeschäft der Bank zu erhalten, müssten massive ETL-Pipelines erstellt werden, um neue Kopien der Daten zur Analyse an einen zentralen Ort zu verschieben. Durch die Trennung von Speicher/Rechen ist jede Datenbank nur eine weitere Datenquelle, die von einer universellen Abfrageschnittstelle abgefragt werden kann. Analysten können jetzt ihre Antworten in Sekunden oder Minuten erhalten, indem sie die Daten dort abfragen, wo sie sich befinden, anstatt Tage oder Wochen warten zu müssen, bis die Daten zur Analyse in ein System kopiert werden.

Bildnachweis: Oleksiy Mark / Shutterstock



Vorheriger ArtikelDebian 10.2 ‚Buster‘ Linux-Distribution mit vielen Sicherheitsupdates und Bugfixes veröffentlicht
Nächster ArtikelSchockierend! Apple startet freiwilliges Rückruf- und Austauschprogramm für einige Netzteile

Kommentieren Sie den Artikel

Bitte geben Sie Ihren Kommentar ein!
Bitte geben Sie hier Ihren Namen ein