Lesezeit: 4 Minuten

Wenn Sie mit dem Konzept eines Data Lake nicht vertraut sind, sind Sie nicht allein. Ein Datensee ist ein großes Repository für unstrukturierte Daten. Und er nimmt alle Daten auf, bevor sie bereinigt, strukturiert oder organisiert werden.

Erst wenn man sich mit den technischen Herausforderungen der Speicherung und des Abrufs von Daten in großem Maßstab beschäftigt, versteht man, warum es so viele Lösungen gibt. Und warum viele von ihnen verwirrend ähnlich klingen.

In diesem Beitrag werden wir einige der Data Lake-Implementierungen der Vergangenheit betrachten, sie mit moderneren Lösungen vergleichen und die verschiedenen Ansätze für die Datenverwaltung betrachten.

Eine kurze Geschichte der Dateisysteme

Seit den frühen 2000er Jahren haben wir einen Anstieg verschiedener Dateisysteme wie NetApp und schließlich Isilon erlebt, die entwickelt wurden, um die Grenzen des Speichers auf einem einzelnen Server und seinem Betriebssystem zu überwinden.

Diese "Filer" wurden eigens dafür entwickelt, Hunderte von Benutzern gleichzeitig mit dem Lesen und Schreiben von Dateien zu versorgen und eine Skalierung zu erreichen, die weit über das hinausgeht, was ein einzelner Server jemals leisten kann. Im Laufe der Zeit wurden diese Lösungen so beliebt, dass NetApp und EMC so erfolgreich wurden, dass sie zusammen fast 50 % des Marktes für Enterprise File Storage ausmachen.

Die Herausforderung Dateisystem

Sind NetApp und EMC immer noch die richtige Wahl? Diese Dateisysteme wurden vor fast 20 Jahren entwickelt, als das "Big Data"-Problem noch nicht so groß war wie heute.

Zur Beantwortung dieser Frage wollen wir uns ansehen, was passiert, wenn ein Benutzer eine Datei vom "Filer" anfordert. Es ist nun die Aufgabe des "Filers", die Anfrage zu bearbeiten, um die einzelne Datei zu finden, die unter einer Milliarde oder mehr Dateien vergraben ist.

Dies ist das alte "Nadel im Heuhaufen"-Problem. Das Dateisystem muss das gesamte Dateiverzeichnis durchsuchen, um die Daten zu finden, nach denen der Benutzer gefragt hat und die sich irgendwo auf der Festplatte des Speicherbereichs befinden.

Es ist die Aufgabe des Dateisystems, den Überblick über all diese Daten zu behalten und mit der Leistung Schritt zu halten, wobei die Daten oft durch Snapshots geschützt werden. Außerdem führt das Dateisystem tausende Male pro Sekunde eine Vielzahl anderer Aufgaben aus. Das kann bedeuten, dass die Leistung manchmal ein wenig ins Wanken gerät.

Um diese technischen Herausforderungen zu bewältigen, haben die Anbieter von Altspeichern das Problem mit immer mehr Hardware gelöst. Dadurch entstehen Speichersilos und eine außerordentliche Menge an Datenreplikationen, da identische - oder nahezu identische - Dateien an zahlreichen verschiedenen Orten gespeichert werden.

Während dies für Sie ein Problem darstellt, da Sie mit Datensilos zu kämpfen haben oder empfohlene System-Upgrades durchführen müssen, um Ihr aktuelles Datenvolumen zu bewältigen, funktioniert es für die Anbieter von Altspeichern gut.

Die meisten dieser Hardware-Geräte werden in der Regel für 3-7 Jahre unterstützt. Wenn sie sich dem Ende ihrer unterstützten Lebensdauer nähern, müssen Sie neuere Versionen der gleichen Hardware kaufen und Ihre Daten von den alten Geräten auf die neuen migrieren. Das ist mit hohen Investitionskosten verbunden und erfordert ein hohes Maß an Vorausplanung, um zu vermeiden, dass der Support ausläuft oder der Speicherplatz knapp wird.

Die explosionsartige Zunahme der Datenmenge bedeutet, dass Unternehmen den "finanziellen Wendepunkt" viel schneller erreichen, was eine Abkehr von einem regelmäßigen Aktualisierungszyklus und eine Hinwendung zu einer Software-definierten Speicherlösung oder einem OPEX-Modell zur Folge hat.

Datei vs. Objekt (Blob) Speicherung

Angesichts der Tatsache, dass viele ältere Dateisysteme aufgrund von Größenbeschränkungen und Kosten nicht mehr sinnvoll zu implementieren sind, scheint Cloud-Storage - oder Objektspeicher - eine logische Lösung zu sein.

Die Objektspeicherung kann zwar die üblichen Beschränkungen von Dateisystemen durch die Bewältigung des Datenvolumens überwinden, bringt aber auch eine Reihe von Herausforderungen mit sich. Die erste besteht darin, dass die Objektspeicherung mit Anwendungen oder Benutzern über verschiedene Protokolle wie Swift oder HTTP kommuniziert.

Diese Protokolle unterscheiden sich von den Dateisystemprotokollen (SMB und NFS), da sie für den Webverkehr konzipiert sind. Das bedeutet, dass Sie Ihre Daten zwar in den Objektspeicher migrieren können, Ihre Benutzer und Anwendungen aber nicht mehr mit ihnen arbeiten können. Das mag für ältere Daten, die Sie einfach nur für die Archivierung aufbewahren wollen, in Ordnung sein, aber für Benutzerdaten, auf die regelmäßig zugegriffen und die bearbeitet werden, ist es nicht praktikabel.

Das Problem bei der Einführung von Objektspeichern besteht darin, dass Unternehmen gezwungen sind, ihre Anwendungen für die Kommunikation mit dem neuen Protokoll neu zu schreiben. Dies kann für die meisten Unternehmen sehr zeit- und kostenaufwändig sein. Ein Finanzinstitut, das die Umstellung auf Cloud-Storage in Erwägung zog, musste 2.800 Altanwendungen berücksichtigen und sah sich mit Kosten in Millionenhöhe konfrontiert, um sie neu zu schreiben.

Das Beste von lokalem Speicher trifft auf das Beste von Cloud-Speicher

Hier kommt der Filer der nächsten Generation ins Spiel. Er ist softwaredefiniert und von Grund auf für die Arbeit mit Objektspeichern konzipiert.

Wenn Sie sich ansehen, wie Panzura sein globales Dateisystem aufgebaut hat, haben sie die Skalierbarkeitsbeschränkungen herkömmlicher Dateisysteme überwunden, indem sie alle Dateien nahtlos in Objekte umgewandelt haben, die in einer öffentlichen oder privaten Cloud (Objektspeicher) leben.

Dadurch stehen alle Daten überall dort zur Verfügung, wo ein anderer Panzura filer auf denselben Objektspeicher zugreift. Das bedeutet, dass Panzura -Kunden ihre Gesamtbetriebskosten durch den Kauf weiterer Hardware-Appliances senken können und nicht mehr alle 5-7 Jahre die Hardware erneuern müssen.

Dieses neuartige Design bricht herkömmliche Speichersilos auf und ermöglicht es Kunden, Cloud- oder Objektspeicher als Data Lake der nächsten Generation zu nutzen, ohne die Leistung zu beeinträchtigen. Dieser Ansatz gibt Ihnen die Möglichkeit, Daten an Edge-Standorten oder in Rechenzentren zu generieren und Ihre Daten in der Cloud für andere Anwendungsfälle wie Analytik, maschinelles Lernen oder künstliche Intelligenz zu nutzen.

Noch einen Zahn zulegen

Keine moderne Data Lake- oder Dateisystemlösung wäre vollständig ohne Schutz vor einer modernen Geißel - Ransomware.

Wenn ein böswilliger Akteur in diese Systeme eindringt und Ihre Daten beschädigt oder verschlüsselt, beschädigt die Verschlüsselung die Dateien selbst.

Panzura verfolgt einen neuen Ansatz zum Schutz Ihrer Daten vor Ransomware, indem es ein unveränderliches Dateisystem erstellt. Das bedeutet, dass sie das Löschen oder Überschreiben von Daten nicht zulassen. Stattdessen können Sie der ursprünglichen Version nur Daten hinzufügen oder anhängen. Jeder Benutzer kann seine Datei innerhalb von Minuten auf den letzten bekannten guten Zustand zurücksetzen, wodurch der mühsame Wiederherstellungsprozess von einem Sicherungssystem vermieden wird.

Speicher- und Datenmanagement im Wandel der Zeit

Eine neue Sichtweise auf einen Data Lake legt nahe, die Vorteile des Datenzeitalters zu nutzen - nicht nur die Bewältigung des Volumens unstrukturierter Daten, sondern auch die Fähigkeit, mit diesen Daten auf eine Art und Weise zu arbeiten, die Unternehmen voranbringt, erfordert jetzt die nächste Generation von Filern, die die nächste Generation von Datenmanagement beherrschen.