Temps de lecture : 4 minutes

Si vous n'êtes pas familier avec le concept de lac de données, vous n'êtes pas le seul. Un lac de données est un grand dépôt de données non structurées. Et, il prend toutes les données, avant qu'elles ne soient nettoyées, structurées ou organisées.

Ce n'est que lorsque vous commencez à démêler les défis techniques du stockage et de la récupération des données à grande échelle que vous commencez à comprendre pourquoi il existe tant de solutions. Et pourquoi beaucoup d'entre elles se ressemblent tant.

Dans cet article, nous allons passer en revue certaines des implémentations de lacs de données du passé, les comparer à des solutions plus modernes et examiner les différentes approches adoptées pour la gestion des données.

Une brève histoire des systèmes de fichiers

Depuis le début des années 2000, nous avons assisté à l'essor de différents systèmes de fichiers, comme NetApp, puis Isilon, qui ont été conçus pour surmonter les limites du stockage sur un seul serveur et son système d'exploitation.

Ces "filers" ont été spécialement conçus pour gérer des centaines d'utilisateurs lisant et écrivant des fichiers en même temps et pour atteindre une échelle bien plus grande que celle d'un seul serveur. Au fil du temps, ces solutions sont devenues si populaires que NetApp et EMC ont connu un tel succès qu'ensemble, elles représentent près de 50 % du marché du stockage de fichiers en entreprise.

Le défi du système de fichiers

NetApp et EMC sont-ils toujours le bon choix ? Ces systèmes de fichiers ont été conçus il y a près de 20 ans, lorsque le problème du "big data" était loin d'être aussi important qu'aujourd'hui.

Pour trouver la réponse, explorons ce qui se passe lorsqu'un utilisateur demande un fichier au "filer". C'est alors au "filer" de traiter la demande pour trouver le fichier unique qui se cache parmi un milliard de fichiers.

C'est le vieux problème de "l'aiguille dans la botte de foin". Le système de fichiers doit chercher dans l'ensemble du répertoire de fichiers pour récupérer les données demandées par l'utilisateur, qui se trouvent sur un disque quelque part dans la matrice de stockage.

Le système de fichiers a pour mission de conserver la trace de toutes ces données et de maintenir les performances, tout en protégeant souvent les données à l'aide d'instantanés. De plus, le système de fichiers exécute une multitude d'autres tâches, des milliers de fois par seconde. Cela peut signifier que les performances sont parfois un peu bancales.

Pour surmonter ces difficultés techniques, les fournisseurs de solutions de stockage traditionnelles ont multiplié les équipements pour résoudre le problème. Cela crée des silos de stockage, ainsi qu'une quantité extraordinaire de réplication de données, car des fichiers identiques - ou presque - sont stockés à de nombreux endroits différents.

Si cela constitue un problème pour vous, qui devez lutter contre les silos de données ou entreprendre les mises à niveau recommandées de votre système pour faire face à votre volume de données actuel, cela fonctionne bien pour les fournisseurs de stockage traditionnels.

La plupart de ces appareils matériels sont généralement pris en charge pendant 3 à 7 ans. Lorsqu'ils arrivent en fin de vie, vous devez acheter des versions plus récentes du même matériel et migrer vos données des anciens appareils vers les nouveaux. Cela entraîne des dépenses d'investissement et nécessite une planification importante pour éviter de tomber en panne de support ou d'espace de stockage.

L'explosion des données que nous connaissons tous signifie que les organisations atteignent le "point de basculement financier" beaucoup plus rapidement, ce qui les incite à s'éloigner d'un cycle de rafraîchissement régulier et à adopter une solution de stockage définie par logiciel ou un modèle OPEX.

Stockage de fichiers ou d'objets (Blob)

Étant donné que de nombreux anciens systèmes de fichiers n'ont plus de raison d'être mis en œuvre en raison de leurs limites d'échelle et de leur coût, le stockage en nuage - ou stockage objet - semble être une solution logique.

Cependant, si le stockage objet permet de surmonter les limites communes des systèmes de fichiers en gérant le volume des données, il s'accompagne de son propre ensemble de défis. Le premier est que le stockage objet parle aux applications ou aux utilisateurs dans différents protocoles tels que Swift ou HTTP.

Ces protocoles diffèrent du protocole de système de fichiers (SMB & NFS) car ils sont conçus pour le trafic web. Cela signifie que si vous pouvez migrer vos données vers un stockage objet, vos utilisateurs et vos applications ne peuvent plus travailler avec elles. Cela peut convenir pour des données anciennes que vous cherchez simplement à stocker pour des raisons d'archivage, mais c'est impossible pour les données utilisateur, c'est-à-dire les fichiers auxquels les gens accèdent activement et qu'ils modifient régulièrement.

Le problème de l'adoption du stockage objet est qu'elle oblige les entreprises à réécrire leurs applications pour communiquer dans le nouveau protocole. Cela peut prendre beaucoup de temps et représenter un coût prohibitif pour la plupart des entreprises. En fait, une institution financière qui envisageait de passer au stockage en nuage devait prendre en compte 2 800 applications existantes et s'attendre à une facture de plusieurs millions de dollars pour les réécrire.

Le meilleur du stockage local rencontre le meilleur du stockage en nuage

C'est là que le filer de nouvelle génération entre en jeu. Un filer défini par logiciel et conçu de A à Z pour fonctionner avec le stockage objet.

Si vous regardez comment Panzura a architecturé son système de fichiers global, il a surmonté les limites d'évolutivité des systèmes de fichiers traditionnels en convertissant de manière transparente tous les fichiers en objets pour qu'ils vivent dans un nuage public ou privé (object store).

Toutes les données sont ainsi disponibles pour être consommées partout où un autre filer Panzura accède au même magasin d'objets, ce qui signifie que les clients de Panzura peuvent réduire le coût total de possession lié à l'achat d'un plus grand nombre d'appliances matérielles, et supprimer la nécessité de rafraîchir le matériel tous les 5 à 7 ans.

Cette conception inédite brise les silos traditionnels de stockage et permet aux clients d'utiliser le stockage dans le cloud ou le stockage objet comme un lac de données de nouvelle génération, sans compromettre les performances. Cette approche vous donne la possibilité de générer des données sur des sites périphériques ou dans des centres de données, en exploitant vos données dans le cloud pour d'autres cas d'utilisation comme l'analyse, l'apprentissage automatique ou l'intelligence artificielle.

L'augmenter d'un cran

Aucune solution moderne de lac de données ou de système de fichiers ne serait complète sans une protection contre un fléau moderne : le ransomware.

Les systèmes de fichiers hérités sont conçus pour permettre la modification des fichiers. Ainsi, lorsqu'un acteur malveillant y pénètre, corrompt ou crypte vos données, le cryptage endommage les fichiers eux-mêmes.

Panzura utilise une nouvelle approche de la protection contre les ransomwares pour vos données en créant un système de fichiers immuable. Cela signifie qu'il ne permet pas la suppression ou l'écrasement des données. Au lieu de cela, vous pouvez seulement ajouter ou annexer des données à la version originale. Tout utilisateur peut restaurer son fichier au dernier état connu en quelques minutes, évitant ainsi le laborieux processus de restauration à partir d'un système de sauvegarde.

Shift the balance of power in the fight against ransomware.

Panzura-datasheet-Detect-and-rescue-header-min (1)

Stockage et gestion des données pour l'époque

Une nouvelle vision du lac de données suggère de tirer parti de l'ère des données - non seulement pour faire face au volume de données non structurées, mais aussi pour être en mesure de les exploiter de manière à faire progresser les organisations, il faut désormais la nouvelle génération de filer, capable de gérer les données de la prochaine génération.