Temps de lecture : 4 minutes

La gestion de volumes de données en croissance rapide n'est pas un problème nouveau. C'est un défi pour l'informatique depuis que l'informatique existe.

Pourtant, nous avons continué à traiter le problème de la même manière : en augmentant la capacité de stockage. D'abord avec des disques plus grands, puis avec des matrices plus denses, et enfin avec des clusters scale-out.

C'était peut-être la bonne solution dans le passé, mais nous ne pouvons plus nous permettre de traiter le problème de cette manière. Nous n'avons pas besoin de quelque chose de plus grand. Ce dont nous avons besoin, c'est de quelque chose de mieux.

La façon dont nous gérons la croissance du stockage doit changer, et ce changement est motivé par deux facteurs.

  1. La première est le rythme de croissance des données. La croissance des données a finalement atteint un point où il n'est plus possible de les gérer à l'aide du stockage traditionnel sur site. Les ensembles de données sont trop volumineux et leur croissance est trop rapide.
  2. Le deuxième facteur est la manière dont les différents types de données doivent être gérés.

C'est ce deuxième facteur que nous allons explorer dans ce blog.

La croissance des données pousse les charges de travail vers le nuage

Les volumes de données étant devenus ingérables pour le stockage sur site, les charges de travail des utilisateurs ont migré vers le cloud. Nous pouvons le constater partout dans l'adoption de ressources basées sur le cloud telles que Google Docs, Office 365, Gmail et d'autres applications similaires.

Ces charges de travail traditionnelles générées par l'utilisateur, telles que les documents, les graphiques et autres types de fichiers qui utilisent le protocole SMB pour transférer des données. Les charges de travail de ce type ont historiquement généré les volumes massifs de données que l'informatique doit gérer et ont été les premières à se déplacer vers le cloud.

Le visage de la croissance des données est en train de changer

Il existe des volumes croissants de données générées par les machines qui doivent également être gérées. Ces charges de travail utilisent le protocole NFS, au lieu de SMB, et comprennent des contenus tels que des fichiers journaux, des données IoT, des données Splunk, etc.

Selon des estimations courantes, les données générées par les machines augmentent à un rythme 50 fois supérieur à celui des données traditionnelles générées par les entreprises.

Pourtant, malgré la croissance rapide des données générées par les machines, ce type de données particulier n'a pas encore fait le saut vers le cloud comme l'ont fait les données des PME. Comment cela se fait-il ?

La réponse est simple : le déplacement des données vers le cloud s'est concentré sur les données générées par les utilisateurs, qui utilisent généralement le protocole SMB.

Pourquoi ne pas mettre les données NFS dans le nuage ?

Les données NFS n'ont pas été idéales pour le cloud en raison de l'interaction entre les deux besoins simples mais importants des utilisateurs :

  1. Lataille du stockage - un point fort du stockage en nuage traditionnel.
  2. Vitesse d'accès - une faiblesse du stockage en nuage traditionnel.

Les applications qui utilisent NFS pour les données générées par les machines, comme Hadoop ou Splunk, peuvent rapidement consommer des téraoctets, voire des pétaoctets de stockage.

Ces applications pilotées par NFS doivent ingérer ces données aussi rapidement que possible pour effectuer des analyses en temps réel sur ces grands ensembles de données. Pour obtenir les performances locales dont elles ont besoin, il faut généralement recourir à la mise en cache sur un stockage flash pour les performances, soutenu par une forme de NAS local pour la capacité.

Le problème ? La lecture des volumes massifs de données que ces applications requièrent à partir du nuage n'est tout simplement pas envisageable.

La latence inhérente aux lectures dans le nuage est tout simplement trop élevée. Ainsi, lorsque ces données sont transférées dans le nuage, elles sont davantage destinées à l'archivage à long terme qu'aux données actives.

Le défi actuel est que les entreprises sont inondées de données NFS sur lesquelles elles doivent agir. Les entreprises génèrent d'énormes ensembles de données qu'elles doivent stocker, auxquelles elles doivent accéder et sur lesquelles elles doivent effectuer des analyses pour en extraire des informations exploitables.

Il n'est tout simplement pas pratique de continuer à stocker ces énormes ensembles de données générées par des machines en utilisant le modèle traditionnel de stockage sur site. Les données augmentent trop rapidement, ce qui rend les coûts de stockage, de gestion et de sauvegarde de ces données trop élevés.

Le cloud hybride a fait des performances NFS une priorité

CloudFS est la première solution NAS en nuage hybride qui a été spécifiquement conçue pour offrir des performances exceptionnelles pour les charges de travail SMB et NFS dans l'entreprise.

En tant que leader en matière de performances NFS, CloudFS a été la première solution NAS pour nuages hybrides à concevoir un dispositif NVMe SLOG (Separate Intent Log) intégré.

  1. Le concept d'un SLOG est similaire à celui d'un cache d'écriture pour les données NFS (et il remplit certainement cette fonction), mais il fait plus que cela. Il améliore également l'intégrité des données, ce qui le rend à la fois rapide et efficace.
  2. En tirant parti de NVMe, CloudFS peut fournir les performances dont les entreprises ont besoin pour leur volume croissant de données générées par les machines.

Les avantages des performances NFS dans CloudFS ne se limitent pas au matériel. Les performances NFS ont également été maximisées dans les instances virtuelles.

En fait, les performances inégalées des charges de travail NFS et SMB constituent l'un des principaux objectifs du système de fichiers.

Le résultat ? CloudFS peut fournir des performances maximales sur le réseau. Chaque filer Panzura peut saturer entièrement 20 Gbps de bande passante réseau.

Pour être clair, contrairement à d'autres solutions, cela ne signifie pas que plusieurs instances CloudFS peuvent s'agréger à 20 Gbps ou qu'il s'agit d'un nombre maximal de rafales que vous pourriez voir sur votre réseau une fois. Une instance CloudFS individuelle peut saturer entièrement une connexion de 20 Gbps et maintenir ce niveau de performance.

En d'autres termes, vos applications profitent pleinement de la bande passante sans les goulets d'étranglement que l'on trouve dans les solutions de cloud computing traditionnelles.

Points à retenir sur le cloud hybride pour les données générées par les machines

En résumé, les applications qui consomment et traitent les vastes quantités de données générées par les machines qui sont créées ont besoin :

  1. Les performances du stockage local.
  2. Pour accéder à ces données en utilisant le protocole NFS.

Panzura utilise une mise en cache intelligente, un matériel de nouvelle génération et un logiciel avancé pour offrir des performances à la vitesse d'un réseau local tout en tirant parti des avantages de l'évolutivité et de la durabilité du nuage.

Les données dont ces applications ont besoin sont à la fois disponibles localement pour un accès rapide et stockées en toute sécurité dans le nuage comme une source unique de vérité.

1Il est désormais possible pour les grandes entreprises distribuées de stocker leurs grandes quantités de données IoT, de journaux de machines, d'images médicales 3D, de vidéos 4k et d'autres données générées par les machines dans le cloud. Simultanément, elles peuvent toujours atteindre les performances locales extrêmes qu'exigent des applications telles que Splunk et Hadoop.