Tiempo de lectura: 4 minutos

La gestión de volúmenes de datos en rápido crecimiento no es un problema nuevo. Ha sido un reto para las TI desde que existen las TI.

Sin embargo, hemos seguido abordando el problema de la misma manera: aumentando el tamaño del almacenamiento. Primero con discos más grandes, luego con matrices más densas y, por último, con clústeres escalables.

Puede que esa haya sido la solución correcta en el pasado, pero ya no podemos permitirnos tratar el problema de esa manera. No necesitamos algo más grande. Lo que necesitamos es algo mejor.

La forma de gestionar el crecimiento del almacenamiento tiene que cambiar, y ese cambio está siendo impulsado por dos factores.

  1. El primero es el ritmo de crecimiento de los datos. El crecimiento de los datos ha llegado finalmente a un punto en el que su gestión mediante el almacenamiento tradicional en las instalaciones ya no es práctica. Los conjuntos de datos son demasiado grandes y crecen demasiado rápido.
  2. El segundo factor es la gestión de los distintos tipos de datos.

Es ese segundo factor el que exploraremos en este blog.

El crecimiento de los datos impulsa las cargas de trabajo hacia la nube

A medida que los volúmenes de datos se han vuelto inmanejables para el almacenamiento local, las cargas de trabajo de los usuarios han migrado a la nube. Podemos ver esto en todas partes en la adopción de recursos basados en la nube como Google Docs, Office 365, Gmail y aplicaciones similares.

Estas cargas de trabajo tradicionales generadas por el usuario, como documentos, gráficos y otros tipos de archivos que utilizan el protocolo SMB para transferir datos. Estas cargas de trabajo han generado históricamente los volúmenes masivos de datos que el departamento de TI tiene que gestionar y han sido las primeras en trasladarse a la nube.

La cara del crecimiento de los datos está cambiando

Cada vez hay más volúmenes de datos generados por las máquinas que también hay que gestionar. Estas cargas de trabajo utilizan el protocolo NFS, en lugar de SMB, e incluyen contenidos como archivos de registro, datos de IoT, datos de Splunk, etc.

Se estima que los datos generados por las máquinas están creciendo a un ritmo 50 veces superior al de los datos tradicionales generados por las empresas.

Sin embargo, a pesar del rápido crecimiento de los datos generados por las máquinas, este tipo de datos todavía no ha dado el salto a la nube de la misma manera que los datos de las PYME. ¿A qué se debe esto?

La respuesta es sencilla: el enfoque del movimiento de datos a la nube se ha centrado en los datos generados por los usuarios, que suelen utilizar el protocolo SMB.

¿Por qué no poner los datos NFS en la nube?

Los datos NFS no han sido ideales para la nube debido a la interacción entre las dos necesidades simples pero significativas de los usuarios:

  1. Tamaño del almacenamiento: un punto fuerte del almacenamiento tradicional en la nube.
  2. Velocidad de acceso: un punto débil del almacenamiento tradicional en la nube.

Las aplicaciones que utilizan NFS para los datos generados por las máquinas, como Hadoop o Splunk, pueden consumir rápidamente terabytes o incluso petabytes de almacenamiento.

Estas aplicaciones impulsadas por NFS necesitan ingerir esos datos lo más rápidamente posible para realizar análisis en tiempo real sobre esos grandes conjuntos de datos. Para obtener el rendimiento local que necesitan, normalmente se ha tenido que almacenar en caché en el almacenamiento flash para el rendimiento, respaldado por algún tipo de NAS local para la capacidad.

¿El problema? La lectura de los enormes volúmenes de datos que requieren estas aplicaciones desde la nube simplemente no es una opción.

La latencia inherente a las lecturas en la nube es simplemente demasiado alta. Así que cuando estos datos van a la nube, es más para el archivo a largo plazo que para los datos activos.

El reto actual es que las empresas están inundadas de datos NFS sobre los que necesitan actuar. Las empresas están generando enormes conjuntos de datos que necesitan almacenar, acceder y analizar para extraer información útil.

Seguir almacenando estos conjuntos de datos masivos generados por las máquinas utilizando el modelo tradicional de almacenamiento en las instalaciones no es práctico. Los datos crecen con demasiada rapidez, lo que hace que los costes de almacenamiento, gestión y copia de seguridad de esos datos sean demasiado caros.

La nube híbrida ha convertido el rendimiento de NFS en una prioridad

CloudFS es la primera solución NAS de nube híbrida que ha sido específicamente diseñada para ofrecer un rendimiento excepcional tanto para cargas de trabajo SMB como NFS en la empresa.

Como líder en rendimiento NFS, CloudFS fue la primera solución NAS de nube híbrida en diseñar un dispositivo NVMe Separate Intent Log (SLOG) integrado.

  1. Un SLOG es similar en concepto a una caché de escritura para datos NFS (y ciertamente realiza esa función), pero hace más que eso. También mejora la integridad de los datos, por lo que es rápido y eficiente.
  2. Al aprovechar NVMe, CloudFS puede ofrecer el rendimiento que las empresas necesitan para su creciente volumen de datos generados por máquinas.

Las ventajas del rendimiento de NFS en CloudFS no se limitan al hardware. El rendimiento de NFS se ha maximizado también en las instancias virtuales.

De hecho, el rendimiento inigualable de las cargas de trabajo NFS y SMB es un objetivo primordial del sistema de archivos.

¿El resultado? CloudFS puede ofrecer el máximo rendimiento en la red. Cada archivador de Panzura puede saturar completamente 20 Gbps de ancho de banda de red.

Para que quede claro, a diferencia de otras soluciones, esto no significa que varias instancias de CloudFS puedan sumar 20Gbps o que sea un número máximo de ráfagas que pueda ver en su red una vez. Una instancia individual de CloudFS puede saturar completamente una conexión de 20Gbps y mantener ese nivel de rendimiento.

En otras palabras, sus aplicaciones aprovechan al máximo el ancho de banda sin los cuellos de botella que encontraría en las soluciones tradicionales en la nube.

Conclusiones sobre la nube híbrida para los datos generados por máquinas

En resumen, las aplicaciones que consumen y procesan las enormes cantidades de datos generados por las máquinas que se están creando necesitan:

  1. El rendimiento del almacenamiento local.
  2. Para acceder a esos datos mediante el protocolo NFS.

Panzura utiliza el almacenamiento en caché inteligente, el hardware de última generación y el software avanzado para ofrecer un rendimiento a velocidad de LAN al tiempo que aprovecha las ventajas de escalabilidad y durabilidad de la nube.

Los datos que estas aplicaciones necesitan están disponibles localmente para un acceso rápido y se almacenan de forma segura en la nube como una única fuente de verdad.

1Ahora es posible que las grandes empresas distribuidas almacenen en la nube sus enormes cantidades de datos de IoT, registros de máquinas, imágenes médicas en 3D, vídeos en 4k y otros datos generados por máquinas. Simultáneamente, pueden seguir alcanzando el rendimiento local extremo que exigen aplicaciones como Splunk y Hadoop.