Tiempo de lectura: 4 minutos

Estos tres principios de la Alta Disponibilidad (HA) describen su valor y finalidad en cualquier red.

  1. Eliminación depuntos únicos de fallo. Añadir o crear redundancia en el sistema para que el fallo de un componente no suponga el fallo de todo el sistema.
  2. Conmutación por error fiable. Garantizar que el punto de cruce no sea en sí mismo un único punto de fallo.
  3. Detección de fallos a medida que se producen. Si se respetan los dos primeros principios, es posible que el usuario nunca vea un fallo.

La alta disponibilidad está diseñada para ser un seguro contra fallos de infraestructura y problemas operativos en la nube y, dependiendo de su situación, puede ser una característica importante para el acceso sin restricciones de su organización a los archivos. Pero no todos los sistemas de archivos en la nube ofrecen HA, afirmando en su lugar que las reconstrucciones de nodos pueden llevarse a cabo en 20 a 60 minutos. Nosotros decimos: qué lío, y qué insuficiente para el ritmo actual de los negocios, sobre todo si su trabajo es velar por la resistencia de los datos, la seguridad y la rapidez de acceso. ¿Cómo se va a sentir al tener que informar de que se han perdido datos o de que no se podrá acceder a ellos durante horas o días porque se ha caído un servidor?

Por el contrario, considere las siguientes capacidades de HA para el tiempo de actividad local y global.

Cómo funciona Panzura CloudFS HA

Con Panzura, por cada 25 terabytes de archivo global de lectura/escritura, se obtienen 5 licencias de nodo (archivador) con la posibilidad de elegir cómo se configura cada uno: (1) lectura/escritura activa, (2) espera de sitio local o (3) espera global.

Activo Lectura/Escritura

Los nodos primarios permiten almacenar, editar y compartir datos con independencia de dónde estén almacenados físicamente. Una seguridad robusta, que incluye encriptación, controles de acceso y autenticación, protege los datos sensibles de accesos no autorizados. Y el control de versiones permite a los usuarios hacer un seguimiento de los cambios y recuperar versiones anteriores de los archivos.

HA local

Situado en el mismo centro de datos, campus o región que un nodo primario, un nodo de HA local de CloudFS garantiza la conmutación por error automática en caso de que falle el nodo primario. No es necesaria la intervención humana ni el redireccionamiento del tráfico para la conmutación por error. La HA local permite esta conmutación sin interrupciones porque mantiene toda la actividad: todos los archivos, metadatos y bloqueos de archivos.

Es posible que desee un nodo de HA local para un sitio concurrido con cientos o miles de usuarios que acceden a los archivos desde el primario activo.

Si el servidor local se cae, el nodo CloudFS habrá conservado su perfil de red, los datos almacenados en caché del sitio y los bloqueos de archivos. Cuando el servidor vuelva a funcionar, el nodo también reconocerá que ya no es el primario. Puede empezar a funcionar como el nuevo HA en espera, o puede volver a su papel original. En otras palabras, el failover y el failback entre un primario local y un standby de HA es automático, fluido y rápido.

Sin embargo, con Panzura CloudFS, hay un truco más en la manga: El DFS-Namespace. DFS-N es un rol de servicio en Windows Server que te permite agrupar carpetas compartidas en múltiples servidores en uno o más espacios de nombres lógicamente estructurados. Esto proporciona a los usuarios una vista virtual y acceso a las carpetas compartidas en varios servidores.

Esto significa que si Nueva York y Austin comparten un espacio de nombres, y la nube de Nueva York o el nodo Panzura se caen, los usuarios de Nueva York pueden seguir viendo y abriendo sus archivos tanto si este sitio tiene un nodo de HA como si no.

HA global

Un nodo de HA global admite todos y cada uno de los nodos y puede estar situado en cualquier lugar de la red. Hasta que entra en servicio, un nodo de reserva global mantiene todos los metadatos de la red, y sólo los metadatos. Este diseño lo prepara para comenzar a dar soporte a toda la red en caso necesario. Si todos los demás nodos fallan, un HA global puede seguir atendiendo todas las necesidades de acceso a archivos.

Para explicar mejor el funcionamiento de la red, supongamos que uno o varios nodos locales fallan y se determina que es necesaria una conmutación por error. Un administrador de red realiza un proceso de 2 pasos:

  1. Ajusta una configuración para que el nodo de HA global asuma la(s) imagen(es) completa(s) y la(s) identidad(es) de los nodos afectados. A continuación, todos los bloqueos de archivos migran y la HA global asume la propiedad de todos los archivos que la(s) máquina(s) caída(s) poseía(n). Los usuarios podrán conectarse y empezar a trabajar.
  2. Cambia la configuración de red DNS para que el tráfico fluya hacia el standby global.

Rendimiento del sistema de archivos en la nube, experiencia del usuario y su trabajo

Lo esencial de la HA es que se preserva la continuidad del negocio. Aunque su red tenga 100 nodos y 99 de ellos fallen, con una HA global todos los usuarios podrán seguir accediendo a sus datos. Esto es posible gracias a los tiempos de acceso y a la velocidad de la red.

Recuerde que cuando se produce el cambio por primera vez, el nodo de HA global sólo tiene los metadatos, no los datos almacenados en caché. Sin embargo, gracias a la arquitectura única del sistema de archivos y a su rendimiento superior, esto no supone ningún problema.

Supongamos que un sitio que da servicio a 800 usuarios tiene 10 archivos en los que están trabajando cada uno. Sin embargo, no todos los 800 usuarios accederán a todos sus archivos al mismo tiempo. De hecho, puede que sólo 100 usuarios necesiten acceder a 4 ó 5 de sus archivos a la vez, por lo que sólo 500 archivos necesitarán ser servidos simultáneamente, no 8.000. Después de una conmutación por error a una HA global, la experiencia del usuario será algo parecido a esto:

Un usuario hace clic en uno de sus archivos abiertos; parece que ha perdido la conexión. Hacen doble clic para abrirlo. Debido a la velocidad de la red CloudFS, ese archivo tardará sólo unos segundos en descargarse y presentarse.

Cuánto mejor es esta experiencia que tener que informar de que se han perdido datos o de que acceder a archivos importantes puede llevar días.