tolerante a fallos
La tecnología tolerante a fallos es la capacidad de un sistema informático, un sistema electrónico o una red para ofrecer un servicio ininterrumpido, a pesar de que uno o más de sus componentes fallen. La tolerancia a fallos también resuelve posibles interrupciones del servicio relacionadas con errores lógicos o de software. El propósito es prevenir fallas catastróficas que podrían resultar de un solo punto de falla.
Tolerancia a errores de VMware vSphere 6 es una arquitectura de disponibilidad de datos continua de marca que replica exactamente una máquina virtual VMware en un host físico alternativo si el servidor host principal falla.
Los sistemas tolerantes a fallos están diseñados para compensar múltiples fallos. Estos sistemas detectan automáticamente un fallo de la unidad de procesador del ordenador, del subsistema de E/S, de las tarjetas de memoria, de la placa base, de la fuente de alimentación o de los componentes de red. Se identifica el punto de falla y un componente o procedimiento de copia de seguridad ocupa su lugar de inmediato sin pérdida de servicio.
Para garantizar la tolerancia a fallos, las empresas deben comprar un inventario de equipos informáticos formateados y un dispositivo secundario de suministro de energía ininterrumpida. El objetivo es evitar el bloqueo de sistemas y redes clave, centrándose en los problemas relacionados con el tiempo de actividad y el tiempo de inactividad. La tolerancia a fallos se puede proporcionar con software integrado en hardware, o mediante alguna combinación de los dos.
En una implementación de software, el sistema operativo (SO) proporciona una interfaz que permite a un programador comprobar datos críticos en puntos predeterminados dentro de una transacción. En una implementación de hardware (por ejemplo, con Stratus y su Sistema Operativo Virtual), el programador no necesita ser consciente de las capacidades tolerantes a fallos de la máquina.
A nivel de hardware, la tolerancia a fallos se logra duplicando cada componente de hardware. Los discos se duplican. Varios procesadores se bloquean juntos y sus salidas se comparan para determinar su corrección. Cuando se produce una anomalía, el componente defectuoso se determina y se retira del servicio, pero la máquina continúa funcionando como de costumbre.
tolerancia a Fallos vs la tolerancia a fallos de alta disponibilidad
está estrechamente asociada con el mantenimiento de la continuidad del negocio a través de redes y sistemas informáticos de alta disponibilidad. Los entornos tolerantes a fallos se definen como aquellos que restauran el servicio instantáneamente después de una interrupción del servicio, mientras que un entorno de alta disponibilidad se esfuerza por cinco nueves de servicio operativo.
En un clúster de alta disponibilidad, los conjuntos de servidores independientes se acoplan libremente para garantizar el intercambio de datos y recursos críticos en todo el sistema. Los clústeres supervisan el estado de los demás y proporcionan recuperación de fallos para garantizar que las aplicaciones permanezcan disponibles. Por el contrario, un clúster tolerante a fallos consta de varios sistemas físicos que comparten una sola copia del sistema operativo de un equipo. Los comandos de software emitidos por un sistema también se ejecutan en el otro sistema.
La compensación entre tolerancia a fallos y alta disponibilidad es el costo. Los sistemas con tolerancia a fallos integrada tienen un coste mayor debido a la inclusión de hardware adicional.
¿Qué es la degradación agraciada?
La tolerancia a fallos se usa a menudo como sinónimo de degradación agraciada, aunque esta última está más alineada con la disciplina más holística de gestión de fallos, que tiene como objetivo detectar, aislar y resolver problemas de forma preventiva. Un sistema tolerante a fallos se intercambia en los componentes de copia de seguridad para mantener altos niveles de disponibilidad y rendimiento del sistema. La degradación elegante permite que un sistema continúe las operaciones, aunque en un estado de rendimiento reducido.
Protección de datos y tolerancia a fallos coincidentes
La tolerancia a fallos depende de la redundancia. Es decir, la información está protegida de forma redundante a través de la replicación de datos o la duplicación sincrónica de volúmenes en un centro de datos externo. Para la redundancia física, el equipo de hardware adicional permanece en espera para la conmutación por error de los sistemas operativos.
La copia de seguridad de datos se combina con frecuencia con redundancia. Ambas estrategias están pensadas como una protección contra la pérdida de datos, aunque la copia de seguridad tiende a centrarse en la recuperación en un momento dado, incluida la recuperación granular de un objeto de datos discreto. Los sistemas redundantes están diseñados específicamente para cargas de trabajo de aplicaciones que toleran muy poco tiempo de inactividad.
Al implementar tolerancia a fallos, las empresas deben adaptar los requisitos de disponibilidad de datos al nivel adecuado de protección de datos con una matriz redundante de discos independientes (RAID). La técnica RAID garantiza que los datos se escriban en varios discos duros, tanto para equilibrar las operaciones de E / S como para mejorar el rendimiento general del sistema.
Las organizaciones que priorizan la tolerancia a errores por encima de la velocidad y el rendimiento se beneficiarían mejor con la duplicación de discos RAID 1 o RAID 10, que combina la duplicación de discos y la creación de bandas de discos. Si la tolerancia a fallos y el rendimiento del sistema son igualmente importantes, una empresa puede encontrar que vale la pena gastar un poco de dinero extra combinando RAID 10 con RAID 6, o RAID de doble paridad, que tolera la pérdida de dos fallos de disco antes de que se pierdan los datos. Aparte del costo más alto, el otro inconveniente es que las escrituras de datos se producen más lentamente en el conjunto RAID.
Aparte del hardware, una arquitectura tolerante a fallos debe coordinarse con copias de seguridad programadas regularmente de datos críticos, tal vez incluyendo una copia duplicada en una ubicación secundaria o alternativa. La seguridad debe formar parte de la planificación para evitar el acceso no autorizado y para aplicar herramientas antivirus y la versión más reciente del sistema operativo del sistema informático.
¿Qué industrias dependen de la tolerancia a fallos del sistema?
La tolerancia a fallos se refiere no solo a la consecuencia de tener equipos redundantes, sino también a la metodología de puesta a punto que los fabricantes de computadoras usan para diseñar y diseñar sus sistemas para la confiabilidad. La tolerancia a fallos es una especificación de diseño requerida para el equipo informático utilizado en los sistemas de procesamiento de transacciones en línea, como los sistemas de control de vuelos y reservas de aerolíneas. Los sistemas tolerantes a fallos también se utilizan ampliamente en sectores como la distribución y la logística, las centrales eléctricas, la fabricación pesada, los sistemas de control industrial y la venta al por menor.