tolérant aux pannes
La technologie tolérante aux pannes est une capacité d’un système informatique, d’un système électronique ou d’un réseau à fournir un service ininterrompu, malgré la défaillance d’un ou plusieurs de ses composants. La tolérance aux pannes résout également les interruptions de service potentielles liées à des erreurs logicielles ou logiques. Le but est de prévenir les défaillances catastrophiques qui pourraient résulter d’un seul point de défaillance.
VMware vSphere 6 Fault Tolerance est une architecture de disponibilité continue des données de marque qui réplique exactement une machine virtuelle VMware sur un autre hôte physique en cas de défaillance du serveur hôte principal.
Les systèmes tolérants aux pannes sont conçus pour compenser les pannes multiples. De tels systèmes détectent automatiquement une défaillance de l’unité de traitement de l’ordinateur, du sous-système d’E / S, des cartes mémoire, de la carte mère, de l’alimentation ou des composants du réseau. Le point de défaillance est identifié et un composant ou une procédure de sauvegarde prend immédiatement sa place sans perte de service.
Pour garantir la tolérance aux pannes, les entreprises doivent acheter un inventaire de matériel informatique formaté et un dispositif d’alimentation sans interruption secondaire. L’objectif est d’éviter le plantage des systèmes et réseaux clés, en se concentrant sur les problèmes liés à la disponibilité et aux temps d’arrêt. La tolérance aux pannes peut être fournie avec un logiciel intégré au matériel, ou par une combinaison des deux.
Dans une implémentation logicielle, le système d’exploitation (OS) fournit une interface qui permet à un programmeur de vérifier des données critiques à des points prédéterminés d’une transaction. Dans une implémentation matérielle (par exemple, avec Stratus et son système d’exploitation virtuel), le programmeur n’a pas besoin de connaître les capacités de tolérance aux pannes de la machine.
Au niveau matériel, la tolérance aux pannes est obtenue en duplexant chaque composant matériel. Les disques sont mis en miroir. Plusieurs processeurs sont verrouillés ensemble et leurs sorties sont comparées pour leur exactitude. Lorsqu’une anomalie survient, le composant défectueux est déterminé et mis hors service, mais la machine continue de fonctionner comme d’habitude.
Tolérance aux pannes vs. haute disponibilité
La tolérance aux pannes est étroitement associée au maintien de la continuité des activités via des systèmes informatiques et des réseaux hautement disponibles. Les environnements tolérants aux pannes sont définis comme ceux qui rétablissent le service instantanément après une panne de service, alors qu’un environnement à haute disponibilité vise cinq neuf services opérationnels.
Dans un cluster à haute disponibilité, des ensembles de serveurs indépendants sont couplés de manière lâche pour garantir le partage à l’échelle du système des données et des ressources critiques. Les clusters surveillent l’état de santé des autres et assurent la récupération des pannes pour s’assurer que les applications restent disponibles. Inversement, un cluster tolérant aux pannes se compose de plusieurs systèmes physiques qui partagent une seule copie du système d’exploitation d’un ordinateur. Les commandes logicielles émises par un système sont également exécutées sur l’autre système.
Le compromis entre la tolérance aux pannes et la haute disponibilité est le coût. Les systèmes avec tolérance aux pannes intégrée entraînent un coût plus élevé en raison de l’inclusion de matériel supplémentaire.
Qu’est-ce que la dégradation gracieuse ?
La tolérance aux pannes est souvent utilisée comme synonyme de dégradation gracieuse, bien que cette dernière soit plus alignée sur la discipline plus holistique de la gestion des pannes, qui vise à détecter, isoler et résoudre les problèmes de manière préventive. Un système tolérant aux pannes échange des composants de sauvegarde pour maintenir des niveaux élevés de disponibilité et de performances du système. La dégradation gracieuse permet à un système de continuer à fonctionner, bien que dans un état de performance réduit.
L’adéquation de la protection des données et de la tolérance aux pannes
La tolérance aux pannes dépend de la redondance. À savoir, les informations sont protégées de manière redondante via la réplication des données ou la mise en miroir synchrone des volumes vers un centre de données hors site. Pour la redondance physique, l’équipement matériel supplémentaire reste en veille pour le basculement des systèmes opérationnels.
La sauvegarde des données est fréquemment associée à la redondance. Les deux stratégies sont conçues comme une protection contre la perte de données, bien que la sauvegarde ait tendance à se concentrer sur la récupération ponctuelle, y compris la récupération granulaire d’un objet de données discret. Les systèmes redondants sont conçus spécifiquement pour les charges de travail applicatives qui tolèrent très peu de temps d’arrêt.
Lors de la mise en œuvre de la tolérance aux pannes, les entreprises doivent adapter les exigences de disponibilité des données au niveau approprié de protection des données avec un réseau redondant de disques indépendants (RAID). La technique RAID garantit que les données sont écrites sur plusieurs disques durs, à la fois pour équilibrer les opérations d’E / S et pour améliorer les performances globales du système.
Les organisations qui privilégient la tolérance aux pannes au-dessus de la vitesse et des performances seraient mieux desservies par la mise en miroir de disque RAID 1 ou RAID 10, qui combine la mise en miroir de disque et l’entrelacement de disque. Si la tolérance aux pannes et les performances du système sont tout aussi importantes, une entreprise peut trouver utile de dépenser un peu d’argent supplémentaire en combinant RAID 10 avec RAID 6, ou RAID à double parité, ce qui tolère la perte de deux pannes de disque avant la perte de données. Outre un coût plus élevé, l’autre inconvénient est que les écritures de données se produisent plus lentement sur l’ensemble RAID.
En dehors du matériel, une architecture tolérante aux pannes doit être coordonnée avec des sauvegardes régulières des données critiques, y compris peut-être une copie en miroir à un emplacement secondaire ou alternatif. La sécurité doit faire partie de la planification pour empêcher les accès non autorisés et appliquer des outils antivirus et la version la plus récente du système d’exploitation du système informatique.
Quelles industries dépendent de la tolérance aux pannes du système ?
La tolérance aux pannes se réfère non seulement à la conséquence d’avoir des équipements redondants, mais aussi à la méthodologie de base utilisée par les fabricants d’ordinateurs pour concevoir et concevoir leurs systèmes pour la fiabilité. La tolérance aux pannes est une spécification de conception requise pour le matériel informatique utilisé dans les systèmes de traitement des transactions en ligne, tels que les systèmes de contrôle de vol et de réservation des compagnies aériennes. Les systèmes tolérants aux pannes sont également largement utilisés dans des secteurs tels que la distribution et la logistique, les centrales électriques, la fabrication lourde, les systèmes de contrôle industriels et la vente au détail.