Articles

fault-tolerant

La tecnologia fault-tolerant è una capacità di un sistema informatico, di un sistema elettronico o di una rete di fornire un servizio ininterrotto, nonostante uno o più dei suoi componenti non funzionino. La tolleranza ai guasti risolve anche potenziali interruzioni del servizio legate a errori software o logici. Lo scopo è prevenire guasti catastrofici che potrebbero derivare da un singolo punto di guasto.

VMware vSphere 6 Fault Tolerance è un’architettura di disponibilità continua dei dati che replica esattamente una macchina virtuale VMware su un host fisico alternativo in caso di guasto del server host principale.

I sistemi fault-tolerant sono progettati per compensare più guasti. Tali sistemi rilevano automaticamente un guasto dell’unità processore del computer, sottosistema I / O, schede di memoria, scheda madre, alimentazione o componenti di rete. Il punto di errore viene identificato e un componente di backup o una procedura prende immediatamente il suo posto senza perdita di servizio.

Per garantire la tolleranza ai guasti, le imprese devono acquistare un inventario di apparecchiature informatiche formattate e un dispositivo di continuità secondario. L’obiettivo è quello di prevenire il crash di sistemi e reti chiave, concentrandosi su questioni relative a uptime e downtime. La tolleranza ai guasti può essere fornita con software incorporato nell’hardware o da una combinazione dei due.

In un’implementazione software, il sistema operativo (OS) fornisce un’interfaccia che consente a un programmatore di controllare i dati critici in punti predeterminati all’interno di una transazione. In un’implementazione hardware (ad esempio, con Stratus e il suo sistema operativo virtuale), il programmatore non deve essere a conoscenza delle capacità di tolleranza ai guasti della macchina.

A livello hardware, la tolleranza ai guasti si ottiene duplicando ogni componente hardware. I dischi sono speculari. Più processori vengono bloccati insieme e le loro uscite vengono confrontate per correttezza. Quando si verifica un’anomalia, il componente difettoso viene determinato e messo fuori servizio, ma la macchina continua a funzionare come al solito.

Tolleranza ai guasti vs. alta disponibilità

La tolleranza ai guasti è strettamente associata al mantenimento della continuità aziendale tramite sistemi e reti di computer altamente disponibili. Gli ambienti fault-tolerant sono definiti come quelli che ripristinano il servizio istantaneamente a seguito di un’interruzione del servizio, mentre un ambiente ad alta disponibilità si impegna per cinque nove di servizio operativo.

In un cluster ad alta disponibilità, set di server indipendenti sono accoppiati liberamente per garantire la condivisione a livello di sistema di dati e risorse critiche. I cluster monitorano la salute degli altri e forniscono il recupero dei guasti per garantire che le applicazioni rimangano disponibili. Al contrario, un cluster fault-tolerant è costituito da più sistemi fisici che condividono una singola copia del sistema operativo di un computer. I comandi software emessi da un sistema vengono eseguiti anche sull’altro sistema.

Il compromesso tra tolleranza ai guasti e alta disponibilità è il costo. I sistemi con tolleranza di errore integrata comportano un costo maggiore a causa dell’inclusione di hardware aggiuntivo.

Che cos’è il degrado aggraziato?

La tolleranza ai guasti è spesso usata come sinonimo di degradazione aggraziata, sebbene quest’ultima sia più allineata con la disciplina più olistica della gestione dei guasti, che mira a rilevare, isolare e risolvere preventivamente i problemi. Un sistema fault-tolerant sostituisce i componenti di backup per mantenere alti livelli di disponibilità e prestazioni del sistema. Il degrado aggraziato consente a un sistema di continuare le operazioni, anche se in uno stato di prestazioni ridotto.

La protezione dei dati e la tolleranza ai guasti

La tolleranza ai guasti dipende dalla ridondanza. In particolare, le informazioni sono protette in modo ridondante tramite la replica dei dati o il mirroring sincrono dei volumi in un data center off-site. Per la ridondanza fisica, l’hardware aggiuntivo rimane in standby per il failover dei sistemi operativi.

Il backup dei dati viene spesso combinato con la ridondanza. Entrambe le strategie sono intese come una salvaguardia contro la perdita di dati, anche se il backup tende a concentrarsi sul ripristino point-in-time, incluso il ripristino granulare di un oggetto dati discreto. I sistemi ridondanti sono progettati specificamente per carichi di lavoro applicativi che tollerano tempi di inattività molto ridotti.

Quando si implementa la tolleranza ai guasti, le aziende devono abbinare i requisiti di disponibilità dei dati al livello appropriato di protezione dei dati con array ridondante di dischi indipendenti (RAID). La tecnica RAID assicura che i dati vengano scritti su più dischi rigidi, sia per bilanciare le operazioni di I/O che per aumentare le prestazioni complessive del sistema.

Le organizzazioni che danno la priorità alla tolleranza ai guasti al di sopra della velocità e delle prestazioni sarebbero meglio servite da RAID 1 disk mirroring o RAID 10, che combina il mirroring del disco e lo striping del disco. Se la tolleranza ai guasti e le prestazioni del sistema sono ugualmente importanti, un’azienda potrebbe trovare utile spendere un po ‘ di soldi in più combinando RAID 10 con RAID 6, o RAID a doppia parità, che tollera la perdita di due errori del disco prima che i dati vengano persi. A parte il costo più elevato, l’altro inconveniente è che le scritture dei dati si verificano più lentamente nel set RAID.

A parte l’hardware, un’architettura fault-tolerant dovrebbe essere coordinata con backup regolarmente pianificati di dati critici, magari includendo una copia speculare in una posizione secondaria o alternativa. La sicurezza deve essere parte della pianificazione per impedire l’accesso non autorizzato e per applicare strumenti antivirus e la versione più recente del sistema operativo del sistema informatico.

Quali industrie dipendono dalla tolleranza ai guasti del sistema?

La tolleranza ai guasti si riferisce non solo alla conseguenza di avere apparecchiature ridondanti, ma anche alla metodologia di base che i produttori di computer utilizzano per progettare e progettare i loro sistemi per l’affidabilità. La tolleranza ai guasti è una specifica di progettazione richiesta per le apparecchiature informatiche utilizzate nei sistemi di elaborazione delle transazioni online, come i sistemi di controllo dei voli e di prenotazione delle compagnie aeree. I sistemi fault-tolerant sono anche ampiamente utilizzati in settori come la distribuzione e la logistica, le centrali elettriche, la produzione pesante, i sistemi di controllo industriale e la vendita al dettaglio.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *