tolerant la erori
Tehnologia tolerantă la erori este capacitatea unui sistem informatic, a unui sistem electronic sau a unei rețele de a furniza servicii neîntrerupte, în ciuda faptului că una sau mai multe dintre componentele sale nu reușesc. Toleranța la erori rezolvă, de asemenea, potențialele întreruperi ale serviciului legate de software sau erori logice. Scopul este de a preveni eșecul catastrofal care ar putea rezulta dintr-un singur punct de eșec.
VMware vSphere 6 toleranță la erori este o arhitectură de marcă, disponibilitate continuă a datelor, care reproduce exact o mașină virtuală VMware pe o gazdă fizică alternativă dacă serverul gazdă principal eșuează.
sistemele tolerante la erori sunt concepute pentru a compensa defecțiunile multiple. Astfel de sisteme detectează automat o defecțiune a unității procesorului computerului, a subsistemului I/O, a cardurilor de memorie, a plăcii de bază, a sursei de alimentare sau a componentelor rețelei. Punctul de eșec este identificat și o componentă sau o procedură de rezervă își ia imediat locul fără pierderi de serviciu.
pentru a asigura toleranța la erori, întreprinderile trebuie să achiziționeze un inventar al echipamentelor informatice formatate și un dispozitiv secundar de alimentare neîntreruptibilă. Scopul este de a preveni prăbușirea sistemelor și rețelelor cheie, concentrându-se pe probleme legate de uptime și downtime. Toleranța la erori poate fi furnizată cu software încorporat în hardware sau printr-o combinație a celor două.
într-o implementare software, Sistemul de operare (OS) oferă o interfață care permite unui programator să verifice datele critice în puncte predeterminate din cadrul unei tranzacții. Într-o implementare hardware (de exemplu, cu Stratus și sistemul său de operare Virtual), programatorul nu trebuie să fie conștient de capacitățile tolerante la erori ale mașinii.
la nivel hardware, toleranța la erori se realizează prin duplexarea fiecărei componente hardware. Discurile sunt oglindite. Mai multe procesoare sunt locksteped împreună și ieșirile lor sunt comparate pentru corectitudine. Când apare o anomalie, componenta defectă este determinată și scoasă din funcțiune, dar mașina continuă să funcționeze ca de obicei.
toleranță la erori vs. disponibilitatea ridicată
toleranța la erori este strâns asociată cu menținerea continuității afacerii prin intermediul sistemelor și rețelelor informatice extrem de disponibile. Mediile tolerante la erori sunt definite ca cele care restaurează serviciul instantaneu în urma unei întreruperi a serviciului, în timp ce un mediu cu disponibilitate ridicată se străduiește pentru cinci nouari de servicii operaționale.
într-un cluster cu disponibilitate ridicată, seturile de servere independente sunt cuplate vag pentru a garanta partajarea la nivel de sistem a datelor și resurselor critice. Clusterele își monitorizează reciproc starea de sănătate și asigură recuperarea defecțiunilor pentru a se asigura că aplicațiile rămân disponibile. În schimb, un cluster tolerant la erori constă din mai multe sisteme fizice care împărtășesc o singură copie a sistemului de operare al unui computer. Comenzile Software emise de un sistem sunt, de asemenea, executate pe celălalt sistem.
compromisul dintre toleranța la erori și disponibilitatea ridicată este costul. Sistemele cu toleranță integrată la erori suportă un cost mai mare datorită includerii de hardware suplimentar.
ce este degradarea grațioasă?
toleranța la erori este adesea folosită sinonim cu degradarea grațioasă, deși aceasta din urmă este mai aliniată cu disciplina mai holistică a gestionării erorilor, care are ca scop detectarea, izolarea și rezolvarea problemelor în mod preventiv. Un sistem tolerant la erori schimbă în componenta de rezervă pentru a menține niveluri ridicate de disponibilitate și performanță a sistemului. Degradarea grațioasă permite unui sistem să continue operațiunile, deși într-o stare de performanță redusă.
potrivirea Protecției Datelor cu toleranța la erori
toleranța la erori depinde de redundanță. Și anume, informațiile sunt protejate redundant prin replicarea datelor sau oglindirea sincronă a volumelor către un centru de date off-site. Pentru redundanță fizică, echipamentele hardware suplimentare rămân în așteptare pentru eșecul sistemelor operaționale.
backup de date este frecvent combinat cu redundanță. Ambele strategii sunt concepute ca o protecție împotriva pierderii de date, deși backup-ul tinde să se concentreze pe recuperarea punctuală, inclusiv recuperarea granulară a unui obiect de date discret. Sistemele redundante sunt proiectate special pentru sarcini de lucru ale aplicațiilor care tolerează foarte puțin timp de nefuncționare.
la implementarea toleranței la erori, întreprinderile ar trebui să corespundă cerințelor de disponibilitate a datelor la nivelul adecvat de protecție a datelor cu matrice redundantă de discuri independente (RAID). Tehnica RAID asigură că datele sunt scrise pe mai multe hard disk-uri, atât pentru a echilibra operațiunile I/O, cât și pentru a spori performanța generală a sistemului.
organizațiile care acordă prioritate toleranței la erori peste viteză și performanță ar fi cel mai bine deservite de oglindirea discului RAID 1 sau RAID 10, care combină oglindirea discului și striparea discului. Dacă toleranța la erori și performanța sistemului sunt la fel de importante, o întreprindere poate considera că merită să cheltuiască câțiva bani în plus combinând RAID 10 cu RAID 6 sau RAID cu dublă paritate, care tolerează pierderea a două defecțiuni ale discului înainte de pierderea datelor. În afară de costul mai mare, celălalt dezavantaj este că datele scrise apar mai lent la setul RAID.
în afară de hardware, o arhitectură tolerantă la erori ar trebui să fie coordonată cu copii de rezervă programate în mod regulat ale datelor critice, incluzând poate o copie oglindită într-o locație secundară sau alternativă. Securitatea trebuie să facă parte din planificarea pentru a preveni accesul neautorizat și pentru a aplica instrumente antivirus și cea mai recentă versiune a sistemului de operare al sistemului de calcul.
ce industrii depind de toleranța la erori a sistemului?
toleranța la erori se referă nu numai la consecința de a avea echipamente redundante, ci și la metodologia de bază pe care producătorii de computere o folosesc pentru a-și proiecta și proiecta sistemele pentru fiabilitate. Toleranța la erori este o specificație de proiectare necesară pentru echipamentele informatice utilizate în sistemele de procesare a tranzacțiilor online, cum ar fi sistemele de control al zborului și rezervări ale companiilor aeriene. Sistemele tolerante la erori sunt, de asemenea, utilizate pe scară largă în sectoare precum distribuția și logistica, centralele electrice, producția grea, sistemele de control industrial și comerțul cu amănuntul.