如何有(yǒu)效地管理(lǐ)不可(kě)避免的IT中斷. 2019-05-22
過去的幾個(gè)月中,發生(shēng)了一些(xiē)重大(dà)的IT故障事件:富國銀行(xíng)的業務停止運營長達一天導緻客戶無法訪問他們的賬戶;芝加哥(gē)鐵(tiě)路公司故障導緻60000名乘客滞留;以及由于Gmail和(hé)Google Docs發生(shēng)故障而導緻全球各地用戶無法訪問和(hé)使用這些(xiē)産品。此外,今年2月VFEmail.net遭遇黑(hēi)客攻擊,導緻所有(yǒu)客戶端數(shù)據(包括備份)完全丢失。
制(zhì)定計(jì)劃
這些(xiē)事件和(hé)類似的IT問題為(wèi)人(rén)們提供了兩個(gè)重要的信息:
- IT中斷可(kě)能發生(shēng)在任何人(rén)身上(shàng)。
- 下一次IT中斷造成的損害程度取決于現在的準備情況。
值得(de)注意的是,超過60%的IT中斷或“災難事件”都是由人(rén)為(wèi)錯誤引起的。那(nà)麽,企業如何才能最大(dà)限度地減少(shǎo)下一次IT中斷對其收入、聲譽和(hé)客戶造成的損害?
首先,确保企業有(yǒu)一個(gè)業務連續性計(jì)劃(BCP),其中包括災難恢複計(jì)劃(概述企業将如何處理(lǐ)IT事務)以及保持業務其餘部分的計(jì)劃(例如,如果關鍵渠道(dào)是确保關鍵人(rén)員知道(dào)發生(shēng)了什麽、會(huì)面地點、定義指揮鏈等等)。
在這裏将概述在IT方面取得(de)成效的四個(gè)關鍵步驟:
1. 定義潛在的災難情景
對于大(dà)多(duō)數(shù)企業而言,主要有(yǒu)兩種IT災難場(chǎng)景:
- 系統中斷,網絡或應用程序的某些(xiē)關鍵部分出現故障,企業或其服務在一段時(shí)間(jiān)內(nèi)處于“脫機”狀态。這通(tōng)常是一個(gè)相對簡單的恢複點,因為(wèi)企業重新上(shàng)線運營,受停機影(yǐng)響的事務最少(shǎo)。
- 數(shù)據丢失,企業丢失信息、內(nèi)容或數(shù)據(企業自己或其客戶)。并不總是可(kě)以從數(shù)據丢失中恢複,例如在VFEmail.net的黑(hēi)客攻擊事件中,删除了其所有(yǒu)備份副本。
确保企業為(wèi)災難做(zuò)好準備的第一步是了解這些(xiē)常見類型的中斷的風險狀況:例如,系統中斷會(huì)影(yǐng)響哪些(xiē)功能?這些(xiē)功能對企業的業務有(yǒu)多(duō)重要?中斷是否會(huì)導緻數(shù)據丢失?還(hái)有(yǒu)哪些(xiē)其他事件會(huì)導緻數(shù)據丢失?等等。
此外還(hái)要記住,人(rén)為(wèi)錯誤将是造成這兩種災難的最常見原因(如在芝加哥(gē)鐵(tiě)路公司的停機事件中,一名工人(rén)在更新服務器(qì)期間(jiān)摔倒在電(diàn)路闆上(shàng))。
2. 評估對企業的業務可(kě)能造成的損害
這是IT部門(mén)和(hé)其他領導共同完成的工作(zuò)。企業的目标是了解如果單個(gè)數(shù)據塊出現故障或各種類型的數(shù)據丢失,其業務将受到的影(yǐng)響。
在這些(xiē)對話(huà)中,目的是了解業務關鍵型應用程序之間(jiān)的依賴關系(例如,企業知道(dào)需要激活支付處理(lǐ)應用程序,但(dàn)它是否取決于庫存應用程序的功能?)闡明(míng)停機對用戶的影(yǐng)響,并評估每分鍾停機對企業的業務的财務影(yǐng)響。
以下是衡量的标準:
- RTO(恢複時(shí)間(jiān)目标),定義企業的業務可(kě)以在業務中斷之後多(duō)長時(shí)間(jiān)而不會(huì)造成嚴重損害。企業的災難恢複計(jì)劃應概述通(tōng)過企業定義的RTO(恢複時(shí)間(jiān)目标)恢複業務運營的策略。
- RPO(恢複點目标),定義數(shù)據備份之間(jiān)的時(shí)間(jiān)長度,而不會(huì)顯著損害企業和(hé)業務運營。企業的業務中斷分析将定義企業的RPO(恢複點目标)。因此,如果企業的災難恢複計(jì)劃要求從上(shàng)次已知備份中恢複數(shù)據,則RPO(恢複點目标)會(huì)定義該備份可(kě)接受的時(shí)間(jiān)。
如果企業想再采取其他步驟,請(qǐng)确保評估中包含對停機時(shí)間(jiān)可(kě)能造成聲譽損害的評估。這很(hěn)難計(jì)算(suàn),但(dàn)它可(kě)以成為(wèi)決策過程中的一個(gè)有(yǒu)價值的組成部分。
3. 查看當前的災難恢複計(jì)劃
一旦企業了解了自己可(kě)以合理(lǐ)承擔的停機時(shí)間(jiān),請(qǐng)查看其當前的災難恢複計(jì)劃。如果像大(dà)多(duō)數(shù)企業一樣擁有(yǒu)一個(gè)災難恢複計(jì)劃,但(dàn)是沒有(yǒu)努力去更新或者定期測試它,那(nà)麽現在是時(shí)候改變了。
在查看災難恢複計(jì)劃時(shí),請(qǐng)考慮以下事項:
- 它是否反映了企業當前業務的現實情況,包括企業之前的對話(huà)中闡述的業務關鍵型應用的計(jì)劃?如果沒有(yǒu),就需要更新它。
- 規模合适嗎?IT團隊非常擅長提出創造性的災難恢複方法。這部分是因為(wèi)這些(xiē)系統是他們創建的,他們非常适應所有(yǒu)可(kě)能出錯的方式。但(dàn)精心設計(jì)的災難恢複通(tōng)常不僅僅是企業的需求,而且比其能夠承受的成本更高(gāo)。如果企業确定可(kě)以承受三天的停機時(shí)間(jiān),并且當前的災難恢複計(jì)劃讓其在六小(xiǎo)時(shí)內(nèi)重新上(shàng)線運營,則需要進行(xíng)一些(xiē)更改。
- 企業測試過嗎?制(zhì)定了許多(duō)災難恢複計(jì)劃來(lái)檢查選項或滿足監管要求。但(dàn)如果企業沒有(yǒu)測試自己的計(jì)劃,那(nà)麽在真正的災難中對企業毫無價值。企業無法知道(dào)它是否會(huì)實際阻止意外中斷和(hé)數(shù)據丢失可(kě)能導緻的收入損失和(hé)聲譽損害。
4. 更新并測試企業災難恢複計(jì)劃
大(dà)多(duō)數(shù)企業不會(huì)定期更新和(hé)測試他們的災難恢複計(jì)劃,這是一個(gè)很(hěn)大(dà)的問題,因為(wèi)過時(shí)的災難恢複計(jì)劃在發生(shēng)真正災難時(shí)或多(duō)或少(shǎo)地變得(de)毫無價值。
在進行(xíng)更改時(shí),請(qǐng)執行(xíng)以下步驟:
- 指派專人(rén)負責災難恢複和(hé)測試。這意味着如果出現錯誤,就會(huì)有(yǒu)人(rén)負責,這會(huì)大(dà)大(dà)增加測試完成的機會(huì)。
- 确保企業管理(lǐ)層與制(zhì)定災難恢複計(jì)劃和(hé)進行(xíng)定期壓力測試的重要性保持一緻。這對于獲得(de)非IT同事所需的參與至關重要。
- 包括“災難”的定義。管理(lǐ)人(rén)員知道(dào)何時(shí)以及如何啓動災難恢複計(jì)劃,停機一小(xiǎo)時(shí)後?一天?也可(kě)以确定聯系人(rén),如果不在,還(hái)有(yǒu)哪個(gè)人(rén)可(kě)以處理(lǐ)。
- 制(zhì)定防災規則。之前提到的芝加哥(gē)鐵(tiě)路公司災難發生(shēng)的部分原因是因為(wèi)該公司在高(gāo)峰時(shí)段對服務器(qì)進行(xíng)了升級。這是一個(gè)令人(rén)難以置信的卻可(kě)以避免的錯誤:如果那(nà)名工人(rén)沒有(yǒu)在半夜摔倒在電(diàn)路闆上(shàng),就不會(huì)有(yǒu)那(nà)麽多(duō)客戶受到影(yǐng)響。
- 包括溝通(tōng)計(jì)劃。在災難期間(jiān)(“發生(shēng)的事情”)和(hé)災難之後(“發生(shēng)的事情和(hé)正在做(zuò)的事情以提高(gāo)未來(lái)的績效”)與利益相關者保持透明(míng),對于減輕災難可(kě)能造成的聲譽損害将有(yǒu)很(hěn)大(dà)的幫助。
有(yǒu)效的災難恢複就是細節
雖然每個(gè)企業都應該擁有(yǒu)并測試災難恢複計(jì)劃,但(dàn)企業能夠滿足他們的需求或應對災難的方式并不都是相同的。對于任何企業來(lái)說,災難恢複應該基于兩個(gè)方面:風險狀況和(hé)從事件中恢複的能力。
為(wèi)了确保企業的下一次IT中斷對其客戶、收入、聲譽造成盡可(kě)能小(xiǎo)的損害,需要花(huā)費時(shí)間(jiān)了解可(kě)能出現問題的具體(tǐ)情況以及這些(xiē)問題将如何影(yǐng)響其客戶,并制(zhì)定災難恢複計(jì)劃以盡量減少(shǎo)這種影(yǐng)響。
轉http://netsecurity.51cto.com