拒當重災戶! 數據中心 應配置的災後重建措施(Disaster Recovery)!

拒當重災戶! 數據中心 應配置的災後重建措施(Disaster Recovery)!

一鍵加入NutanixLINE好友
拒當重災戶! 數據中心 應配置的災後重建措施(Disaster Recovery)!| Line一鍵加入Nutanix好友!

現今有很大一部份人不願思考「防災」這件事情,這就是為什麼儘管災害發生前已有許多徵兆與跡象,大多數人卻仍無法在災害發生時謹慎應付的原因──企業,也是如此。幾乎沒有人去煩惱數據中心停止運行該怎麼辦,甚至去思考災難發生時極有可能面臨的數據損失,這對收入、生產力和企業商譽方面都可能造成毀滅性的打擊;然而,當然仍有少部分企業有配置全面且通過良好測試的災難復原策略,其策略包含極佳的復原工具、完整的應對流程及訓練有素的人員。

 

鑒於以上的明顯差異,最近我們對客戶進行了一次非正式的調查,去了解他們在數據中心災難發生或災後復原的經驗。

 

有些受訪者承認他們根本沒有安排適合的DR措施(Disaster Recovery,災後復原),只能不斷祈禱數據中心不要出事。但其實災難有多種形式,從不可抗力的自然災害,颶風、龍捲風、火災和地震等,到可以預先預防的,如裝置故障或人員操作失誤,有些錯誤甚至可笑到微不足道,卻沒有預先被察覺、進而解決。

 

Nutanix一名成員回憶起有次住院時,醫院停運了整整一個週末,因為一隻老鼠咬掉了線路取下電網,「當時不間斷電源啟動了,發電機卻沒有。」而儲存供應商在30個小時後才到現場,這意味著「再隔一天的禮拜一,醫院資源變的有限,很快地此醫院就因為不得不取消非緊急任務而損失了數百萬美元。此次事件最後歸咎於董事會未批准DR策略,因此在僅一日的停電中,醫院的損失率很容易便突破400%~500%。」

 

Nutanix諮詢師Wayne Conrad則點出了2012年桑迪颶風前後各企業的狀況:「高盛集團(Goldman Sachs,美國跨國投資與金融服務公司)的總部在風雨當下特別突出,就像一棵聖誕樹一樣發亮,對比之下其他所有醫院、企業都停電了,為什麼?──因為高盛了解準備DR就像購買保險一樣,旨在預防而非為了實際效益,但醫院卻選擇削減其預算。這就好像你面臨令人討厭的信用卡帳單──汽車和房屋保險總是必須優先支付的。」

 

儘管有些用戶做出了明智的決定,他們仍然遇到了問題:「在上一份工作中,我們將數據中心的核心放置在一個能承受F5級龍捲風的建築物中,堪稱是城市中最安全的地方。然而,造成我們威脅的反而是夏天的高溫,因此之後他們在下午將空調移到建築物內,以節省資金。」

 

或是Nutanix的用戶Tre Bell也觀察到,「關於DR其實普遍存在一種誤解,即成功的備份策略等同於成功的災難恢復策略。」但他告誡:「在不同環境中,想要恢復最齊全的功能通常需要能夠『重新配置』,而不僅是簡單的備份和恢復。假設您因為一個嚴重的災難而毀壞了擁有的50個系統,大多數這些系統之間的集成都需要重新配置。若您成功將其轉移到新的備份位置,或恢復系統,這些都只是成功災難恢復策略的第一部分,災難復原測試也至關重要;在執行DR測試以驗證100%的功能之前,你幾乎可以說是一無所知。」

 

Bell的觀察結果受到了另一位受訪者的經驗證實。他說他們有兩個功能齊全的策略—一用於總部、另一用於DR­—當他們開始測試故障轉移時,「我們無法僅在短暫的停機時間內切換回主站點,因此不得不在災難恢復站點上運行幾個月,直到我們再次得到停工時間為止。」

 

Bell提醒我們,除了進行全面的企業影響分析(BIA,Business Impact Assessment),確定RPO(Recovery Point Object,復原點目標)和RTO(Recovery Time Object,復原時間目標)亦至關重要。完成這些操作後,再執行DR測試來確認是否能夠將系統成功恢復到功能狀態,並能滿足RPO和RTO。

 

其他一些成員也分享了他們成功的案例。

 

Doan Nguyen回憶起有次嚴重的大風大雨,「八根電線桿倒在我們的公司前,隨後電力沒了、道路被熱線和變壓器堵住,那天早上上班的每個人都被困在了大樓裡。起初,電池和發電機備份提供電話和互聯網功能,並利用其他幾個地方的資源,讓公司還能夠正常運作,直到我們完全撤離。當時DR便開始發揮效用,我們按照自己的DR計劃執行,下午3點後完全實施遠距離操作,我們的一些員工在我們的恢復中心工作,有些人則在家工作。客戶服務電話、計費、電子郵件、電話──我們保持運作所需的一切都在正常執行。而這都是經驗教訓:每季度進行DR演習和測試災難復原計劃都是至關重要的,要知道,即使是很少的災難也會產生巨大的影響──你需要隨時為災難性的破壞做好準備。」

 

適當的災難準備能帶來許多好處,那為什麼沒有更多的人採取措施來保護自己或企業呢?在《The Ostrich Paradox, Why We Underprepare for Disaster》一書中,Robert Meyer和Howard Kunruether指出了幾種被廣泛認同的偏見:

 

  • 在思考過去的教訓時僅有短暫記憶
  • 思考未來時的短視近利(特別是在權衡即時成本與保護行動的潛在好處時)
  • 毫無根據的樂觀心態:「災難才不會發生在我身上!」
  • 在考慮風險時過度簡化成本效益分析
  • 傾向於遵循他人的行為(即跟風行為)
  • 面對複雜性和不確定性時,傾向於不服從現狀(即明明需要防範卻不願意承認)

 

然而好消息是,現在有些產品有助於我們解決配置DR的一些障礙(我覺得謬誤有點奇怪),這消除了傳統DR解決方案的複雜性和不確定性──Nutanix Xi Leap等災後重建即服務(DRaaS,DisasterRecovery-as-a-Service)的解決方案即提供恢復自動化和測試,以確保企業業務的連續性。同時,因Nutanix Xi Leap屬於Nutanix企業雲操作系統的一部分,這意味著IT人員無需另一個管理控制台,或擔心在DR故障轉移過程中需重新配置網路和安全設置等問題。

 

正如Meyer和Kunruether在書中所指出的,在防範災難時,人類實際上可以從鴕鳥身上學到東西不是將頭埋在沙子裡,而是「適應環境以生存」。企業應採用更簡單、更快捷、更敏捷的替代方案,而不是面對困難仍無所作為(僅透過希望和祈禱?),或不在乎現狀(拒絕過往複雜的災難恢復系統)來避免適當的災難準備。

 

原文網址

 

一鍵加入NutanixLINE好友
拒當重災戶! 數據中心 應配置的災後重建措施(Disaster Recovery)!| Line一鍵加入Nutanix好友!

※點我看更多Nuatanix文章

Author: mike

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *