有「備」無患！？

2007 / 07 / 30

James Damoulakis

保對風險
我們應該都看過保險公司所打的廣告，其實不外乎是承諾顧客每天只需花上一點小錢，就可以在面對各色危險環境下，獲得一些保障。不可否認地，保險業者對於這些危機的實際狀況相當熟稔，並且還會依情況訂立不同的保費價格，不過，倘若從另一方面來看，我們當然不會因為廉價就不買保險，買它只不過是為了要防範之後可能遭遇到的風險而已，但是，假如真正的風險沒有被掃除，那麼，自然也就無從彰顯出投保的價值，不是嗎？

如同其它方面的IT功用，資料保護變得更像是另一門特殊學問。當然，最直接的原因就在於，面對不同資料風險我們認知便要有所不同，再者，就是用戶對其期望層級亦即提高了，除了這些原因，解決特定儲存問題的現存技術，其實也等同加寬了整個資料保護領域的範圍！也因此，掌握資料風險，或者處理與風險相關服務的方式，就要一併納入考量，我們不但要顧及各色風險發生的可能性和影響，同時也要知道所需要的「投保項目」為何！

以下，就讓我們來瞭解一下不同類型的資料損害，及其所引發的相關風險：

●可察覺之檔案刪除或毀損(Detectable file deletion or corruption)

這類的狀況，即是資料遭到意外地刪除或覆蓋，不過，我們可幾近及時(假定為一日內)獲知此一錯誤情況的發生！當然，產生這種情況的途徑相當多，資料毀損可能是邏輯性損害，也可能是遭受到實體損害。

●隱藏性之檔案刪除或毀損(Latent(lingering) data deletion or corruption)

這類風險絕少被量化出來，以致於通常都不會訂立相關的解決政策。所以，當資料在某些狀況下，遭到刪除或甚至是受到邏輯性毀損時，也許是幾日、數週或甚至是個把個月都不會被發現。

●儲存裝置故障(Storage device failure)

這種形態的實體毀損，通常會造成大量重要資料的流失。

●相恃性毀損(Interdependency failure)

我們可以把它想成：由於缺少資料同步化或者因為應用元件間的資料不一致性所造成的「有效性(effective)」資料毀損。事實上，就如同是「最弱環結(weakest link)」效應一般—要是其中一層服務是整體資料環境所仰賴的一部分，而該環境當中的另一部份尚依賴另一層服務，那麼，綜觀所有資料的保護等級，就會是落在這二者間最孱弱的部份。

●複合性毀損(Compound failure)

與依賴性毀損類似，這種風險的產生原因，是在於上述任一資料損害情況同時一塊發生所造成的。

●站台故障(Site failure)

以資料儲存中心為例，所謂站台故障通常指的是，災害復原範圍內所發生的災難或失敗情況。不過，這種情況需與較區域性的作業環境錯開來看才是。

備份在資料保護中所扮演的角色
就前面所提及的，若要解決這些議題，似乎或多或少都會牽扯到備份問題。但，如同我們所知道的，從備份中復原得花時間，而且也許還有著無法回復到以往的問題存在，以致於我們在這節骨眼上，就要導入技術來降低維運復原時間或者是評估作業停擺的時間。

當面對到如上所述的資料損害問題時，套用現今IT基礎架構下的防護方式究竟有那幾種類型？我們於「傳統資料保護方式」表的表列當中也一一列出。

試想有這麼一個情節：假設一個重要的資料庫，本身儲存方式為RAID-10，此外，它每四個小時會建立一個BCVs(business continuance volumes) [*譯注1]區塊，並且該區塊將保留一天，接著會被備份至遠端的hot site[*譯注2]。不過，在這種情況底下，這種備份方式究竟解決何種資料毀損情境？整件事看起來，似乎主要的價值在於，當BCVs已經改變了一段時間之後，我們能防止數日或數週後才發現的隱藏性之檔案毀損的狀況，這其實就是一種故障保全模式(failsafe) [*譯注3]。

邁向分層資料防護模型
當我們在規劃資料保護服務的時候，會有二項衡量的標竿—復原時間目標(RTO, recovery time objective) [*譯注4]與復原點目標(RPO, recovery point objective) [*譯注5]。但是，假若給定本文中所描述的各種資料損害的狀況時，光只用RTO和RPO，是不可能滿足所有資料損害的量測情形。

比方說，試想一下我們採用傳統的BVC/遠端複製/備份的資料防護混合方式，並且四小時的間隔作為RTO和RPO的量測標準。接著，套用一些損害情節，像是發生隱藏性之檔案毀損的情況，那麼，這時候備份就成了唯一的防護方式，而四小時一次的復原量測就完全失去效用了！你也許會說，有其他的方式減緩這種狀況嗎？

答案會是「或許有吧？！」針對上述情況舉例而言，要一個勤奮、不喜冒險的資料庫管理師將整個資料庫轉儲到硬碟當中是件不太尋常的事，而且還得額外收納數日甚至數月的複本。不過，要是這些事情都辦到了，復原時間就會是落在RTO目標或是從備份複本還原之時間身上，但是，不管是什麼情形，RPO值就有可能遠遠地超標。

所以，當我們在規劃災難復原一事的時候，必須思及各類型的風險及衍生的可能性。同樣地，我們也可以把此一方式用於全面性的資料保護略策當中，當然，如果以現今的環境來看，能夠綜合分層服務結構(a layered services)的方式，達到資料保護那是最好不過了！在這裡，我們可以為每一層防護服務訂出如下所示的方向：

●風險應該要減緩。

●基於風險發生之可能性以及對企業的影響，訂出資料防護等級。

●資料保護方式是因應需要而產生。

不過，在那之前，我們還必須先決定有那些風險實際上是不太可能發生的，或者是因為所費不貲以致於無法負擔這類的防護方式。若以務實的層面觀之，這種想法意謂著倘若有資料庫複本的備份時間是超過一週以上的，那麼，我們可以認定這備份毫無價值可言。因為，隱藏性檔案毀損會在那時間點之前就顯露出來了。當然，我們還是存有調整保留時間的空間，並且，還可能可以將多餘的防護資源釋放出來。就另一方面來看，或許我們亦能發現部份重點企業營運功能會曝露在那些無法預期，但急待解決的危險之中！

改變雖非一朝一夕，但歷史也同樣告訴我們有很多無法接納改變的先例！該改變途徑或許會讓我們更關注IT面所曝露出來的缺陷問題，如果你害怕這類的資訊被透明化，那麼，這項改變途徑的身上可能就綁有待解決的風險問題。再者，環境總是說服我們深信能即刻從任何的資料損毀中回復運作，也許事與願違，但是，假若企業組織對於解決保護服務層級的目標，是懷抱著真誠的態度，那麼，在程序執行的過程，就能發現現存資料保護策略當中的漏洞，並且，這樣亦能確定一件事：當選定新的保護技術時，我們會認為這是對的，而且心裡充滿著踏實感。

James Damoulakis現職為GlassHouse Technologies的技術長，該公司是提供獨立儲存服務的領導廠商。

[*譯注1] 正常運作下所產生的複本區塊，可與其他區塊並行原先相同的工作。

[*譯注2] 即原始站台營運行為的複製，除了具有完整的營運系統外，用戶資料也幾近百分百的被備份起來。

[*譯注3] 程序或系統面臨到軟硬體故障狀況時，所自動產生的保護作用。

[*譯注4] RTO-容許服務回復正常運作最長之時間

[*譯注5] RPO-容許資料損失最長之時間

備分資料保護