東京證券交易所宕機調查結果出爐,數據安全警鐘需長鳴

數據安全決定著一傢企業的生死與未來。

這絕對不是危言聳聽。近幾年來,現實中慘痛教訓不斷上演:天津某醫院數據中心因持續大雨被淹,由於未做災備,導致醫院無法開展業務;某雲服務商因為底層磁盤靜默錯誤以及數據遷移操作不規范,導致某用戶平臺級數據全部丟失,業務從此難以為繼;某互聯網技術服務商數據被惡意刪除,恢復耗時七天七夜,賠償客戶損失1.5億元……

最近一個鮮活的例子是,東京證券交易所在十一期間因為存儲故障導致業務大癱瘓,暫停交易一天,損失和影響不可估量。哪怕貴為全球第三大證券交易所的東京證券交易所,其IT建設經驗如此豐富、IT基礎設施如此強大的情況下,當故障發生時,依然無法從容應對。此刻,不談災備,何來以後的數據安全。

正所謂“後人哀之而不鑒之,亦使後人復哀後人也!”這一切不禁讓人思考:過去的災備建設體系是否真的適合如今快速變化的數字化時代?未來容災的趨勢又會朝著哪些方向發展?

東京證券交易所事件引發的思考

今年十月一號,東京證券交易所因為存儲設備故障導致暫停交易一天。當時筆者就猜測,此次事故可能並不是簡單的設備故障而引起的。

果不其然,東京證券交易所宕機事故處理結果近日出爐。日本金融服務管理局(FSA)調查顯示,故障的根本原因是“故障設備出現瞭缺陷”;但由於“為故障設備制定的故障自動切換機制不夠到位,加上TSE沒有為交易恢復制定合適的規定”,最終導致瞭十月一號的混亂局面。

東京證券交易所經歷大宕機

調查報告指出,當故障發生時,備用設備並沒有自動接管,之後隻能通過人工方式,手動切換到備用設備。該報告甚至還發現,該交易所並沒有制定恢復交易的程序,以防發生此類故障,而且缺乏明確的規定。

任何事件都不能孤立地去看待,如果脫離其所處的時代背景去分析則缺乏真正的借鑒意義。正如東京證券交易所宕機事件中,我們不能簡單將此次故障歸咎於富士通存儲設備的問題,因為硬件故障出現無可厚非,任何硬件都達不到100%的絕對安全可靠;我們亦不能簡單怪罪於恢復機制的缺陷,因為過去制定的規則與規范,隨著歲月的推移,無法適應新時代的變化。

我們需要真正深刻思考的是:在數字化浪潮滾滾而來的時代下,數據爆炸性增長、數據價值加速凸顯、數據使能日趨迫切,保障業務連續性已成頭等大事,災備建設的重要性是否引起大傢足夠的重視、災備架構設計是否符合未來業務發展的需求、災備一系列流程規范是否真正具有可執行性?

你是否真的瞭解數據災備需求

“過去會區分核心數據和非核心數據。現在是所有數據都重要,所有數據都不能丟失。”一傢三甲醫院信息中心主任今年接受大數據在線采訪時如是說。

這恰恰反映出數據的重要性今非昔比。數據正在成為最重要的生產要素之一,更是一切應用運轉的基礎。然而,數據保護的難度也不可同日而語。這些年,隨著雲計算、大數據、人工智能等技術的不斷應用,直接驅動著新應用不斷湧現,應用類型不僅走向復雜化和多元化,也帶動瞭數據類型走向多元化,給災備建設帶來瞭前所未有的挑戰。

以銀行為例,2019年銀行業共處理電子支付業務2233億筆,業務規模是2009年的40倍,小額、高頻支付場景正在迅速成為常態,使得銀行的交易、清算等業務帶來瞭前所未有的交易頻次、數據規模以及對業務連續性的強需求。

“數字化轉型加速瞭企業業務走向線上化和數字化,對業務連續性要求變得極高。”華為存儲技術專傢告訴大數據在線。事實上的確如此,面對如此豐富的應用以及所產生的海量多元數據,過去傳統一刀切、隻聚焦所謂核心數據的容災策略已經不合時宜瞭。如今,業界普遍認為針對數據屬性、使能需求需要采用“分而治之”的策略,通過有針對性的策略實現數據的有效保護與合理利用。

首先,針對生產業務的熱數據需要進行全容災。通過免網關雙活、兩地三中心等技術手段,實現生產級數據的全容災,一旦出現故障或者災難,可以很快實現切換,保障業務連續在線運行。

比如,《銀行業信息系統災難恢復規劃》最新規定,AB類業務災難恢復等級要求在5級以上,業務中斷需要低於15分鐘。考慮到金融機構業務一旦中斷就會對用戶體驗和經濟日常活動造成嚴重影響,像銀行等機構實際部署的容災業務系統RPO和RTO指標要求會比行業規定更加苛刻。

其次,針對備份數據既需要有效保護,又能實現合理利用,即溫數據實現熱備份。備份數據是包含瞭不同歷史時間點的生產數據副本,一旦出現邏輯錯誤或者人為誤操作,可以通過備份數據來實現數據的可恢復性。

如今,隨著數字化轉型的不斷深入,數據的規模與量級正在呈現指數級的增長,這也要求用戶在相對固定的備份時間窗口中盡快完成數據的備份,對於數據備份的性能和效率要求正在越來越高;與此同時,為避免對生產系統運行的影響,開發測試、數據挖掘等應用會盡量使用備份數據,從而增加瞭備份副本的使用用途和價值。

最後則是冷數據逐漸走向溫歸檔。眾所周知,不僅銀行、保險等這些傳統行業對於數據有著嚴格的監管要求,哪怕是互聯網行業對於生產數據、日志數據等都需要長期保留,以用於追溯故障和各種問題,以備後續的審計。

以國內一傢直播巨頭為例,其每月直播所產生的數據就高達數PB,這些海量數據因為法規要求,需要做長達三個月的保留,並且在歸檔期間還會經常因為法規和審計的要求而被調用,對於歸檔數據的長期保持和數據完整性有著極高要求。一位存儲技術專傢就直言:“因為審計和歸檔法規,現在幾乎所有行業都對數據歸檔有要求,金融等行業甚至要求數據存放時間達十年以上,需要確保數據不丟失。”

因此,應用的多樣化、數據屬性的差異化以及法規遵從的硬性要求,驅動著數據保護的走向精細化,也讓越來越多用戶重新審視災備,並著手做出改變。

現在是時候重新審視災備

事實上,近年來隨著一系列宕機、故障事件的發生,以及用戶自身數字化轉型中遇到的各種挑戰,用戶在災備建設上呈現出一些新的趨勢。

首先,隨著用戶業務加速走向數字化,數據中心規模、設備數量也隨之快速增加,某種程度也加大瞭設備故障發生的概率。因此,用戶在進行災備建設過程中依然會看重單點設備的可靠性。因為無論是分佈式架構產品,還是集中式架構產品,單點設備的高可靠性的確可以降低故障發生的概率。

比如,我們現在看到一些高端存儲產品,可以實現八個控制器壞七個依然能夠運行,將數據中心存儲可靠性提升到一個新高度。另外,集合分佈式和集中式架構各自優勢的存儲產品被認為未來數據中心存儲重要的發展方向,有望進一步提升整個數據數據中心存儲層面的可靠性。

其次,完整的災備架構設計和合適的解決方案實施將會成為用戶災備建設的必需。比如兩地三中心,甚至兩地四中心的方案會被更多用戶所接受與采納,而像免網關雙活這種方案不僅可以大幅降低故障切換的步驟與難度,還能有效讓RPO和RTO等關鍵指標趨於零,必然會受到更多用戶所采用。

最後,過去災備“中看不中用”的想法將會被徹底拋棄,用戶在理念層面將大幅重視災備的建設,進一步推動災備建設走向落地,除瞭會繼續完善嚴格的流程規范之外,日常演練等工作也會被用戶所重視,真正讓災備建設做到“中看又中用”。

總體來看,東京證券交易所的宕機事件猶如在數字化浪潮中給我們敲響瞭一次警鐘。對於所有用戶,現在時候重新審視災備,並且著手改變現狀,為數字化轉型保駕護航。

赞(0)