如何衡量數(shù)據中心的高可用及容災水平
何為高可用性?是指在規(guī)定的條件和規(guī)定的時刻或時間區(qū)間內,數(shù)據中心處于可執(zhí)行規(guī)定功能狀態(tài)的能力,它是數(shù)據中心可靠性、可維修性及可維護性的綜合體現(xiàn),一般用MTBF(mean time between failure)和MTTR(mean time to repair)兩個可量化的參數(shù)衡量。容災就是容忍災難,即在災難襲來時從容不迫,應付自如。對于數(shù)據中心來說,容災就是使一個數(shù)據中心具有應對一定災難襲擊,保持系統(tǒng)持續(xù)或不間斷運行的能力。這些災難包括天災(水災、火災、地震、龍卷風、海嘯、環(huán)境惡化)和人禍(操作失誤、程序缺陷、軟件錯誤或故障、硬件老化或次品、蓄意破壞、病毒、黑客攻擊、恐怖襲擊、戰(zhàn)爭)。衡量一個數(shù)據中心的高可用性以及容災的水平,應該考慮三方面的內容。
靈活的流量管控
數(shù)據流量是數(shù)據中心的生命線,一旦流量轉發(fā)不了或者有缺失對應用肯定會有影響,所以數(shù)據中心一定要保證數(shù)據不能丟失。然而,數(shù)據中心擁有的各種設備成千上萬,不可避免會出這樣那樣的問題,要保證數(shù)據流量不受影響,就需要對流量進行靈活管控。首先要對數(shù)據流量進行監(jiān)控,實時監(jiān)測網絡重要端口數(shù)據流量的變化,當出現(xiàn)明顯的波動時要引起高度注意;其次要有管控手段,當出現(xiàn)流量異常時,通過調整網絡路由或者網絡聚合端口路徑,避開問題鏈路和轉發(fā)路由表,讓應用業(yè)務不受影響。很多的數(shù)據中心會考慮在網絡側做轉發(fā)路徑的負載分擔或者備份,當其中的部分數(shù)據鏈路出問題時,及時切換;最后是嚴格過濾數(shù)據流量,避免異常流量入侵,對數(shù)據中心造成攻擊。很多的病毒攻擊都是通過異常流量進入數(shù)據中心內部的,最終造成系統(tǒng)的癱瘓,所以在數(shù)據中心的入口要做嚴格管控,從網絡協(xié)議的數(shù)據鏈路層直到應用會話層均要做防御,通過防火墻、網絡設備、入侵檢測等設備,將異常流量拒之門外。所有這些靈活的流量管控方法,將大大提升數(shù)據中心的高可用性。
單元化的業(yè)務部署
傳統(tǒng)數(shù)據中心業(yè)務量少,往往通過一個數(shù)據機房的數(shù)十臺服務器和存儲設備就可以搞定,系統(tǒng)一旦出現(xiàn)故障,很多數(shù)據也就可能丟失了。然而,現(xiàn)在隨著信息數(shù)據對人們的工作和生活變得至關重要,數(shù)據信息變得異常珍貴。數(shù)據中心動不動就將很多數(shù)據丟失或者泄露的話是沒法玩的,遲早關門大吉。而且,現(xiàn)在的數(shù)據增長飛快,海量的數(shù)據需要及時處理和保存,不能出差錯,這時就要從數(shù)據層面考慮如何部署。數(shù)據中心引入了單元化的設計思想,即將一種數(shù)據業(yè)務進行細分,形成一個個的單元,這個單元往往處于一個數(shù)據中心之內,而具有相同數(shù)據的單元處于其它機房或數(shù)據中心中,單元之間的數(shù)據通過實時交互,保持數(shù)據準確性。數(shù)據中心進行單元化業(yè)務部署之后,應用系統(tǒng)實際上在多個數(shù)據中心上都在運行,數(shù)據被存放到各個數(shù)據中心內,在每個數(shù)據中心內部到處也都是單元化的功能模塊,相互之間耦合的地方很少,這樣同樣可以大幅提升數(shù)據中心的高可用性。
故障容忍能力
數(shù)據中心對業(yè)務故障的容忍能力決定了數(shù)據中心的建設等級,要求數(shù)據中心全年故障時間越短的數(shù)據中心等級越高。提升一個數(shù)據中心的故障容忍度,將是數(shù)據中心容災高能力的體現(xiàn)。數(shù)據中心可以在三個地方做容災:一個是數(shù)據中心內部。數(shù)據中心內部在服務器、網絡、存儲方面做各種冗余設計,達到容災目的,當其中某個環(huán)節(jié)出現(xiàn)故障,自動進行業(yè)務切換,確保業(yè)務層面不受影響,當將故障排除后,再將業(yè)務切回。第二個是同城的數(shù)據中心。有些時候數(shù)據中心遇到的可能是整體性的故障,比如供電中斷或者空調故障等,導致整個數(shù)據中心無法穩(wěn)定運行,這時就可以將業(yè)務通過調整路由,轉移到同城的數(shù)據中心上。在同城的數(shù)據中心里有故障之前備份過來的數(shù)據,有相同的應用軟件提供,同城數(shù)據中心直接接管系統(tǒng),向外提供服務。第三是異地數(shù)據中心。有些時候故障可能是全城的范圍,比如遇到了極端天氣,比如地震、海嘯、洪水、颶風等等,這些災害將對某個地區(qū)的數(shù)據中心都造成影響,多個數(shù)據中心都可能陷入癱瘓之中,這時通過異地數(shù)據中心做災備最安全。不過,由于數(shù)據中心在異地,有的設計為了安全,距離可達數(shù)萬公里,這樣網絡延遲對業(yè)務就會產生影響,所以做異地災備時,要將延遲時間考慮進去。比如一些數(shù)據庫數(shù)據做異地復制,可忍受的時效性延遲是3秒。在做異地災備時,就要考慮延遲時間是否滿足。通過在數(shù)據中心內部,同城和異地都部署備份,這將大大提升數(shù)據中心的容災水平。
數(shù)據中心通過以上三方面的建設和優(yōu)化,將可大幅提升數(shù)據中心的高可用性及容災水平,這是提升數(shù)據中心等級水平的最有效方式。

責任編輯:售電衡衡
- 相關閱讀
- 碳交易
- 節(jié)能環(huán)保
- 電力法律
- 電力金融
- 綠色電力證書
-
碳中和戰(zhàn)略|趙英民副部長致辭全文
2020-10-19碳中和,碳排放,趙英民 -
兩部門:推廣不停電作業(yè)技術 減少停電時間和停電次數(shù)
2020-09-28獲得電力,供電可靠性,供電企業(yè) -
國家發(fā)改委、國家能源局:推廣不停電作業(yè)技術 減少停電時間和停電次數(shù)
2020-09-28獲得電力,供電可靠性,供電企業(yè)
-
碳中和戰(zhàn)略|趙英民副部長致辭全文
2020-10-19碳中和,碳排放,趙英民 -
深度報告 | 基于分類監(jiān)管與當量協(xié)同的碳市場框架設計方案
2020-07-21碳市場,碳排放,碳交易 -
碳市場讓重慶能源轉型與經濟發(fā)展并進
2020-07-21碳市場,碳排放,重慶
-
兩部門:推廣不停電作業(yè)技術 減少停電時間和停電次數(shù)
2020-09-28獲得電力,供電可靠性,供電企業(yè) -
國家發(fā)改委、國家能源局:推廣不停電作業(yè)技術 減少停電時間和停電次數(shù)
2020-09-28獲得電力,供電可靠性,供電企業(yè) -
2020年二季度福建省統(tǒng)調燃煤電廠節(jié)能減排信息披露
2020-07-21火電環(huán)保,燃煤電廠,超低排放
-
四川“專線供電”身陷違法困境
2019-12-16專線供電 -
我國能源替代規(guī)范法律問題研究(上)
2019-10-31能源替代規(guī)范法律 -
區(qū)域鏈結構對于數(shù)據中心有什么影響?這個影響是好是壞呢!