通過人工智能和機(jī)器學(xué)習(xí)技術(shù),數(shù)據(jù)中心可以采用與建筑管理系統(tǒng)(BMS)同時運(yùn)行的軟件解決方案,以識別和管理熱失控風(fēng)險。
2020年似乎成為10年來最熱的年份之一,歐洲今年夏季氣溫很快就達(dá)到去年夏季溫度的最高水平,這給當(dāng)?shù)財?shù)據(jù)中心的運(yùn)營敲響了警鐘。高溫不可避免地為數(shù)據(jù)中心帶來了冷卻方面的挑戰(zhàn),英國有記錄以來最熱的10年是從2002年開始的,數(shù)據(jù)中心冷卻策略顯然需要組織為夏季高溫帶來的任何問題做好準(zhǔn)備。
鑒于冷卻問題仍占數(shù)據(jù)中心計劃外停機(jī)的近三分之一,因此,數(shù)據(jù)中心的風(fēng)險規(guī)劃必須考慮到溫度升高的影響。不幸的是,大多數(shù)組織似乎仍然沒有意識到數(shù)據(jù)中心的過熱風(fēng)險,這種風(fēng)險會迅速使數(shù)據(jù)中心的運(yùn)營處于危險之中。冷卻問題目前已成為數(shù)據(jù)中心服務(wù)中斷的第二大原因,對于組織而言,通過優(yōu)化散熱性能來降低這種風(fēng)險至關(guān)重要。
一、識別預(yù)警信號
熱失控問題在很短的時間就能產(chǎn)生,即使是經(jīng)驗豐富的數(shù)據(jù)中心運(yùn)營團(tuán)隊也不會掉以輕心。冷卻設(shè)備故障很容易升級為熱失控情況,使全天候運(yùn)行的數(shù)據(jù)中心面臨停機(jī)風(fēng)險。
調(diào)查發(fā)現(xiàn),其中一個主要原因是現(xiàn)有的解決方案(如BMS)在及時發(fā)現(xiàn)熱失控方面不是很有效。由于沒有嚴(yán)重違反服務(wù)等級協(xié)議(SLA)或發(fā)生故障,冷卻散熱和氣流問題通常不會過早地觸發(fā)建筑管理系統(tǒng)(BMS)警報。但是一旦觸發(fā),則為時已晚,其結(jié)果是散熱問題可能會迅速升級,在數(shù)據(jù)中心運(yùn)營團(tuán)隊解決問題之前,將會產(chǎn)生影響整體性能的局部數(shù)據(jù)中心熱點(diǎn)。
二、不要等待警報,需要采取更主動的方法
組織需要預(yù)防潛在熱失控故障,通過人工智能和機(jī)器學(xué)習(xí)技術(shù),現(xiàn)在可以采用與BMS系統(tǒng)并行工作的軟件解決方案,以識別和管理來自數(shù)據(jù)中心的熱失控風(fēng)險。
借助這種實時熱監(jiān)控技術(shù),可以跟蹤冷卻輸出并提前識別出性能不佳的冷卻系統(tǒng),以便及時進(jìn)行改進(jìn)。在這里,數(shù)據(jù)中心機(jī)架和精密空調(diào)監(jiān)控對于發(fā)現(xiàn)典型的冷卻系統(tǒng)和BMS系統(tǒng)無法發(fā)現(xiàn)或隱藏的但易于修復(fù)的冷卻和氣流問題至關(guān)重要。
A公司開發(fā)了數(shù)據(jù)中心的關(guān)鍵監(jiān)視系統(tǒng),現(xiàn)在能夠完成對關(guān)鍵基礎(chǔ)設(shè)施的遠(yuǎn)程熱失控風(fēng)險預(yù)測分析。在最近的一個示例中,關(guān)鍵監(jiān)視系統(tǒng)的軟件和分析功能用于遠(yuǎn)程識別異常熱失控行為,遠(yuǎn)程診斷問題并建議如何減輕熱失控影響。所有這些都是在BMS系統(tǒng)發(fā)現(xiàn)問題之前完成的。
A公司發(fā)布的視頻演示了基于預(yù)測性分析的方法如何為數(shù)據(jù)中心設(shè)置預(yù)防故障所需的預(yù)警功能。在這一示例中,由于精密空調(diào)發(fā)生故障,具有正常和穩(wěn)定的冷卻負(fù)荷曲線的數(shù)據(jù)中心的溫度很快就變得不穩(wěn)定。其時間軸如下:
?軟件分析解決方案利用精密空調(diào)中的EkkoAir冷卻負(fù)荷傳感器的性能數(shù)據(jù)來識別精密空調(diào)的異常行為。
?軟件分析解決方案可以識別單個冷卻效果不佳的精密空調(diào)。
?如果精密空調(diào)出現(xiàn)問題,軟件分析解決方案提供了局部熱點(diǎn)的預(yù)警。
?軟件分析解決方案還顯示,其他精密空調(diào)雖然仍在運(yùn)行,但無法消除熱點(diǎn)。
?軟件分析解決方案建議關(guān)閉發(fā)生故障的精密空調(diào),以消除再循環(huán)的熱空氣。一旦采取行動,熱點(diǎn)問題立即得到解決。
?調(diào)查并解決了精密空調(diào)問題,恢復(fù)正常的冷卻運(yùn)行,并通過軟件分析解決方案進(jìn)行了確認(rèn)。
在這個過程中,現(xiàn)有的BMS在任何時候都不會產(chǎn)生警報,因為沒有特定的組件故障或警報閾值被觸發(fā)。這個例子顯示了分析解決方案的早期風(fēng)險檢測分析功能,如何能夠在最終失效之前識別和診斷性能不佳的冷卻設(shè)備,從而消除潛在的熱失控風(fēng)險,并及時進(jìn)行維修。它還說明了BMS系統(tǒng)缺乏警報生成,這意味著如果沒有額外的預(yù)測分析,數(shù)據(jù)中心團(tuán)隊將不會意識到出現(xiàn)故障或查找出故障位置。通過對數(shù)據(jù)中心的整體觀察,關(guān)鍵分析軟件能夠捕捉到細(xì)微的變化,例如設(shè)定值的變化、閥門卡住或格柵移動等,這些變化可能會導(dǎo)致更廣泛的熱失控問題。
三、熱失控之前的預(yù)警
傳統(tǒng)的BMS方法僅在系統(tǒng)出現(xiàn)故障或超出閾值時才生成警報,A公司的高粒度感測和關(guān)鍵實時算法相結(jié)合,可以在潛在設(shè)備出現(xiàn)故障之前先對其進(jìn)行突出顯示,以免影響數(shù)據(jù)中心服務(wù)的可用性。
只有從數(shù)據(jù)中心運(yùn)營中消除100%的熱失控風(fēng)險,并為后續(xù)的冷卻優(yōu)化項目提供穩(wěn)定的平臺,數(shù)據(jù)中心管理人員才能真正實現(xiàn)熱失控管理。
公 司:杭州駿楊明科技有限公司
聯(lián)系人:
電話:0571-88930887
手機(jī):13738048718
E-mail:
地 址:杭州市拱墅區(qū)杭行路666號萬達(dá)廣場寫字樓D座1909室