大多數(shù)圍繞人工智能(AI)的討論都集中在自動(dòng)車(chē)輛、聊天機(jī)器人、數(shù)字孿生技術(shù)、機(jī)器人技術(shù)以及使用基于人工智能的“智能”系統(tǒng)從大型數(shù)據(jù)集中提取商業(yè)洞察力。但是人工智能和機(jī)器學(xué)習(xí)(ML)總有一天會(huì)在企業(yè)數(shù)據(jù)中心內(nèi)部的服務(wù)器機(jī)架中扮演重要角色。
人工智能在提升數(shù)據(jù)中心效率以及擴(kuò)展業(yè)務(wù)方面的潛力可分為以下四個(gè)主要類(lèi)別:
電源管理:基于人工智能的電源管理有助于優(yōu)化加熱和冷卻系統(tǒng),從而降低電力成本,減少員工人數(shù),提高效率。該領(lǐng)域的代表性供應(yīng)商包括施耐德電氣、西門(mén)子、Vertiv和伊頓公司。 設(shè)備管理:AI系統(tǒng)可以監(jiān)控服務(wù)器、存儲(chǔ)和網(wǎng)絡(luò)設(shè)備的運(yùn)行狀況,檢查系統(tǒng)是否保持正確配置,并預(yù)測(cè)設(shè)備何時(shí)會(huì)出現(xiàn)故障。據(jù)Gartner稱(chēng),AIOpsIT基礎(chǔ)設(shè)施管理(ITIM)類(lèi)別的供應(yīng)商包括OpsRamp、Datadog、Virtana、ScienceLogic和Zenoss。 工作負(fù)載管理:人工智能系統(tǒng)可以自動(dòng)將工作負(fù)載實(shí)時(shí)移動(dòng)到最高效的基礎(chǔ)設(shè)施上,包括在數(shù)據(jù)中心內(nèi)部,以及在混合云環(huán)境中,在prem、云和邊緣環(huán)境之間。有越來(lái)越多的小型公司提供基于人工智能的工作負(fù)載優(yōu)化,包括Redwood、TidalAutomation和Ignio。思科(Cisco)、IBM和VMware等重量級(jí)企業(yè)也有產(chǎn)品。 ?安全性:人工智能工具可以“了解”正常網(wǎng)絡(luò)流量的情況,發(fā)現(xiàn)異常情況,區(qū)分需要安全從業(yè)者注意的警報(bào)的優(yōu)先級(jí),幫助對(duì)出了什么問(wèn)題的事后分析,并為填補(bǔ)企業(yè)安全防御漏洞提供建議。提供此功能的供應(yīng)商包括VectraAI、Darktrace、ExtraHop和Cisco。
綜上所述,人工智能可以幫助企業(yè)創(chuàng)建高度自動(dòng)化、安全、自我修復(fù)的數(shù)據(jù)中心,這些數(shù)據(jù)中心幾乎不需要人工干預(yù),并且能夠以高水平的效率和彈性運(yùn)行。
戴爾技術(shù)公司全球CTO辦公室的杰出工程師Tabet解釋說(shuō):“人工智能自動(dòng)化可以擴(kuò)展到超出人類(lèi)能力的水平來(lái)解釋數(shù)據(jù),收集優(yōu)化能源使用、分配工作負(fù)載和最大化效率所需的必要見(jiàn)解,以實(shí)現(xiàn)更高的數(shù)據(jù)中心資產(chǎn)利用率。”。
當(dāng)然,就像自動(dòng)駕駛汽車(chē)的承諾一樣,自動(dòng)駕駛數(shù)據(jù)中心還沒(méi)有出現(xiàn)。在數(shù)據(jù)中心,存在著阻礙人工智能突破的重大技術(shù)、操作和人員配備障礙。如今,采用技術(shù)才剛剛起步,但潛在的好處將使企業(yè)不斷尋找機(jī)會(huì)采取行動(dòng)。
電源管理利用服務(wù)器工作負(fù)載管理
據(jù)估計(jì),數(shù)據(jù)中心將消耗全球3%的電力供應(yīng),造成約2%的溫室氣體排放,因此,無(wú)論是為了省錢(qián),還是為了環(huán)保,那么多企業(yè)都在認(rèn)真研究數(shù)據(jù)中心的電源管理。
451Research的高級(jí)分析師丹尼爾·比佐(DanielBizo)表示,基于人工智能的系統(tǒng)可以幫助數(shù)據(jù)中心操作員了解當(dāng)前或潛在的冷卻問(wèn)題,例如,由于高密度機(jī)柜堵塞氣流、HVAC裝置性能不佳或冷熱通道之間的空氣密封不足而導(dǎo)致的冷空氣輸送不足。
Bizo說(shuō),人工智能承諾提供“不僅僅是良好的設(shè)施設(shè)計(jì)所能帶來(lái)的好處”。人工智能系統(tǒng)在數(shù)據(jù)中心層“可以通過(guò)關(guān)聯(lián)暖通空調(diào)系統(tǒng)數(shù)據(jù)和環(huán)境感知讀數(shù)來(lái)學(xué)習(xí)設(shè)備”。
IT咨詢和咨詢公司StorageIO的創(chuàng)始人格雷格·舒爾茨(GregSchulz)補(bǔ)充說(shuō):“電源管理是一個(gè)很容易實(shí)現(xiàn)的成果。”今天,它是關(guān)于生產(chǎn)力的,關(guān)于每BTU完成更多工作,每瓦能源完成更多工作,這意味著工作更智能,讓設(shè)備工作更智能?!?/span>
還有一個(gè)容量規(guī)劃的角度。除了尋找熱點(diǎn)和冷點(diǎn)之外,人工智能系統(tǒng)還可以確保數(shù)據(jù)中心為適當(dāng)數(shù)量的物理服務(wù)器供電,并且在需求臨時(shí)激增的情況下,有能力啟動(dòng)(和關(guān)閉)新的物理服務(wù)器。
Schulz補(bǔ)充說(shuō),電源管理工具正在開(kāi)發(fā)連接到管理設(shè)備和工作負(fù)載的系統(tǒng)的掛鉤。例如,如果傳感器檢測(cè)到服務(wù)器運(yùn)行太熱,系統(tǒng)可能會(huì)快速自動(dòng)地將工作負(fù)載轉(zhuǎn)移到未充分利用的服務(wù)器上,以避免可能影響任務(wù)關(guān)鍵型應(yīng)用程序的潛在停機(jī)。然后系統(tǒng)可以調(diào)查服務(wù)器過(guò)熱的原因——可能是風(fēng)扇出故障(HVAC問(wèn)題)、物理組件即將崩潰(設(shè)備問(wèn)題),或者服務(wù)器剛剛過(guò)載(工作負(fù)載問(wèn)題)。
人工智能驅(qū)動(dòng)的健康監(jiān)控、配置管理監(jiān)督
數(shù)據(jù)中心充滿了需要定期維護(hù)的物理設(shè)備。人工智能系統(tǒng)可以超越定期維護(hù),幫助收集和分析遙測(cè)數(shù)據(jù),從而確定需要立即關(guān)注的特定區(qū)域?!比斯ぶ悄芄ぞ呖梢孕岢鏊羞@些數(shù)據(jù)和斑點(diǎn)模式,以及異常點(diǎn),”Schulz說(shuō)。
Bizo補(bǔ)充說(shuō):“健康監(jiān)測(cè)從檢查設(shè)備配置是否正確以及性能是否符合預(yù)期開(kāi)始?!庇捎谟谐砂偕锨€(gè)IT機(jī)柜和數(shù)萬(wàn)個(gè)組件,這些平凡的任務(wù)可能是勞動(dòng)密集型的,因此并不總是能夠及時(shí)徹底地執(zhí)行?!?/span>
他指出,基于大量感官數(shù)據(jù)日志的預(yù)測(cè)性設(shè)備故障模型可以“發(fā)現(xiàn)一個(gè)即將出現(xiàn)的組件或設(shè)備故障,并評(píng)估其是否需要立即維護(hù),以避免任何可能導(dǎo)致服務(wù)中斷的容量損失?!?/span>
JuniperNetworks負(fù)責(zé)企業(yè)和云營(yíng)銷(xiāo)的副總裁MichaelBushong認(rèn)為,企業(yè)數(shù)據(jù)中心運(yùn)營(yíng)商應(yīng)該忽略一些與人工智能相關(guān)的過(guò)度宣傳和炒作,而專(zhuān)注于他所說(shuō)的“無(wú)聊的創(chuàng)新”
是的,人工智能系統(tǒng)可能有一天會(huì)“告訴我問(wèn)題出在哪里,并加以解決”,但是到了這一點(diǎn),許多數(shù)據(jù)中心運(yùn)營(yíng)商會(huì)接受“如果出了問(wèn)題,請(qǐng)告訴我要去哪里看”,Bushong說(shuō)依賴(lài)關(guān)系映射也是AI有用的一個(gè)重要但不是特別令人興奮的領(lǐng)域。如果數(shù)據(jù)中心經(jīng)理正在對(duì)防火墻或其他設(shè)備進(jìn)行策略更改,可能會(huì)產(chǎn)生什么意外后果?”如果我提出一個(gè)改變,知道爆炸半徑范圍內(nèi)可能有什么是很有用的。
保持設(shè)備平穩(wěn)、安全運(yùn)行的另一個(gè)重要方面是控制所謂的配置漂移(configurationdrift),這是一個(gè)數(shù)據(jù)中心術(shù)語(yǔ),指的是隨著時(shí)間的推移,臨時(shí)配置的變化會(huì)導(dǎo)致問(wèn)題的產(chǎn)生。Bushong說(shuō),人工智能可以作為“額外的安全檢查”來(lái)識(shí)別即將發(fā)生的基于配置的數(shù)據(jù)中心問(wèn)題。
人工智能與安全
Bizo認(rèn)為,人工智能和機(jī)器學(xué)習(xí)“可以通過(guò)對(duì)事件進(jìn)行快速分類(lèi)和聚類(lèi)來(lái)簡(jiǎn)化事件處理(事件響應(yīng)),從而識(shí)別出重要事件并將其與噪聲分離開(kāi)來(lái)。更快的根本原因分析有助于操作員做出明智的決定并采取行動(dòng)?!?/span>
人工智能在實(shí)時(shí)入侵檢測(cè)中特別有用,Schulz補(bǔ)充道?;谌斯ぶ悄艿南到y(tǒng)可以檢測(cè)、阻止和隔離威脅,然后可以回去進(jìn)行法醫(yī)調(diào)查,以確定到底發(fā)生了什么,黑客能夠利用哪些漏洞。
在安全操作中心(SOC)工作的安全專(zhuān)業(yè)人員經(jīng)常會(huì)收到過(guò)多的警報(bào),但基于人工智能的系統(tǒng)可以掃描大量的遙測(cè)數(shù)據(jù)和日志信息,從而清除日常任務(wù),從而使安全專(zhuān)家能夠騰出時(shí)間來(lái)處理更深層次的調(diào)查。
基于人工智能的工作負(fù)載優(yōu)化
在應(yīng)用程序?qū)?,AI有可能自動(dòng)將工作負(fù)載移動(dòng)到適當(dāng)?shù)闹扅c(diǎn),無(wú)論是在內(nèi)部部署還是在云端。”AI/ML將來(lái)應(yīng)該根據(jù)性能、成本、治理、安全、風(fēng)險(xiǎn)和可持續(xù)性的眾多規(guī)范,實(shí)時(shí)決定在哪里放置工作負(fù)載。
例如,工作負(fù)載可以自動(dòng)移動(dòng)到最省電的服務(wù)器,同時(shí)確保服務(wù)器以最高效率運(yùn)行,即70-80%的利用率。Bizo說(shuō),人工智能系統(tǒng)可以將性能數(shù)據(jù)整合到等式中,因此對(duì)時(shí)間敏感的應(yīng)用程序在高效服務(wù)器上運(yùn)行,同時(shí)確保不需要快速執(zhí)行的應(yīng)用程序不會(huì)消耗過(guò)多的能量。
基于人工智能的工作負(fù)載優(yōu)化引起了麻省理工學(xué)院研究人員的注意,他們?nèi)ツ晷妓麄冮_(kāi)發(fā)了一個(gè)人工智能系統(tǒng),可以自動(dòng)學(xué)習(xí)如何在數(shù)千臺(tái)服務(wù)器上調(diào)度數(shù)據(jù)處理操作。
但是,正如Bushong所指出的,現(xiàn)實(shí)情況是,如今的工作負(fù)載優(yōu)化是像亞馬遜、谷歌和Azure這樣的超大規(guī)模公司的專(zhuān)利,而不是一般的企業(yè)數(shù)據(jù)中心。原因有很多。
實(shí)施人工智能的挑戰(zhàn)
優(yōu)化和自動(dòng)化數(shù)據(jù)中心是正在進(jìn)行的數(shù)字化改造計(jì)劃的一個(gè)組成部分。戴爾的Tabet補(bǔ)充道,“借助COVID-19,許多公司現(xiàn)在都在尋求進(jìn)一步的自動(dòng)化,推動(dòng)人工智能驅(qū)動(dòng)、能夠自我修復(fù)的‘?dāng)?shù)字?jǐn)?shù)據(jù)中心’的理念?!?/span>
谷歌在2018年宣布,已將其數(shù)個(gè)超規(guī)模數(shù)據(jù)中心的冷卻系統(tǒng)控制權(quán)轉(zhuǎn)為人工智能程序,該公司報(bào)告稱(chēng),人工智能算法提供的建議使能源使用量減少了40%。
但是,Bizo說(shuō),對(duì)于那些名字不是谷歌的公司來(lái)說(shuō),在數(shù)據(jù)中心使用人工智能“在很大程度上是一種理想”。一些AI/ML特性在事件處理、基礎(chǔ)設(shè)施運(yùn)行狀況和冷卻優(yōu)化中可用。但是,AI/ML模型要取得比目前標(biāo)準(zhǔn)數(shù)據(jù)中心基礎(chǔ)設(shè)施管理(DCIM)更明顯的突破還需要更多年的時(shí)間。與自主汽車(chē)開(kāi)發(fā)非常相似,早期階段可能很有趣,但與它最終承諾的突破性經(jīng)濟(jì)/商業(yè)案例相去甚遠(yuǎn)?!?/span>
Tabet認(rèn)為,一些障礙是“需要雇傭或培訓(xùn)合適的人員來(lái)管理系統(tǒng)。另一個(gè)需要注意的問(wèn)題是數(shù)據(jù)標(biāo)準(zhǔn)和相關(guān)體系結(jié)構(gòu)的需要?!?/span>
Gartner這樣說(shuō):“AIOps平臺(tái)成熟度、it技能和運(yùn)營(yíng)成熟度是主要的阻礙因素。高級(jí)部署面臨的其他新挑戰(zhàn)包括數(shù)據(jù)質(zhì)量和“IT基礎(chǔ)設(shè)施和運(yùn)營(yíng)團(tuán)隊(duì)”缺乏數(shù)據(jù)科學(xué)技能。
Bushong補(bǔ)充說(shuō),最大的障礙一直是人。他指出,外雇數(shù)據(jù)科學(xué)家對(duì)許多企業(yè)來(lái)說(shuō)是一個(gè)挑戰(zhàn),對(duì)現(xiàn)有員工的培訓(xùn)也是一個(gè)障礙。
另外,Bushong說(shuō),員工抵制技術(shù)的歷史由來(lái)已久。他指出,軟件定義網(wǎng)絡(luò)(SDN)已經(jīng)存在了十年,但仍有四分之三以上的IT運(yùn)營(yíng)仍由CLI驅(qū)動(dòng)。
“我們必須相信,各種基礎(chǔ)設(shè)施的運(yùn)營(yíng)商準(zhǔn)備把控制權(quán)讓給人工智能,”Bushong表示?!叭绻蝗喝诉€不相信空管員能做出決定,那么你怎么訓(xùn)練、教育和安慰一群人,讓他們做出如此重大的轉(zhuǎn)變呢?業(yè)內(nèi)普遍的態(tài)度是,如果我這么做,我就會(huì)失業(yè)?!?/span>
這就是為什么Bushong建議企業(yè)在人工智能方面采取那些小而乏味的步驟,而不是陷入經(jīng)常圍繞一項(xiàng)新技術(shù)的炒作中。