最新人妻系列无码专区_久久综合九色综合本道_日本阿v一本到不卡免费_无码版在线观看视频

鐵甲工程機械網(wǎng)> 工程機械資訊> 行業(yè) > 數(shù)字孿生黃河算力建設實踐與思考

數(shù)字孿生黃河算力建設實踐與思考

語音播報
點擊播放

數(shù)字孿生黃河算力建設實踐與思考

Practice and reflections on the construction of computing power for the digital twin Yellow River

李自尊,王益民,楚楠

(黃河水利委員會信息中心,450004,鄭州)

摘要:合理規(guī)劃水利部黃河水利委員會算力資源布局,優(yōu)化算力資源設計,可為數(shù)字孿生黃河建設提供綠色、高效、安全、彈性的算力支撐。回顧了黃河水利委員會算力資源建設歷程,分析了算力資源、保障設施建設現(xiàn)狀,指出算力資源建設在多算力融合、算力資源服務能力、保障體系等方面存在的問題?;跀?shù)字孿生黃河建設對算力資源的需求,提出“整合已建、統(tǒng)籌在建、規(guī)范新建”的建設思路,整體設計采用中心算力“超集中”,邊緣算力“超分布”,算力內(nèi)核“多樣化”,多元算力、算力多主體融合供給的“兩超一多兩融合”的“云邊協(xié)同”布局思路,提出從基礎計算、高性能計算、人工智能計算等方面提升算力,基于算力資源管理平臺實現(xiàn)異構(gòu)資源統(tǒng)一納管、精細化權限管理等,從綠色機房環(huán)境、容災備份、分區(qū)分域算力資源建設等方面加強保障體系建設,以期為黃河及其他流域后續(xù)算力資源規(guī)劃建設提供參考。

關鍵詞:數(shù)字孿生黃河;算力;算力布局;多算力融合;保障體系

作者簡介:李自尊,高級工程師,主要研究方向為水利信息化、數(shù)據(jù)匯聚治理及云數(shù)據(jù)中心建設。

DOI:10.3969/j.issn.1000-1123.2025.03.003

隨著技術推陳出新及運營模式發(fā)展變革,算力資源服務云化、配置標準化、管理自動化已成為新一代算力中心的顯著特點。水利部黃河水利委員會(以下簡稱黃委)算力基礎設施建設起步較早,2004年成立了全國水利系統(tǒng)的首家數(shù)據(jù)中心,并形成了以黃河數(shù)據(jù)中心為主,委屬單位山東黃河河務局、河南黃河河務局、黃河上中游管理局、水文局、黃河水利科學研究院等分散建設的算力基礎設施布局。近年,通過實施水利財務管理信息系統(tǒng)、黃委綜合管理信息資源整合與共享等重點項目,黃河數(shù)據(jù)中心引入云計算、虛擬化等先進技術理念,以構(gòu)建面向服務的云服務中心體系為目標,初步實現(xiàn)了物理資源的整合共享、靈活管理,提升了應用系統(tǒng)的部署效率,一定程度提高了計算資源的復用率。隨著數(shù)字孿生黃河建設的深入,數(shù)據(jù)類型更加復雜多樣,數(shù)據(jù)來源更加豐富,計算模型更加復雜融合,計算方式更加多元,對算力資源的需求也更加復雜、多元、融合。當前,委屬各單位算力資源分散部署,整體算力指標強但資源服務能力弱,且傳統(tǒng)算力資源無法滿足人工智能、高性能計算等新技術應用需求。

2020年國家發(fā)展改革委、中央網(wǎng)信辦、工業(yè)和信息化部、國家能源局聯(lián)合印發(fā)《關于加快構(gòu)建全國一體化大數(shù)據(jù)中心協(xié)同創(chuàng)新體系的指導意見》,明確指出“優(yōu)化數(shù)據(jù)中心基礎設施建設布局,加快實現(xiàn)數(shù)據(jù)中心集約化、規(guī)?;?、綠色化發(fā)展”;2021年工業(yè)和信息化部出臺《新型數(shù)據(jù)中心發(fā)展三年行動計劃(2021—2023年)》,引導傳統(tǒng)數(shù)據(jù)中心向具有高技術、高算力、高能效、高安全特征的新型數(shù)據(jù)中心演進,推動CPU、GPU等異構(gòu)算力提升,支撐各類智能應用;2022年水利部印發(fā)《數(shù)字孿生流域建設技術大綱(試行)》,提出建成省級及以上水行政主管部門水利云,實現(xiàn)計算存儲資源按需分配、彈性伸縮,為數(shù)字孿生流域提供安全可靠“算力”保障。

為適應智慧水利建設要求和黃河流域高質(zhì)量發(fā)展客觀需要,亟待推進黃委算力布局統(tǒng)籌共享,優(yōu)化資源配置,提升資源服務能力,支撐新時期數(shù)字孿生黃河建設。

黃委算力資源建設歷程

黃委算力資源建設主要經(jīng)歷“數(shù)字黃河”“數(shù)字孿生黃河”兩個階段。2001年7月25日,黃委黨組正式提出建設“數(shù)字黃河”工程。2003年“數(shù)字黃河”工程規(guī)劃正式發(fā)布,明確要求建設黃河數(shù)據(jù)中心,黃委算力資源采取“1+7”建設模式,即1個數(shù)據(jù)中心,委屬單位水文局、山東黃河河務局、河南黃河河務局、黃河流域水資源保護局、黃河勘測規(guī)劃設計研究院有限公司、黃河水利科學研究院、黃河上中游管理局7個分中心,并將分中心數(shù)據(jù)在中心備份。2004年,黃河數(shù)據(jù)中心一期工程建設完成,成為全國水利系統(tǒng)首家投入應用的數(shù)據(jù)中心,并在后續(xù)建設中逐步形成了“黃河數(shù)據(jù)中心+數(shù)據(jù)分中心”的運行模式。然而,隨著設備老化、技術迭代和管理模式變化,中心與分中心之間的數(shù)據(jù)交換已經(jīng)停止,分中心的數(shù)據(jù)也不再向數(shù)據(jù)中心備份。

“數(shù)字黃河”階段數(shù)據(jù)存儲能力達到了10TB級規(guī)模,重點存放基礎數(shù)據(jù)和監(jiān)測站點采集的結(jié)構(gòu)化數(shù)據(jù),采用FC-SAN存儲技術滿足數(shù)據(jù)高速IOPS訪問需求?;A計算以物理機部署模式為主,并逐步開始向虛擬化方式部署轉(zhuǎn)變;高性能計算平臺浮點運算速度為每秒3840億次,主要為黃委氣象水文預報、下游水沙過程演進模擬運算提供計算支撐;基于機器學習、自然語言處理等技術的人工智能計算尚未得到應用。

按照水利部統(tǒng)一部署,黃委2022年開展數(shù)字孿生先行先試,國產(chǎn)化算力進一步提升。衛(wèi)星、無人機、視頻、無人船、工情險情監(jiān)測感知設備等新型監(jiān)測感知技術的普遍應用,使覆蓋水利對象全要素和水利治理管理全過程的數(shù)據(jù)類型日益繁雜,數(shù)據(jù)量遠超PB級,以云計算方式部署的基礎計算已成為主流,高性能并行計算集群及人工智能計算作為通用計算的補充,應用需求旺盛。

數(shù)字孿生黃河算力建設實踐

1.算力資源建設

在國家新型基礎設施建設、信創(chuàng)要求及水利部數(shù)字孿生流域建設相關政策文件的指導下,按照“集約高效、共享開放、安全可靠、按需服務”的原則,在黃河云平臺基礎上,對云資源進行補充、提升和完善,形成融合了X86、ARM等不同架構(gòu)類型,涵蓋CPU、GPU等不同芯片的多元異構(gòu)黃河云,有效支撐了智能遙感解譯、無人機智能識別等智能并行運算,以及黃河水旱災害防御、水資源管理與調(diào)配等“2+N”智能應用系統(tǒng)的高效穩(wěn)定運行,滿足了業(yè)務多樣化的計算需求。計算資源分為基礎計算、高性能計算和人工智能計算三類,包括國產(chǎn)化和非國產(chǎn)化兩套體系。

基礎計算通常指日常業(yè)務處理和信息服務計算,包括數(shù)據(jù)中心的服務器、存儲和網(wǎng)絡設備等基礎設施,主要用于業(yè)務邏輯流程處理。黃委基礎計算資源主要集中部署在黃河數(shù)據(jù)中心,并分布在山東黃河河務局、河南黃河河務局、水文局、黃河上中游管理局等委屬單位。黃河數(shù)據(jù)中心于2015年開始引入云計算技術,開展了X86云平臺建設,共有88個物理CPU,13TB內(nèi)存,投入生產(chǎn)運行300余臺虛擬機。目前X86云平臺內(nèi)存使用率超70%,云計算平臺承載能力已經(jīng)超過理論建議閾值,不再計劃擴充。隨著國產(chǎn)化的推進,2020年開始搭建國產(chǎn)云平臺,選用ARM架構(gòu)國產(chǎn)芯片搭建了計算資源池及存儲資源池,操作系統(tǒng)選用銀河麒麟V10,主要用于承載公文流轉(zhuǎn)、移動辦公等國產(chǎn)化改造后的電子政務系統(tǒng)。數(shù)據(jù)庫為集中方式部署,組建了2節(jié)點Oracle RAC集群,目前承載了幾十個業(yè)務系統(tǒng),已經(jīng)高負荷運轉(zhuǎn)??紤]到系統(tǒng)性能,近兩年購置的國產(chǎn)數(shù)據(jù)庫,均為每套部署一個或幾個業(yè)務應用。

高性能計算是能夠?qū)Υ罅咳蝿者M行高效快速運算的技術,為科學研究提供大規(guī)模高性能科學計算和仿真計算服務。2006年,黃河水利科學研究院建成了流域機構(gòu)第一家高性能計算平臺——黃河超級計算中心。隨著數(shù)字孿生黃河對“四預”(預報、預警、預演、預案)精度和時效性要求不斷提高,黃委高性能計算集群能力近年得到一定提升,主要集中部署在委屬單位黃河水利科學研究院和水文局,用于二三維水動力學模型、黃河流域堤壩潰決及洪水演進模型、黃河主要來水區(qū)間中長期徑流預報模型等專業(yè)模型的高效計算。

人工智能計算是指用于執(zhí)行人工智能算法和模型的計算過程,包括機器學習、自然語言處理、深度學習和計算機視覺等領域的計算?;谌斯ぶ悄芩惴ǖ倪b感智能提取與分析、視頻智能識別等技術在黃委河湖庫“清四亂”(清理亂占、亂采、亂堆、亂建)、冰川融雪徑流中長期預報等領域逐步開展應用,主要采用以英偉達GPU為主的人工智能計算芯片。

2.保障設施建設

黃河數(shù)據(jù)中心機房樓為單獨樓體,為水旱災害防御、水資源管理與調(diào)配、“黃河一張圖”等幾十個治黃業(yè)務系統(tǒng)的生產(chǎn)運行提供支撐。同時根據(jù)黃委算力資源分布,委屬單位分散建設機房環(huán)境。由于建設年代較早,黃河數(shù)據(jù)中心機房基于傳統(tǒng)機房模式建設,制冷效率低、機房能耗大,且涉及裝修、制冷、供配電、消防等多專業(yè)分散集成,運維管理要求高。

為應對黃河云運行中資源監(jiān)控分散、缺乏業(yè)務視角全局監(jiān)控、輔助決策能力不足以及國產(chǎn)化資源監(jiān)控手段缺失等問題,構(gòu)建了基于國產(chǎn)化技術的黃委信息系統(tǒng)智能運維監(jiān)控平臺。該平臺整合了信息系統(tǒng)資源,實現(xiàn)了資源監(jiān)控、運維流程、資產(chǎn)管理和綜合展示分析等功能的閉環(huán)管理,精細化云資源管理,一定程度提高了故障響應效率和云資源服務質(zhì)量,確保了上層業(yè)務系統(tǒng)的穩(wěn)定運行。

容災備份方面黃河數(shù)據(jù)中心基于備份一體機及虛擬化平臺自帶的備份功能,實現(xiàn)核心數(shù)據(jù)及重要業(yè)務系統(tǒng)的本地備份。部分委屬單位建有本地備份系統(tǒng)。

3.差距與問題

①多算力融合實踐成果不佳。一是委屬各單位算力底層架構(gòu)采用的技術路線、芯片型號各異,未進行有效整合,算力資源無法有效兼容和調(diào)度,影響了整體效益的發(fā)揮;二是委屬各單位應用系統(tǒng)分散建設,數(shù)據(jù)格式、編譯環(huán)境、接口標準等不一致,導致系統(tǒng)間融合使用困難,可操作性差,影響系統(tǒng)整體效能;三是國產(chǎn)化算力占比不高,部分重要業(yè)務系統(tǒng)需要進一步開展國產(chǎn)化適配;四是算力基礎制度體系不健全,算力整合共享管理等制度辦法落實缺乏強有力的抓手。

②算力資源服務能力有待提升一是算力資源總量不足,現(xiàn)有算力資源多隨系統(tǒng)或特定項目建設,沒有過多冗余資源,存儲資源總量已使用近80%,計算資源已近超分1:2閾值;二是尚未建立大規(guī)模面向業(yè)務生產(chǎn)運行的高性能計算和人工智能計算平臺。

③保障體系存在薄弱環(huán)節(jié)。一是機房整體能耗高,目前黃河數(shù)據(jù)中心采用傳統(tǒng)機房模式,非IT設備用電量占數(shù)據(jù)中心總能耗60%~70%,PUE(Power Usage Effectiveness,電源使用效率)值約為3.7,能耗大,運行成本高,不符合國家機房能效標準;二是根據(jù)《信息安全技術 網(wǎng)絡安全等級保護基本要求》(GB/T 22239—2019),第三級安全要求“應提供異地實時備份功能,利用通信網(wǎng)絡將重要數(shù)據(jù)實時備份至備份場地”,黃河數(shù)據(jù)中心需要建立數(shù)據(jù)異地災備系統(tǒng);三是政務外網(wǎng)區(qū)和互聯(lián)網(wǎng)區(qū)未嚴格按照網(wǎng)絡分區(qū)分域管理,存在混淆使用算力資源情況,具有較大網(wǎng)絡安全風險。

數(shù)字孿生黃河算力建設思考

1.建設思路

按照“整合已建、統(tǒng)籌在建、規(guī)范新建”的建設思路,遵循國家、水利部關于算力資源集約化、規(guī)?;?、綠色化部署要求及國產(chǎn)化戰(zhàn)略要求,進一步挖掘算力資源潛能,統(tǒng)籌國產(chǎn)算力布局,擴充算力資源,構(gòu)建數(shù)字孿生多元算力融合的黃河云。通過黃河云以虛擬數(shù)據(jù)中心(VDC)或多租戶的方式共享算力,支撐流域“2+N”應用,建成數(shù)字孿生水利的黃河流域節(jié)點和數(shù)據(jù)災備中心。

數(shù)字孿生黃河算力布局統(tǒng)籌共享總體思路

①整合已建委屬各單位現(xiàn)有算力資源物理位置保持不變,采用虛擬化或云化技術的國產(chǎn)化算力資源邏輯納入多元算力融合黃河云,不具備或無法整合的算力資源維持現(xiàn)狀使用,并逐步過渡到統(tǒng)一管理、按需共享。

②統(tǒng)籌在建。在建算力資源按照統(tǒng)一的技術標準納入黃河云統(tǒng)一算力資源管理體系,形成算力合力。

③規(guī)范新建。服務于委級業(yè)務的應用,采用國產(chǎn)化技術統(tǒng)一部署在黃河數(shù)據(jù)中心,通過集約建設、集中部署、統(tǒng)籌管理,將有限資源優(yōu)先滿足數(shù)字孿生關鍵領域、核心業(yè)務的發(fā)展需要,既合理利用資源,又減少機房環(huán)境、網(wǎng)絡安全等重復建設導致的資源浪費、安全風險點增加等不合理現(xiàn)象。其他應用原則上采用國產(chǎn)化技術云化部署,將新增算力資源與黃河云算力資源管理平臺對接,實時歸集云資源使用數(shù)據(jù)、云平臺運行數(shù)據(jù)等,實現(xiàn)全委算力資源的統(tǒng)一管理及調(diào)度。

2.算力布局

黃河全長5464km,流域面積79.5萬km2,范圍大,距離長,環(huán)境復雜,全流域數(shù)據(jù)獲取困難??紤]到系統(tǒng)響應時效及通信帶寬等因素,根據(jù)數(shù)字孿生黃河建設數(shù)據(jù)采集、處理、分析需求,設計整體采用“兩超一多兩融合”的“云邊協(xié)同”布局思路,即中心算力“超集中”,邊緣算力“超分布”,算力內(nèi)核“多樣化”,多元算力、算力多主體融合供給。

(1)中心算力“超集中”

①集約化建設。將分散的算力資源整合至黃河數(shù)據(jù)中心,形成規(guī)模化、集約化的算力中心,降低建設成本,減少安全風險點,提高運維效率,更好地滿足數(shù)字孿生黃河對大規(guī)模計算資源的需求。集中建設和分散建設兩種模式對比見下表。

集中建設和分散建設模式對比

②綠色節(jié)能。集約化建設可減少單體小規(guī)模機房數(shù)量,采用模塊化機房技術,對現(xiàn)有機房進行節(jié)能改造,降低能耗,響應國家綠色發(fā)展戰(zhàn)略。

(2)邊緣算力“超分布”

①邊緣節(jié)點建設。在黃河流域的關鍵區(qū)域部署邊緣云計算節(jié)點,靠近數(shù)據(jù)源進行數(shù)據(jù)采集、處理和分析,降低延遲,提高響應速度,減輕中心算力的負擔。

②云邊協(xié)同。通過云邊協(xié)同技術,實現(xiàn)中心算力與邊緣算力的協(xié)同工作,合理分配計算任務,優(yōu)化資源利用,提升系統(tǒng)整體性能和可靠性。相比傳統(tǒng)的云端數(shù)據(jù)處理,云邊協(xié)同模式下,云端計算集群、邊緣網(wǎng)絡節(jié)點、物聯(lián)網(wǎng)智能終端都可參與到感知、學習和決策的過程中。例如,在智能視頻監(jiān)控系統(tǒng)中,端設備(如智能攝像頭)實時檢測和識別水位線變化、非法捕撈行為等,邊緣設備進行圖像增強、目標跟蹤、預警處置;而云計算中心則用于更復雜的數(shù)據(jù)分析和長期決策支持,如預測水位變化趨勢,接收邊緣設備上傳的預警信息,進一步支持決策和資源調(diào)度。

“云邊協(xié)同”模式

(3)算力內(nèi)核“多樣化”

①異構(gòu)融合。采用多種芯片架構(gòu)(如CPU、GPU、TPU等)和計算平臺架構(gòu)(如虛擬化、高性能計算、人工智能計算等),構(gòu)建多元異構(gòu)融合的算力資源池,滿足不同業(yè)務場景下的多樣化計算需求。

②彈性擴展。基于云計算技術,實現(xiàn)算力資源的彈性擴展,根據(jù)業(yè)務需求動態(tài)調(diào)整資源分配,提高資源利用率。

(4)多元算力、算力多主體融合供給

①資源共享。建立黃河數(shù)據(jù)中心與邊緣節(jié)點的統(tǒng)一管理機制,通過資源虛擬化、異構(gòu)計算框架構(gòu)建、智能資源調(diào)度、負載均衡、存儲分層、網(wǎng)絡通信優(yōu)化等技術有效整合與協(xié)同多元異構(gòu)算力資源,實現(xiàn)算力資源的共享和調(diào)度,避免資源閑置和浪費。

②多方協(xié)同。積極探索與國家超級計算中心、省級數(shù)據(jù)中心等算力資源合作,實現(xiàn)多方協(xié)同供給,滿足黃委對算力的多樣化需求。

3.技術架構(gòu)

數(shù)字孿生黃河算力總體框架設計包括物理資源層、云資源層、資源服務及管理層、資源使用層、資源應用層。

數(shù)字孿生黃河算力總體框架

物理資源層包含機房環(huán)境,CPU、GPU等異構(gòu)計算資源,以及塊、對象、文件等多種類型的存儲資源,通過網(wǎng)絡互聯(lián)設備及必要的安全設備,將黃河數(shù)據(jù)中心、邊緣云計算節(jié)點、災備中心互聯(lián)互通,從而形成統(tǒng)一算力基礎設施。

云資源層通過虛擬化、多云管理、高性能計算集群管理等多種技術手段,將物理資源整合為計算存儲等資源池,對上提供統(tǒng)一資源服務,主要包括虛擬化資源池、數(shù)據(jù)庫資源池、人工智能計算資源池、大數(shù)據(jù)資源池、容器資源池、高性能計算資源池。

資源服務及管理層包括自助服務門戶及統(tǒng)一管理門戶,將底層算力資源統(tǒng)一以資源服務目錄形式提供給上層應用,并實現(xiàn)對資源的統(tǒng)一監(jiān)控、統(tǒng)一管理、統(tǒng)一調(diào)度。

資源使用層用戶通過虛擬數(shù)據(jù)中心或租戶形式以虛擬機、容器等多種方式使用算力資源,部署生產(chǎn)業(yè)務應用、模型計算或開發(fā)測試。

4.算力設計

(1)算力能力提升

以云計算、高性能計算、人工智能等新技術為基礎,構(gòu)建數(shù)字孿生黃河算力中心節(jié)點,為數(shù)字孿生黃河建設水利專業(yè)模型、智能模型、可視化模型等算法的并行計算、分布計算、模擬仿真需求及“2+N”智能業(yè)務運行提供高性能、高可靠、高安全的算力支撐,實現(xiàn)建設集約化、資源共享化、服務標準化、效益最大化。

按照功能分區(qū),將算力資源整體分為基礎計算資源區(qū)、人工智能區(qū)、高性能計算區(qū)及存儲備份資源區(qū)。整體平臺架構(gòu)邏輯如下圖所示。

數(shù)字孿生黃河算力部署架構(gòu)

①基礎計算業(yè)務區(qū)。基礎計算業(yè)務區(qū)采用云計算平臺架構(gòu)建設,由基礎計算服務器、數(shù)據(jù)庫服務器、存儲設備、云平臺管理軟件、數(shù)據(jù)庫管理軟件等組成,其中基礎計算服務器基于虛擬化與容器等技術提供云化計算、存儲資源,數(shù)據(jù)庫服務器采用裸金屬部署方式?;A計算業(yè)務區(qū)分為計算、管理和存儲組網(wǎng),其中存儲在數(shù)據(jù)中心內(nèi)部單獨組網(wǎng),計算和管理分別組網(wǎng)再匯聚上聯(lián)。

②高性能計算區(qū)。高性能計算為并行計算架構(gòu),采用獨立的并行計算框架底層架構(gòu)邏輯,通過并行環(huán)境與并行調(diào)度軟件搭建一套為科學計算、模型運算提供應用服務的高性能平臺。前端業(yè)務設計采用10GE網(wǎng)絡互聯(lián),后端存儲及計算節(jié)點互聯(lián)設計采用100GE網(wǎng)絡互聯(lián)組網(wǎng),提供高速穩(wěn)定的網(wǎng)絡環(huán)境,保障高性能計算服務器之間的無縫協(xié)同工作,確保計算節(jié)點之間的通信暢通。

③人工智能區(qū)。人工智能計算與基礎計算平臺或高性能計算納入統(tǒng)一管理,通過GPU直通、容器等方式為上層業(yè)務提供AI計算能力。前端業(yè)務設計采用10GE網(wǎng)絡互聯(lián),后端存儲互聯(lián)與基礎計算業(yè)務區(qū)或高性能計算區(qū)共用存儲網(wǎng)絡。

④存儲備份資源。主要包括塊存儲、文件存儲、對象存儲及備份存儲資源。塊存儲與上層計算資源采用FC-SAN組網(wǎng),由光纖交換機連接計算及存儲資源;文件存儲及對象存儲采用分布式存儲架構(gòu),存儲系統(tǒng)內(nèi)部互聯(lián)、存儲節(jié)點與計算節(jié)點互聯(lián)均采用25GE以上網(wǎng)絡。

(2)算力資源管理平臺建設

按照集約共享的方式,集約化建設算力資源,通過采取異構(gòu)資源統(tǒng)一納管、多級組織及精細化權限管理、自助化統(tǒng)一服務門戶、算力資源運營閉環(huán)管理、云服務質(zhì)量監(jiān)管等多種技術手段,按需為上層應用提供高效彈性的算力資源服務。

①異構(gòu)資源統(tǒng)一納管。基于統(tǒng)一技術標準,將不同類型(如CPU、GPU)及不同芯片架構(gòu)(如ARM架構(gòu)、X86架構(gòu))的計算資源納入統(tǒng)一資源管理體系,優(yōu)化資源分配及調(diào)度,實現(xiàn)對各種資源的最大化利用及高效管理,為上層應用提供靈活的計算能力,提升算力整體運行效率及服務質(zhì)量。

②多級組織與精細化權限管理。面向機關部門、委屬單位設置算力資源多級組織管理,對于山東黃河河務局、河南黃河河務局、水文局、黃河水利科學研究院等算力資源需求較旺盛且具有一定技術管理能力的委屬單位,通過云計算技術建立虛擬數(shù)據(jù)中心,劃分一定算力資源由上述單位進行日常管理及自主分配,黃河數(shù)據(jù)中心對分配資源進行統(tǒng)一監(jiān)控及運維分析;對于機關部門,以及陜西黃河河務局、山西黃河河務局、機關服務局等委屬單位,直接申請使用算力資源,黃河數(shù)據(jù)中心按照租戶模式為其劃分計算存儲資源并統(tǒng)一運行維護。

③自助化統(tǒng)一服務門戶。基于統(tǒng)一的服務門戶發(fā)布算力資源服務目錄,用戶可以快速通過服務目錄選擇計算、存儲資源,提升算力自服務能力。

④算力資源運營閉環(huán)管理。提供算力資源治理、計量計費、服務運營等自動化支撐工具,融合資源編排、資產(chǎn)配置可視化等多種技術手段,靈活組合各類算力資源,降低分散算力資源的運維成本,提供可持續(xù)的算力服務。

⑤云服務質(zhì)量監(jiān)管。基于統(tǒng)一資源監(jiān)控,在性能、可靠性、資源使用率、運行成本等多個方面出具專業(yè)的系統(tǒng)評估報告及資源升配、降配、閑置停用等優(yōu)化建議,提升云服務質(zhì)量,合力分配算力資源。

(3)保障體系建設

①基礎環(huán)境。貫徹新發(fā)展理念,助力實現(xiàn)碳達峰、碳中和,進一步契合云計算、虛擬化、集中化、高密化等服務器發(fā)展趨勢,在黃河數(shù)據(jù)中心統(tǒng)一機房建設基礎環(huán)境。采用模塊化機房技術,實現(xiàn)對黃河數(shù)據(jù)中心機房的模塊化節(jié)能改造,擴展機房可用空間,力爭達到國家A級機房標準,最大程度降低數(shù)據(jù)中心整體能耗,節(jié)約電能消耗40%以上,PUE值達到1.3~1.5。

②災備體系。以黃河數(shù)據(jù)中心為主體,采用“兩地三中心”技術架構(gòu)建立流域容災備份體系。同城災備中心實現(xiàn)重要業(yè)務數(shù)據(jù)容災及核心業(yè)務應用容災,在保障核心業(yè)務連續(xù)性的同時,為智能算法、數(shù)字孿生、科學研究、系統(tǒng)研發(fā)等提供場景支撐和開發(fā)平臺,避免災備中心日常資源閑置;建設委級數(shù)據(jù)災備系統(tǒng),實現(xiàn)委屬單位重要業(yè)務數(shù)據(jù)在黃河數(shù)據(jù)中心的集中統(tǒng)一災備,并將黃河數(shù)據(jù)中心本地重要數(shù)據(jù)異地災備至異地災備中心,實現(xiàn)核心業(yè)務數(shù)據(jù)容災和關鍵業(yè)務應用容災。

③算力資源分區(qū)分域建設。按照網(wǎng)絡安全要求規(guī)范分區(qū)建設,滿足互聯(lián)網(wǎng)業(yè)務應用及數(shù)據(jù)采集需求,采用超融合技術,在互聯(lián)網(wǎng)隔離區(qū)(DMZ區(qū))建設虛擬化平臺,為上層業(yè)務提供統(tǒng)一的計算存儲服務,實現(xiàn)政務外網(wǎng)區(qū)和互聯(lián)網(wǎng)區(qū)的邏輯隔離,通過網(wǎng)絡安全設備實現(xiàn)二者的數(shù)據(jù)交換。

結(jié)語

在國家新型數(shù)據(jù)中心建設和數(shù)字孿生黃河建設整體框架體系下,通過合理規(guī)劃、建設、管理黃委算力提升資源服務能力,是本研究的出發(fā)點?;仡櫫它S委算力資源發(fā)展歷程,分析了黃委算力資源建設的現(xiàn)狀及問題,提出了“整合已建、統(tǒng)籌在建、規(guī)范新建”的建設思路,以及“兩超一多兩融合”的“云邊協(xié)同”算力布局方案。通過構(gòu)建多元異構(gòu)融合的黃河云,加強算力資源平臺及保障體系建設,將有效提升黃委算力資源服務能力,為數(shù)字孿生黃河建設提供有力支撐。未來,超集中的中心算力、超分布的邊緣算力、云邊算力間的協(xié)同保障體系的建設和落地執(zhí)行,有待進一步深入研究。

Abstract: Rational planning of the Yellow River Conservancy Commission’s computing power resource layout and optimization of computing power resource design can provide green, efficient, secure, and flexible computing support for the construction of the digital twin Yellow River. This paper reviews the construction history of the Commission’s computing power resources, analyzes the current status of computing resources and supporting facilities, and identifies issues in areas such as multi-computing power integration, service capabilities of computing resources, and support systems. Based on the computing power requirements for the digital twin Yellow River, the paper proposes a construction approach of “integrating existing resources, coordinating ongoing projects, and standardizing new constructions”. The overall design adopts a “cloud-edge collaboration” layout strategy characterized by “super-centralized central computing power, super-distributed edge computing power, diversified computing cores, and integrated multi-source and multi-entity computing power supply”. It suggests enhancing computing capabilities in basic computing, high-performance computing, and artificial intelligence computing. The paper also recommends achieving unified management of heterogeneous resources and refined permission management through a computing power resource management platform, and strengthening the support system in areas such as green data center environments, disaster recovery backups, and regional computing resource construction. These insights aim to provide a reference for the planning and construction of computing power resources for the Yellow River and other river basins.

Keywords: digital twin Yellow River; computing power; computing power layout; multi-computing power integration; support system

本文引用格式:

李自尊,王益民,楚楠.數(shù)字孿生黃河算力建設實踐與思考[J].中國水利,2025(3):22-30

封面供圖水利部黃河水利委員會

責編王慧

校對董林玥

審核軒瑋

監(jiān)制趙洪濤



聲明:本文系轉(zhuǎn)載自互聯(lián)網(wǎng),請讀者僅作參考,并自行核實相關內(nèi)容。若對該稿件內(nèi)容有任何疑問或質(zhì)疑,請立即與鐵甲網(wǎng)聯(lián)系,本網(wǎng)將迅速給您回應并做處理,再次感謝您的閱讀與關注。

相關文章
我要評論
表情
歡迎關注我們的公眾微信