“100強”制造業(yè)企業(yè)的VMware遷移實戰(zhàn)
作為中國電子信息100強企業(yè),某制造業(yè)企業(yè)是一家在 PCB、PCBA、SUB、SIP 等領(lǐng)域具有出色實力的高新技術(shù)企業(yè),在電子電路行業(yè)起著舉足輕重的作用。
在集團數(shù)字化轉(zhuǎn)型過程中,傳統(tǒng)架構(gòu)無法滿足業(yè)務連續(xù)性需求,面臨著業(yè)務發(fā)展與技術(shù)創(chuàng)新的挑戰(zhàn)。為了實現(xiàn)新型數(shù)字化業(yè)務的需求,集團決定使用深信服超融合基礎設施替換原有的VMware,以適應用戶業(yè)務的動態(tài)變化和增長需求。
老舊的 VMware 虛擬化平臺已無法滿足業(yè)務需求,主要存在以下問題:
缺乏維護: 現(xiàn)有的VMware vSphere 5.1 虛擬化平臺已使用超過10年之久,目前已不再享有官方的維護服務,這意味著平臺可能面臨安全漏洞、兼容性問題以及性能瓶頸,同時缺乏必要的技術(shù)支持,這將會對業(yè)務和數(shù)據(jù)帶來風險。
成本問題: VMware對中國大陸用戶的政策調(diào)整導致續(xù)費和轉(zhuǎn)向訂閱模式的成本顯著增加。且VMware平臺的相關(guān)組件擴容和秒級備份解決方案的成本也相對較高。
業(yè)務瓶頸: 隨著業(yè)務的持續(xù)增長,對計算、存儲和網(wǎng)絡資源的需求日益增加,原有的VMware平臺在處理高并發(fā)業(yè)務時顯得力不從心。這不僅影響了業(yè)務的擴展性和靈活性,還可能導致性能瓶頸,影響用戶體驗和業(yè)務效率。
一、 建設方案概述
( 一 ) 建設方案
1. 整體架構(gòu)升級
本次項目擬采用深信服超融合基礎設施來替換原有的VMware虛擬化平臺,使用超融合建設普通混閃存儲和高性能混閃存儲兩個資源池,同時對接用戶現(xiàn)有的 DELL FC 外置存儲空間,形成一平臺多存儲的融合資源池。從傳統(tǒng)的單一虛擬化升級為私有云資源池架構(gòu),優(yōu)化業(yè)務信息系統(tǒng)架構(gòu),更好地適應企業(yè)業(yè)務的動態(tài)變化和增長需求。
原 VMware 配置清單如下:
CPU 配置:20×44 C
內(nèi)存:20×768 G
磁盤信息:Dell FC 存儲約 100T
備注:ESXI 5.1
本次項目深信服配置清單如下:
CPU 配置:77×32 C
內(nèi)存:77×768 G
磁盤信息:普通混閃集群 1.2P(緩存比 10%)、高性能混閃集群 600T(緩存比 24%)、全閃集群 600T。多套集群用于業(yè)務區(qū)分(HCI 6.8.0R2)
2. 業(yè)務系統(tǒng)遷移策略關(guān)鍵業(yè)務系統(tǒng)針對性遷移
在進行業(yè)務系統(tǒng)遷移時,確保業(yè)務連續(xù)性和穩(wěn)定性至關(guān)重要。針對SRM、CRM、EKP和PCB_MES等關(guān)鍵業(yè)務系統(tǒng)進行詳細的業(yè)務影響分析來評估每個系統(tǒng)在業(yè)務中斷時的潛在影響,并確定它們的RTO和RPO要求,以便制定遷移優(yōu)先級和資源分配。為了最小化業(yè)務中斷,在非高峰時段進行遷移,并采用增量遷移技術(shù)來減少對業(yè)務的影響,確保遷移過程能夠最大程度地保障業(yè)務的連續(xù)性和穩(wěn)定性。
3. 強大的備份機制CDP模塊實現(xiàn)秒級備份
在可靠性方面,本次項目擬采用數(shù)據(jù)冗余架構(gòu),在兩個相距約五公里的數(shù)據(jù)中心之間搭建起一座數(shù)據(jù)冗余的橋梁,實現(xiàn)雙活。確保當數(shù)據(jù)中心出現(xiàn)故障時,業(yè)務仍然能夠不間斷運行。同時基于深信服超融合的無代理CDP模塊,實現(xiàn)對重要業(yè)務系統(tǒng)的秒級備份。規(guī)劃將1T的 IO 日志存放于虛擬存儲,備份數(shù)據(jù)存放于外置存儲EDS上,在面對突發(fā)故障時,能夠迅速從備份中恢復數(shù)據(jù),做到RPO =1s。
( 二 ) 方案優(yōu)勢
1. 高性能與高效能提升系統(tǒng)表現(xiàn)
超融合基礎設施在軟硬件層面深度優(yōu)化,在計算資源層面更有效地應對企業(yè)業(yè)務系統(tǒng)的高并發(fā)處理需求,加速復雜生產(chǎn)管理系統(tǒng)、設計模擬軟件以及數(shù)據(jù)分析工具的響應速度,從而極大提高工作效率。存儲方面使用高性能混閃卷和全閃卷來滿足高IO的性能承載需求。
2. 優(yōu)化資源利用率
通過精細化的資源整合和智能調(diào)度機制,顯著提升了資源利用效率,確保了業(yè)務系統(tǒng)的靈活性和高效性。這種優(yōu)化允許不同業(yè)務系統(tǒng)根據(jù)自身的具體需求動態(tài)分配資源,有效避免了資源的閑置和浪費。特別是在業(yè)務高峰期,系統(tǒng)能夠自動識別并優(yōu)先分配資源給關(guān)鍵業(yè)務,保障其性能穩(wěn)定和響應迅速。而在業(yè)務低谷期,系統(tǒng)則能夠智能回收閑置資源,從而減少能源消耗和降低運營成本。
3. 成本效益優(yōu)勢,降低軟硬件成本
采用超融合資源池架構(gòu)簡化數(shù)據(jù)中心的基礎設施,減少了對多種獨立硬件設備的需求。企業(yè)不再需要依賴于傳統(tǒng)的、由單獨服務器、存儲設備和網(wǎng)絡設備構(gòu)成的復雜組合。這樣的集成化設計不僅降低了硬件采購成本,還減少了因設備多樣性而產(chǎn)生的維護工作和相關(guān)費用,不僅降低了企業(yè)的總體擁有成本(TCO),還增強了系統(tǒng)的可擴展性和靈活性。
4. 安全保障提升,數(shù)據(jù)安全增強
內(nèi)置的安全防護機制和完善的備份策略,確保了企業(yè)數(shù)據(jù)的安全性和完整性。CDP 備份保護機制、數(shù)據(jù)冗余和雙活架構(gòu)等措施,有效地防止了數(shù)據(jù)丟失和損壞,有效解決了用戶在數(shù)據(jù)保護與安全防護方面的后顧之憂。這對于制造業(yè)企業(yè)而言,保護了其研發(fā)數(shù)據(jù)、用戶信息、生產(chǎn)工藝數(shù)據(jù)等重要資產(chǎn),確保企業(yè)的核心競爭力不受影響。
二、 遷移過程
本次遷移工程始于 2023 年初,持續(xù)至 2024 年 10 月,歷經(jīng)近兩年的時間跨度,是一項復雜而艱巨的任務。整個過程可以分為以下幾個主要階段:
( 一 ) 前期準備階段
1. 業(yè)務分層設計
在正式開始遷移之前,深信服進行了全面而細致的準備工作。首先,對用戶的業(yè)務進行了深入梳理,共識別出 369 臺業(yè)務虛機, 并根據(jù)業(yè)務重要性和可中斷性將其分為三類:
一類業(yè)務? 42 ?臺,僅在 重大節(jié)假日 窗口可中斷;
二類業(yè)務? 59 ?臺,可在 周六日 窗口中斷;
三類業(yè)務? 268? 臺,可在 工作日 窗口中斷。
2. 平臺風險分析
VMware源端
深信服對原 VMware 配置進行了詳細分析,識別潛在的風險,制定了科學合理的遷移方案。
遷移前期風險及規(guī)避措施
在遷移前期,發(fā)現(xiàn)以下問題并提前通知用戶進行風險規(guī)避:
(1)部分業(yè)務軟件授權(quán)與 MAC 地址強關(guān)聯(lián),遷移創(chuàng)建時需將網(wǎng)卡 MAC 地址設置一致后再進行遷移。
(2)源業(yè)務虛機內(nèi)部安裝殺毒軟件可能導致 SCMT 的 agent 進程無法運行,遷移時建議退出殺毒軟件后再安裝 agent。
(3)部分老舊業(yè)務系統(tǒng)由于系統(tǒng)內(nèi)核較低無法安裝 agent,需進行無代理遷移。且遷移至目的端后可能出現(xiàn) SCMT 切換失敗,此時需源端關(guān)機進行最后一次增量同步后,再在 HCI 目標端拉起。建議先取消 virtio,正常開機后嘗試安裝 tools。
超融合目的端
提前會進行主動服務adeploy巡檢和資源查看,提前發(fā)現(xiàn)和規(guī)避風險,確保遷移資源充裕,如果資源不夠,會及時跟用戶以及市場同事進行相應溝通,保障整體遷移。
( 二 ) 分階段遷移階段
1. 三類業(yè)務遷移
遷移前期,深信服優(yōu)先將三類業(yè)務遷移至混閃集群。整體采用 SCMT 遷移工具進行點對點遷移,在遷移過程中不影響原有業(yè)務并同步增量數(shù)據(jù)。大多數(shù)業(yè)務系統(tǒng)采用有代理→免代理業(yè)務遷移,遷移穩(wěn)定、數(shù)據(jù)傳輸速度快,少部分無法安裝agent的業(yè)務采用免代理→免代理業(yè)務遷移。在這個階段,需要密切關(guān)注遷移進度和資源使用情況,通過主動服務 aDeploy 巡檢并查看資源,確保遷移過程順利進行。若發(fā)現(xiàn)資源不足,及時與用戶及市場同事溝通,保障整體遷移順利進行。
2. 二類業(yè)務遷移
待三類業(yè)務遷移穩(wěn)定后,深信服開始將二類業(yè)務遷移至高性能混閃集群。同樣采用 SCMT 遷移工具,遵循相同的遷移原則和風險規(guī)避措施。在這個階段,需要更加注重業(yè)務的穩(wěn)定性和可靠性,確保在遷移過程中不會對用戶的業(yè)務造成任何不良影響。
3. 一類業(yè)務遷移
在五一、國慶等重大節(jié)假日時,深信服將一類業(yè)務遷移至全閃集群。由于一類業(yè)務的重要性和不可中斷性,在遷移過程中需要格外謹慎,提前做好充分的準備工作,包括與用戶的溝通協(xié)調(diào)、資源的優(yōu)化配置以及風險的再次評估和規(guī)避。
遷移過程的部分截圖如下:
( 三 ) 重點業(yè)務遷移階段
—— 以 PCB_MES 業(yè)務系統(tǒng)為例
PCB_MES 業(yè)務系統(tǒng)作為用戶的核心業(yè)務系統(tǒng),于 2016 年左右新建,運行著 Oracle 11.2 1T 的核心數(shù)據(jù)庫單機,采用 Linux 5.0 內(nèi)核 2.6.18。由于系統(tǒng)無法安裝 SCMT 的遷移代理 agent,只能采用免代理方式進行業(yè)務遷移。
整個虛機空間約為 1T,遷移速度約為 80MB/s。在遷移過程中,需要密切關(guān)注數(shù)據(jù)的完整性和一致性,確保不會出現(xiàn)數(shù)據(jù)丟失或損壞的情況。經(jīng)過約兩天的時間,完成了大部分數(shù)據(jù)的遷移。
中午11時33分,執(zhí)行停庫操作,進行最后一次增量同步后切換。切換至業(yè)務拉起驗證時間約為 30 分鐘。在此期間,遭遇了因 Linux 內(nèi)核版本過低而無法在工具上完成切換的問題。依據(jù)前期風險排查與規(guī)避手段,深信服在 HCI 中取消 virtio 磁盤后拉起,并進行低版本內(nèi)核的 tools 安裝,最終成功完成業(yè)務遷移。
三、 遷移后的驗證
在完成所有業(yè)務的遷移后,深信服對遷移后的系統(tǒng)進行了全面的驗證和優(yōu)化。
( 一 ) 功能驗證
系統(tǒng)啟動與運行: 確保遷移后的系統(tǒng)能夠正常啟動,各個服務和進程能夠穩(wěn)定運行,沒有出現(xiàn)死機、崩潰等異常情況。例如,對于服務器,檢查其操作系統(tǒng)是否能夠順利加載,各種服務是否能夠正常啟動,如 Web 服務器、數(shù)據(jù)庫服務器等。
業(yè)務應用功能業(yè)務流程完整性: 驗證業(yè)務系統(tǒng)的各個功能模塊是否完整,業(yè)務流程是否順暢,是否能夠滿足用戶的實際需求。
功能響應速度: 測試業(yè)務功能的響應速度,包括頁面加載速度、數(shù)據(jù)查詢和處理速度等,確保用戶能夠獲得良好的使用體驗。
( 二 ) 數(shù)據(jù)驗證
數(shù)據(jù)完整性: 檢查遷移后的數(shù)據(jù)是否完整,包括數(shù)據(jù)庫中的表數(shù)據(jù)、文件數(shù)據(jù)等,確保數(shù)據(jù)沒有丟失或損壞。比如,對比遷移前后數(shù)據(jù)庫中表的記錄數(shù)量、數(shù)據(jù)內(nèi)容是否一致。
數(shù)據(jù)一致性: 驗證數(shù)據(jù)的一致性,確保不同業(yè)務系統(tǒng)之間的數(shù)據(jù)能夠正確交互和共享,沒有出現(xiàn)數(shù)據(jù)不一致的情況。例如,在涉及多個系統(tǒng)的業(yè)務場景中,檢查數(shù)據(jù)的一致性,如訂單數(shù)據(jù)在不同系統(tǒng)中的一致性。
四、 業(yè)務持續(xù)穩(wěn)定運行
深信服對遷移到HCI的業(yè)務應用,通過 云端智能大腦 等智能運維工具,結(jié)合線上線下服務協(xié)同人機共智的模式實現(xiàn)智能監(jiān)控,相較于VMware承載,主要優(yōu)化并解決如下關(guān)鍵點:
( 一 ) 構(gòu)建全棧監(jiān)控體系
建立涵蓋硬件、云平臺、云主機、數(shù)據(jù)庫、應用等全棧的監(jiān)控體系,實現(xiàn)對 IT 基礎設施和業(yè)務系統(tǒng)的全方位監(jiān)測。通過多種監(jiān)控指標和告警規(guī)則,及時發(fā)現(xiàn)潛在問題和異常情況。有效減少生產(chǎn)中斷事件發(fā)生次數(shù),保障業(yè)務連續(xù)性,以全年不發(fā)生業(yè)務中斷為目標進行建設。
( 二 ) 配備專屬服務團隊
為用戶配備專屬線上線下服務經(jīng)理,建立線上線下協(xié)同的故障處置機制,7*24H及時響應用戶問題,協(xié)同進行故障排除和恢復。能夠在事件發(fā)生前期提前發(fā)出預警,識別風險,達到提前介入處理,事先消除風險,規(guī)避事件發(fā)生。
自2023年初啟動,歷經(jīng)近兩年的精心規(guī)劃與實施,于 2024年10月成功完成業(yè)務遷移任務,滿足了用戶存儲雙活和數(shù)據(jù)保護的核心訴求。該企業(yè)業(yè)務成功遷移,是深信服在制造業(yè)打磨技術(shù)方案的有效實踐證明。深信服始終關(guān)注各行業(yè)用戶替代升級的需求,持續(xù)打造有效、穩(wěn)定的解決方案,為用戶構(gòu)建自主創(chuàng)新的數(shù)字化基礎設施。