VSAN數(shù)據(jù)存儲(chǔ)是一個(gè)對(duì)象存儲(chǔ),以文件系統(tǒng)的形式呈現(xiàn)給vSphere主機(jī),這個(gè)對(duì)象存儲(chǔ)服務(wù)會(huì)從啟用VSAN集群中的每臺(tái)主機(jī)上加載卷。將他們展現(xiàn)為單一的、在所有節(jié)點(diǎn)上可見(jiàn)的分布式共享數(shù)據(jù)存儲(chǔ),VSAN簡(jiǎn)化了存儲(chǔ)配置,對(duì)于虛擬機(jī)來(lái)說(shuō),只有一個(gè)數(shù)據(jù)存儲(chǔ),這個(gè)分布式數(shù)據(jù)存儲(chǔ)來(lái)自VSAN集群中每一臺(tái)vSphere主機(jī)上的存儲(chǔ)空間,通過(guò)磁盤(pán)組進(jìn)行配置,在單獨(dú)的存儲(chǔ)實(shí)體中存儲(chǔ)所有的虛擬機(jī)文件,這種數(shù)據(jù)存儲(chǔ)的方式相對(duì)來(lái)說(shuō)已經(jīng)很安全了,但是在出現(xiàn)閃存盤(pán)或者是容量盤(pán)出現(xiàn)故障的時(shí)候,數(shù)據(jù)會(huì)往其他的節(jié)點(diǎn)轉(zhuǎn)移,在轉(zhuǎn)移的時(shí)候過(guò)程中,也有可能出現(xiàn)其他的故障,我公司近期解決了一個(gè)VSAN存儲(chǔ)崩潰,虛擬機(jī)無(wú)法訪(fǎng)問(wèn)的故障。
出現(xiàn)故障是四臺(tái)dell的服務(wù)器組成的VSAN集群,每臺(tái)服務(wù)器上兩個(gè)磁盤(pán)組,一個(gè)磁盤(pán)組是一個(gè)SSD硬盤(pán)帶5塊SAS硬盤(pán),SSD做閃存,SAS做容量盤(pán),其中一個(gè)節(jié)點(diǎn)上的一個(gè)磁盤(pán)組中的容量盤(pán)出現(xiàn)故障離線(xiàn),這個(gè)時(shí)候VSAN進(jìn)行數(shù)據(jù)重構(gòu)遷移,在很不趕巧的時(shí)候,這個(gè)時(shí)候由于停電導(dǎo)致數(shù)據(jù)遷移沒(méi)有完成,在來(lái)電的時(shí)候,其中另外一個(gè)磁盤(pán)組中的容量盤(pán)也由兩塊故障離線(xiàn)了,導(dǎo)致整個(gè)數(shù)據(jù)存儲(chǔ)出現(xiàn)故障,VSAN的管理控制臺(tái)可以登陸,但是所有的虛擬機(jī)都無(wú)法訪(fǎng)問(wèn)了。
先把四個(gè)節(jié)點(diǎn)的所有硬盤(pán)都做個(gè)只讀的鏡像,包含SSD閃存盤(pán)和SAS容量盤(pán),還有三塊因故障離線(xiàn)的硬盤(pán),備份完成之后,把所有的原盤(pán)都還原到服務(wù)器上,開(kāi)始對(duì)鏡像文件來(lái)進(jìn)行分析底層數(shù)據(jù)存儲(chǔ)結(jié)構(gòu),來(lái)確認(rèn)虛擬機(jī)所在硬盤(pán)的分布信息,因?yàn)楝F(xiàn)有的虛擬化程序沒(méi)有針對(duì)VSAN的架構(gòu)來(lái)恢復(fù)虛擬機(jī)的,工程師在分析底層數(shù)據(jù)存儲(chǔ)結(jié)構(gòu)的時(shí)候,也在做相應(yīng)的程序開(kāi)發(fā),來(lái)測(cè)試數(shù)據(jù)分布信息的準(zhǔn)確性。
單獨(dú)分析每個(gè)節(jié)點(diǎn)上的兩個(gè)磁盤(pán)組,看下磁盤(pán)組內(nèi)的閃存硬盤(pán)和容量盤(pán)之間的對(duì)應(yīng)關(guān)系,每塊硬盤(pán)都有一個(gè)唯一標(biāo)識(shí)進(jìn)行磁盤(pán)間的對(duì)應(yīng),根據(jù)硬盤(pán)的ID信息,判讀磁盤(pán)組里面的硬盤(pán)ID信息。
1、在每塊硬盤(pán)上獲取磁盤(pán)的UUID和磁盤(pán)組的UUID
2、根據(jù)每個(gè)磁盤(pán)組中的容量盤(pán)的組件信息獲取此容量盤(pán)的組件信息
3、根據(jù)組件信息中記錄的組件的MAP位置提取組件位圖。
4、根據(jù)組件的位圖提取組件數(shù)據(jù)和緩存數(shù)據(jù)
5、根據(jù)組件的描述信息獲取組件所屬對(duì)象及組件順序,并把組件合并成對(duì)象
6、根據(jù)對(duì)象,提取數(shù)據(jù)。
對(duì)象也可以看成一個(gè)卷,也可以理解成是一個(gè)邏輯卷,每個(gè)存在于數(shù)據(jù)存儲(chǔ)上的VSAN對(duì)象都是由多個(gè)組件構(gòu)成,這些組件分布于集群主機(jī)上配置的磁盤(pán)組中,在恢復(fù)的過(guò)程中,組件的信息提取是關(guān)鍵的步驟,因?yàn)榻M件是每個(gè)對(duì)象的重要組成部分,本次故障組件損壞的很少,恢復(fù)出來(lái)的虛擬機(jī)都能正常啟動(dòng),這次故障解決在分析組件位圖和磁盤(pán)對(duì)應(yīng)關(guān)系用來(lái)比較長(zhǎng)的時(shí)間,但是最后把所有的技術(shù)難題都解決了,恢復(fù)出來(lái)的虛擬機(jī)都正常啟動(dòng),圓滿(mǎn)解決了VSAN出現(xiàn)故障導(dǎo)致數(shù)據(jù)丟失的恢復(fù)。
更多關(guān)于云服務(wù)器,域名注冊(cè),虛擬主機(jī)的問(wèn)題,請(qǐng)?jiān)L問(wèn)西部數(shù)碼官網(wǎng):ps-sw.cn