主存儲服務系統(tǒng)中高I-O性能的重復數(shù)據(jù)刪除技術研究.pdf_第1頁
已閱讀1頁,還剩115頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、隨著數(shù)字信息量的爆炸式增長,數(shù)據(jù)占用的空間越來越大,存儲系統(tǒng)的容量從數(shù)十GB發(fā)展到數(shù)百TB、甚至PB量級。面對數(shù)據(jù)量的急劇膨脹,企業(yè)需要不斷購置大量的存儲設備來應對不斷增長的存儲需求,管理和保存數(shù)據(jù)的成本急劇上升,存儲技術和存儲產(chǎn)業(yè)正面臨著由龐大需求而帶來的巨大挑戰(zhàn)。重復數(shù)據(jù)刪除技術是存儲系統(tǒng)中的關鍵技術,通過檢測并刪除冗余數(shù)據(jù)來優(yōu)化存儲空間、提高網(wǎng)絡帶寬利用率和降低運營成本。在需求的推動下,重復數(shù)據(jù)刪除技術成為近幾年學術界和工業(yè)界的研

2、究熱點,并正被愈加廣泛地應用到各種信息存儲系統(tǒng)。目前,大多數(shù)重復數(shù)據(jù)刪除產(chǎn)品針對備份和歸檔存儲服務系統(tǒng),用于節(jié)省空間和優(yōu)化性能。然而,隨著社交網(wǎng)絡、云存儲服務模式的興起,主存儲服務系統(tǒng)中越來越多的數(shù)據(jù)被共享,如文件、圖片和視頻等,在線服務的數(shù)據(jù)量日益增大,同樣面臨著重復數(shù)據(jù)刪除的需求。與備份和歸檔存儲服務系統(tǒng)不同,主存儲服務系統(tǒng)具有數(shù)據(jù)規(guī)模巨大、數(shù)據(jù)訪問復雜多樣和高I/O性能需求的特征。然而,重復數(shù)據(jù)刪除過程中的數(shù)據(jù)檢測處理需要占用系統(tǒng)

3、大量的CPU和I/O資源,極大地影響數(shù)據(jù)寫操作的性能;同時,重復數(shù)據(jù)刪除會使得文件數(shù)據(jù)存儲碎片化,嚴重影響I/O讀操作的性能。這些都給重復數(shù)據(jù)刪除技術在主存儲服務系統(tǒng)中的應用帶來了很多挑戰(zhàn)性問題:第一,主存儲服務系統(tǒng)中的數(shù)據(jù)訪問模式不同于備份存儲服務系統(tǒng),其I/O寫操作的特征復雜多樣,導致在主存儲服務系統(tǒng)中進行重復數(shù)據(jù)檢測將會帶來極大地I/O開銷。第二,現(xiàn)有的重復數(shù)據(jù)檢測算法主要關注于如何快速定位和降低檢測范圍,沒有充分利用已有的并行計

4、算架構來加速問題求解。第三,現(xiàn)有的研究未考慮到主存儲服務系統(tǒng)中I/O緩存對數(shù)據(jù)讀取操作的優(yōu)化作用,從而在衡量重復數(shù)據(jù)碎片對I/O性能的影響時,應綜合考慮系統(tǒng)的各個層面,做出更高效的決策。第四,現(xiàn)有的數(shù)據(jù)碎片整理方法未能充分利用數(shù)據(jù)訪問的動態(tài)信息,嚴重受限于重復數(shù)據(jù)刪除系統(tǒng)中大量的數(shù)據(jù)共享關聯(lián),難以提高磁盤文件存儲的連續(xù)性。
  本文系統(tǒng)地研究了主存儲服務系統(tǒng)中高I/O性能的重復數(shù)據(jù)刪除技術,針對主存儲服務系統(tǒng)復雜的I/O訪問模式,

5、深入研究了典型系統(tǒng)中重復數(shù)據(jù)寫操作的時間及空間局部性特征。基于旋轉(zhuǎn)樹數(shù)據(jù)結(jié)構理論,本文設計了自適應指紋緩存Leach。Leach自動學習目標系統(tǒng)重復數(shù)據(jù)寫操作的時空局部性信息,動態(tài)地將熱點及其關聯(lián)數(shù)據(jù)指紋放入緩存,提高數(shù)據(jù)檢測的緩存命中率;同時,針對自適應學習的I/O開銷,提出了基于工作集特征的優(yōu)化機制,進一步提高數(shù)據(jù)檢測的效率。針對重復數(shù)據(jù)檢測任務的可并行性問題,本文基于CPU+GPU的異構并行計算框架,通過將數(shù)據(jù)指紋索引組織成前綴樹

6、結(jié)構,設計和實現(xiàn)了一種具有高并行度的重復數(shù)據(jù)檢測方法G-Paradex。針對CPU與GPU之間數(shù)據(jù)傳輸?shù)钠款i,提出了數(shù)據(jù)指紋重組和近似檢測的優(yōu)化方法,減少前綴樹占用的存儲空間,降低CPU與GPU之間的數(shù)據(jù)傳輸量;針對GPU的硬件架構和并行編程特性進行了適配,提出了重復數(shù)據(jù)檢測剪枝策略,大幅度降低數(shù)據(jù)檢測的計算量,快速定位重復數(shù)據(jù)。針對已有算法未能充分認識重復數(shù)據(jù)碎片影響的問題,本文發(fā)現(xiàn)在具有I/O緩存的主存儲服務系統(tǒng)中,重復數(shù)據(jù)碎片未必

7、完全對I/O性能產(chǎn)生負面影響,在一定訪問模式下反而會提升I/O性能?;谝陨习l(fā)現(xiàn),本文設計和實現(xiàn)了一種I/O緩存感知的重復數(shù)據(jù)碎片優(yōu)化方法CareDedup。通過對塊設備層I/O訪問信息的監(jiān)測,CareDedup分析了I/O緩存對重復數(shù)據(jù)碎片的優(yōu)化以及重復數(shù)據(jù)碎片本身對數(shù)據(jù)布局的破壞,綜合評估重復數(shù)據(jù)碎片對I/O性能的影響。通過建模分析,本文將面向I/O讀性能的重復數(shù)據(jù)刪除優(yōu)化問題歸約到0/1背包問題,并采用貪婪算法在給定存儲空間優(yōu)化的

8、前提下最大化數(shù)據(jù)讀取性能。針對已有算法未能充分考慮重復數(shù)據(jù)碎片訪問特征的問題,本文探索了基于I/O訪問記錄的重復數(shù)據(jù)碎片布局策略ReDedup,大幅降低了重復數(shù)據(jù)碎片對I/O性能的影響。文章通過對典型系統(tǒng)中文件之間的共享關聯(lián)度和文件數(shù)據(jù)碎片的訪問頻度進行統(tǒng)計和挖掘,發(fā)現(xiàn)主存儲服務系統(tǒng)中對重復數(shù)據(jù)文件(重復數(shù)據(jù)文件指該文件中存在重復數(shù)據(jù),與其它文件共享數(shù)據(jù))的訪問服從典型的冪律分布,即存在一小部分重復數(shù)據(jù)文件受到的訪問次數(shù)較多且開銷較大,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論