線上儲存環境的重複資料刪除技術
|
|
重複資料刪除技術已走出僅適用於備份儲存環境的應用型態,開始進入供線上使用的第一線儲存設備
|
|
重複資料刪除技術(De-Dupe)可透過重複刪除演算,去除資料中的冗餘,大幅縮減占用的儲存空間。然而重複刪除演算相當消耗運算資源,對存取效能會造成相當程度衝擊,要應用在對存取效能較敏感的線上儲存設備上,將會面臨許多困難。
自問世以來,重複資料刪除技術一直被定位於備份應用,整合在備份軟體、虛擬磁帶櫃、磁碟到磁碟(D2D)備份儲存裝置等設備中使用。
相較於線上儲存設備,作為備份裝置使用的近線(Near-Line)儲存設備可容許較大的存取延遲,對吞吐量要求也較低,因而能容忍重複刪除演算所造成的
效能衝擊,可充分利用其縮減備份資料容量的特點,讓使用磁碟儲存設備長期保存備份資料成為可能,從而減少對於磁帶的依賴。
但面對企業資料量不斷增長,以及虛擬化應用普及後所帶來的資料處理問題,一些廠商試圖將De-Dupe技術應用到線上儲存設備上。
既有的線上型重複資料刪除技術
相較於已十分普遍的備份型De-Dupe技術,線上型De-Dupe技術目前仍在初期發展階段,提供的廠商十分有限。
NetApp
NetApp在2007年推出的A-SIS,就是一種可應用在線上儲存設備的De-Dupe技術。
A-SIS可搭配NetApp的NearStore R200、FAS與V系列儲存設備使用,只要儲存設備的Data ONTAP作業系統版本是在7.2.5.1以上,並啟用A-SIS與NearStore授權即可。
A-SIS屬於後處理(post-processing)類型De-Dupe技術,待資料寫入Volume後,再按照排程設定或以CLI或GUI介面手動啟動執行,執行重複刪除運算時以固定的4KB區塊為單位(也就是WAFL檔案系統的區塊單位)。
A-SIS重複刪除演算並非在存取時即時進行,因而能避開影響前端主機存取的問題,可在離峰時間再執行重複刪除;而且在NetApp儲存設備的WAFL檔
案系統管理下,A-SIS處理後的資料仍可直接讀取與寫入,不像其他廠商De-Dupe後的資料必須先還原成原始狀態,才能進行存取。缺點則是只能應用在
FlexVol型的Volume,不能用在傳統Volume,且重複比對也僅限於該Volume。
Dell Ocarina
Dell在2010年7月藉由併購新創廠商Ocarina,取得了後者的內容感知儲存最佳化技術(Content-Aware Storage
Optimization),除獲得Ocarina原本的軟體與應用伺服器產品外,預期還會將相關技術應用到Dell自身NAS產品上。
這項技術特點在於整合了壓縮與重複資料刪除兩類技術,系統會解析檔案類型,分別使用不同演算法進行壓縮與重複資料刪除處理,還能讓使用者調整運作區塊大小,適應處理不同型態檔案。
架構上分為Ocarina Optimizer與Ocarina
Reader兩個元件,前者負責對原始資料進行重複刪除與壓縮,後者負責將前者處理後的資料、重組為前端主機可讀取的原始檔案形式,並提供彈性的政策功
能。缺點是不適用寫入密集環境,較適合讀取密集或少量寫入環境。
部署時採用類似閘道器的方式,將Ocarina的應用伺服器部署在NAS存取路徑上,充當前端主機與後端NAS間的中介,並支援高可用性叢集架構。Ocarina也提供純軟體與OEM的銷售形式。
EMC
透過併購,EMC先後取得了Avamar與Data
Domain的De-Dupe技術,兩者基本上都是定位於備份應用,不過在這之外,EMC亦在2009年初為Celerra系列NAS的DART作業系統
增加稱為Celerra Data deduplication的De-Dupe功能。
Celerra Data
deduplication以檔案為基礎運作,兼具De-Dupe與壓縮兩種功能,為避免對前端主機的存取形成衝擊,使用者可透過Celerra
Manager介面,設定De-Dupe掃描週期(預設是每隔7天),可接受De-Dupe處理檔案的條件(多久沒被存取、大小),以及排除在De-
Dupe外的檔案,藉此可將較不被存取的檔案納入De-Dupe、經常被存取的檔案則不進行De-Dupe。
若是未進行De-Dupe的檔案,在存取方面將不會受到任何影響。若前端主機要讀取已被De-Dupe的檔案,DART作業系統會將檔案讀進Celerra記憶體中還原後,再回應給前端主機,整個作業都不在磁碟上進行,藉以提高速度。
若要對De-Dupe的檔案進行寫入或修改,則須先在檔案系統中還原回原始狀態,對效能有較大影響。整體來說亦是較適合讀取密集或少量寫入環境,不太適合寫入密集環境。
Permabit
Permabit是一家De-Dupe軟體廠商,由於該公司業務以OEM形式為主,主要產品是2010年中推出的Albireo資料最佳化軟體,設計上是
以嵌入第三方廠商儲存軟體中的方式運作,透過API為儲存軟體提供一個De-Dupe諮詢機制,確認寫入資料是否重複(不參與讀取作業)。
依用戶要求,Albireo可採用線上處理(in-line)、後處理與平行處理等三種部署架構,並提供區塊、檔案與串流等三種形式的API,可供整合到
不同類型的儲存軟體中,其中檔案與串流兩種檔案層級的API還提供內容感知功能,可解析寫入檔案類型、調整De-Dupe處理使用的區塊大小以達到更好的
效果。
Albireo可搭配線上、備份、歸檔等不同類型儲存設備,或備份軟體使用,當應用在線上儲存設備時,可採用對效能衝擊最小的平行處理架構,當前端主機將
資料寫入儲存設備時,Albireo會透過API同時取得一份資料複本,對其進行De-Dupe比對,若確認資料為重複,則會驅動儲存系統軟體以非同步方
式更新與整併重複的資料。
目前已有Bluearc、Xiotech等儲存廠商與Permabit簽約,準備引進Albireo來搭配他們的儲存設備與軟體。
Nimbus
Nimbus的HALO作業系統可提供整合儲存管理服務,能透過儲存虛擬化技術,將管理的磁碟空間透過CIFS、NFS、iSCSI等協議給前端主機存
取,而且還整合了in-line型De-Dupe技術。目前已被應用在Nimbus的S-Class企業儲存設備。文⊙張明德
廠商 |  |  |  |  |  | 技術名稱 | A-SIS | Content-Aware Storage Optimization | Celerra Data deduplication | Albireo | — | 部署類型 | 後處理 | 後處理 | 後處理 | 線上/後處理/平行 | 線上 | 運用層級 | 區塊 | 檔案 | 檔案 | 檔案 | 區塊 | De-Dupe解析分段方式 | 固定區塊 | 可調區塊 | — | 可調區塊 | — | 應用產品 | NetApp R200/FAS系列/V系列 | Ocarina應用伺服器 | EMC Celerra NS系列 | OEM | Nimbus E-Class儲存設備 |
線上儲存的特性,影響了重複資料刪除的應用
相比於居於第二線的備份設備,線上儲存設備有許多不同的特性,連帶地,De-Dupe技術也面臨不同的要求:
對效能更敏感
將資料以重複刪除演算分解為基本元素與索引儲存,以及反向運作將經過重複刪除演算後的資料回復為原始狀態,以便供前端主機存取,都需要消耗運算資源。
線上儲存設備必須因應前端主機即時寫入與讀取資料的要求,對效能十分敏感,不能允許因執行De-Dupe與還原演算,而導致前端主機的存取出現延遲。
重複刪減率先天較低
許多備份型De-Dupe技術宣稱的20~30倍,甚至是50倍以上的空間節省比率,都是以「每天執行全備份」為基準。
ㄧ般情況下,企業資料的異動量通常有限,每天新增或異動部份,占總資料量的比率並不大,因此若每天都執行全備份,則兩次全備份之間,絕大部分的資料顯然都是重複的。在這個基礎上運用De-Dupe,得到幾十倍的空間節省效果是理所當然的。
但換成線上儲存環境,就沒有前述那種資料先天就帶有很高重複性的現象,能縮減的比率十分有限。
線上儲存直接處理原始資料
備份裝置存放的資料是原始資料的複本,只有需要還原時才派得上用場;線上儲存裝置存放的,則是必須隨時因應前端主機存取的原始資料。因此整合在線上儲存設備中的De-Dupe技術,對重複刪減演算法的可靠性與可用性,將有更高要求。
需與其他儲存功能整合
許多進階儲存功能,都是基於線上儲存設備的原始磁碟進行,如快照、Clone、遠端複製等,因而在線上磁碟運作的De-Dupe,也必須整合這些應用功能,不能因啟用De-Dupe而妨礙其他功能執行。文⊙張明德
|
文章定位: