外部存儲可能適合Hadoop
- 來源:中國信息化周報 smarty:if $article.tag?>
- 關(guān)鍵字:數(shù)據(jù),技能 smarty:/if?>
- 發(fā)布時間:2014-09-12 08:48
使用Hadoop驅(qū)動大規(guī)模數(shù)據(jù)的分析并不一定意味著構(gòu)建分布式存儲的集群,一臺好的舊陣列可能是一個更好的選擇。
把外部共享存儲用于大批數(shù)據(jù)有很多原因。首先,盡管Hadoop可以橫向擴展處理多個PB的數(shù)據(jù),但是大多數(shù)大規(guī)模數(shù)據(jù)集很可能只有10TB到50TB的幅度。幾個TB大小的傳統(tǒng)的數(shù)據(jù)集幾乎等于零處理,但恰好在橫向擴展的SAN和NAS解決方案的成本效益范圍內(nèi)。那些共享數(shù)據(jù)集對公司現(xiàn)有業(yè)務(wù)流程通常不可或缺,相對于HDFS,在企業(yè)級存儲上可以更有效地被控制、管理和集成。
盡管有用于Hadoop生態(tài)系統(tǒng)的具備安全意識的部件,數(shù)據(jù)安全和保護是考慮使用外部存儲的其它主要原因。備份、保護或者審計本機HDFS并非易事。當(dāng)然,NAS和SAN內(nèi)置了極好的數(shù)據(jù)保護和快照。但使用外部企業(yè)級存儲的時候,一款高可用的Hadoop應(yīng)用程序可能永遠無法知道磁盤故障已經(jīng)出現(xiàn)。
用外部存儲構(gòu)建Hadoop,你不僅可以把存儲管理分開,也可以利用獨立的“增長的載體”。毋須增加其它多余的資源就可以容易地增加存儲或者計算。它也有成本方面的優(yōu)勢。共享是外部存儲的制勝之道,因為把大規(guī)模數(shù)據(jù)移進和移出Hadoop集群具有挑戰(zhàn)性。使用外部存儲的時候,多個應(yīng)用程序和用戶可以通過不通的客戶端訪問相同的“主”數(shù)據(jù)集,甚至在其正在被Hadoop應(yīng)用程序使用的時候進行更新和寫數(shù)據(jù)。
在虛擬化場景中,外部存儲也具有優(yōu)勢。我們預(yù)計這將成為在企業(yè)中部署Hadoop的常用方法。多個虛擬Hadoop節(jié)點可被托管到每個虛擬機管理程序,并可輕易地為指定的應(yīng)用程序分配相關(guān)的資源。虛擬機管理程序級別的高可用/容錯功能可以被用于生產(chǎn)級別的Hadoop應(yīng)用程序。更多的資源可以被動態(tài)地應(yīng)用到需要的地方,為某些Hadoop應(yīng)用程序提供即便不是優(yōu)越也是對應(yīng)的性能。
考慮物理Hadoop架構(gòu)的一個令人信服的理由是避免昂貴的SAN,尤其當(dāng)數(shù)據(jù)集越來越大時。然而在虛擬環(huán)境中,考慮外部存儲可能更適合。一個原因是精簡僅限于計算的虛擬Hadoop集群相當(dāng)簡單,但是,散發(fā)大規(guī)模數(shù)據(jù)集仍是一項挑戰(zhàn)。通過把數(shù)據(jù)托管到外部共享存儲,精簡虛擬Hadoop的托管就變得幾乎無關(guān)緊要了,而DRS和HA之類的虛擬機管理程序的功能可以得到充分利用。
由于單個大規(guī)模數(shù)據(jù)集可以輕易地在多個虛擬化的Hadoop集群中被“恰當(dāng)?shù)亍狈窒恚虼擞袡C會以相同的存儲為多個客戶端提供服務(wù)。通過消除數(shù)據(jù)集的多個拷貝,減少數(shù)據(jù)遷移的總量,并確保更高的可用性和數(shù)據(jù)保護,作為企業(yè)級應(yīng)用程序,Hadoop變得更可管理,并輕易獲得支持。在較少但存儲選項相對更貴的虛擬服務(wù)器上托管虛擬化Hadoop的TCO仍然會比堅持使用專門的商品服務(wù)器物理集群的要低。
與DAS相比,外部存儲更昂貴,但這只是與存放數(shù)據(jù)有關(guān)的平衡賬目的“其它”事情而已。關(guān)于使用外部存儲的決定必須以TCO為基礎(chǔ),包括同時考慮數(shù)據(jù)集的傳入來源和端到端的工作流。其它工作負載可能可以有效地共享一個單一的數(shù)據(jù)資源庫,而現(xiàn)有的資產(chǎn)和技能也可以被利用。另外,高端存儲的攝入、性能、容量或者可伸縮性可能有限制。
作者:Mike Matchett 編譯:全振湘
