盤點人氣云計算、大數據開源技術變遷
- 來源:中國信息化周報 smarty:if $article.tag?>
- 關鍵字:云計算,大數據,創(chuàng)業(yè),互聯(lián)網 smarty:/if?>
- 發(fā)布時間:2016-05-23 11:48
從2010年開始,我們看到過被人質疑的云計算,也看到了現(xiàn)在云計算成為各種創(chuàng)業(yè)公司的基礎,甚至走入各種互聯(lián)網之外的傳統(tǒng)企業(yè),見證了其在中國發(fā)展的整個過程。在整個發(fā)展過程中,在服務可靠性技術問題得以解決之后,數據歸屬成為不折不扣的導火索,公有云與私有云之爭一度也異常激烈,而經過了長時間實踐之后,則形成當下公有云、私有云、混合云等解決方案并存的狀態(tài)。
在這個基礎上,我們看到很多開源云計算、大數據技術框架得到了飛速發(fā)展,其中更有一些已經成為業(yè)內事實上的標準。這些開源框架的出現(xiàn)大幅度降低了云計算和大數據技術的使用門檻,然而同時新的問題也隨之浮現(xiàn),即生產環(huán)境使用挑戰(zhàn)。
大數據生態(tài)繁花似錦
近年內,隨著越來越多的設備接入互聯(lián)網,當下一年所產生的數據往往是以往數年的總和。而據Global Cloud Index預計,截止至2020年互聯(lián)設備數量將達到500億,眾多爆發(fā)式增長的設備預計在2017年便會產生高達7.7ZB的互聯(lián)網數據。在這個大背景下,各個機構都積累了足夠多的數據,從而對數據進行分析并產生指導實踐的見解也成為了企業(yè)提高競爭力的迫切需求。在這個需求刺激下,開源大數據技術生態(tài)圈得到了飛速發(fā)展——在數據的整個生命周期中,從收集到處理,一直到數據可視化和儲存,各種開源技術框架林立。
在開源大數據處理上,出于對成本和數據量的考慮,橫向擴展已經必不可少,因此在這個領域涌現(xiàn)出大量優(yōu)秀的集群計算框架,其中大家首先想到的就是Hadoop。Hadoop天生高貴,由雅虎原工程師Doug Cutting在Google論文的啟發(fā)下建立,也是時下生產環(huán)境部署最多的計算框架。然而,隨著內存成本的降低和對不同處理類型需求的增加,缺乏對內存有效利用及資源調度粒度的不夠,業(yè)內涌現(xiàn)出大量優(yōu)秀的計算框架并占據一席之地,整個大數據生態(tài)繁華似錦。
開源IaaS發(fā)展
如上文所述,隨著接入互聯(lián)網的設備增多,企業(yè)IT基礎設施往往需要承受以往數倍的壓力,從而對原有的資源組織方式提出了嚴峻的挑戰(zhàn)。在這個前提下,云計算得以快速發(fā)展并在各行各業(yè)落地,更成為許多創(chuàng)業(yè)公司的立足之本。而作為云計算的一種重要形式,IaaS服務有各種開源和商業(yè)云平臺方案,作為當前最成功的云計算平臺,AWS更是吸引了眾多的關注和模仿,如果說云計算發(fā)展到如今的火爆,除了IT技術的發(fā)展趨勢,更重要的是背后頂級云計算廠商的大力支持和推廣。我們最早聽到IaaS概念可以追溯到1983年,一家在現(xiàn)在看來非常厲害的公司Sun Microsystems就提出了“網絡是電腦”的概念,但是由于概念太超前,在當時并沒有引起重視。
隨著Amazon推出其彈性云計算,并在IaaS領域大獲成功,Google、微軟、VMware、IBM等IT巨頭們大舉跟進,紛紛涉足云計算領域,云計算的熱潮洶涌而至。在這期間,開源IaaS領域發(fā)展同樣迅猛,從最早的Eucalyptus、OpenNebula、CloudStack等到我們熟知的OpenStack,百花齊放,百家爭鳴,一時云計算領域熱鬧非凡。當然,隨著眾多大型廠商的支持、社區(qū)的壯大以及生態(tài)的不斷完善,OpenStack如今大放異彩,開始逐漸占據主導。不是說OpenStack現(xiàn)在完美無缺,只是在當下的開源IaaS領域,OpenStack已經毫無爭議地成為最受關注的云計算技術,并逐漸成為開源IaaS領域的代名詞。
容器技術異軍突起
Docker,時下最火的容器技術,從誕生到進軍生產環(huán)境,每一步的技術演進都受到了巨大的關注。其實,談及容器技術,其實Docker并非首創(chuàng),早在十數年前,容器技術便已有雛形,但是以Solomon Hykes為首的一幫工程師敏銳的發(fā)現(xiàn)了容器技術在云計算領域的巨大潛力,隨后迅速技術轉型,開始投向容器技術并且從一開始就走開源路線,這位身上流著美國與法國的血統(tǒng),喜歡網咖打電玩,酷愛摩托車的年輕人開始了一段非凡的浪漫之旅。
無論是版本的迭代還是進軍生產環(huán)境,Docker這三年來的發(fā)展可以說是如魚得水,當然,期間也受到過質疑,比如CoreOS與Docker的標準之爭就在容器圈引起了不大不小的轟動,最后以Solomon和CoreOS的創(chuàng)始人Alex Polvi握手言和告終。之后隨著Docker版本的更新,在網絡和安全、存儲等領域的短板被逐漸補足之后,Docker的集群能力得以完善。
容器引擎領域,雖說有CoreOS團隊開源的rkt項目,但是和Docker相比,在用戶以及社區(qū)活躍度方面都有很大差距。容器的編排,可以說在目前Docker領域受到的關注度前所未有,從Mesos到Kubernetes,圍繞兩種技術的編排之爭超乎想象。由于背后都有大批的廠商支持,短期內,這兩種技術都將得到迅速的發(fā)展,某一方不會形成壓倒性優(yōu)勢。另外,從Docker公司的角度,背后的動作也有對編排的考量,綜述所述,容器生態(tài)中,圍繞Docker的生態(tài)之爭才剛剛開始。
Docker短板補足 生產級實踐備受關注
如上文所述,在Docker版本的更新過程中,自身的一些技術缺陷得到了彌補,Docker在安全、存儲以及網絡領域的短板得到逐步的解決,Docker進軍生產環(huán)境已經成為大勢所趨。國外,在Docker應用領域有著比較先進的經驗。國內目前真正將Docker應用在生產領域的很少,其中應用在核心業(yè)務的就更少,Docker從誕生到現(xiàn)在,已經3年時間,如果繼續(xù)炒作Docker的優(yōu)越已經毫無意義。當下,開發(fā)者們最為關心的是如何讓Docker真正落地,如何在生產環(huán)境中使用Docker,急需這個領域有一些第一個吃螃蟹的企業(yè)出來分享他們的經驗和教訓。為此,2016 Container峰會聚焦生產級實踐,邀請了在金融、教育、制造、證券等領域已經應用Docker的企業(yè)技術負責人到場,給我們談談他們在生產環(huán)境中是如何使用Docker的,大規(guī)模部署Docker的經驗和跨過的坑。
OpenStack式微?
無可否認,Docker的發(fā)展熱度在一定程度上掩蓋了OpenStack的光芒,但是作為開源IaaS領域的首選平臺,IaaS如何和Docker和諧發(fā)展,或者如何借勢Docker彌補OpenStack在技術領域的短板,已經成為很多開發(fā)者關注的焦點。
時下開源大數據生態(tài)解讀
如前文所述,在海量數據處理上,橫向擴展已毋庸置疑。而在這個領域,由Hadoop2.0中誕生的YARN無疑最為耀眼,也是時下生產環(huán)境部署最為廣泛的開源框架。在CCTC 2016上,華為印研Hadoop工程團隊架構師、Hadoop Committer Naganarasimha Garla將從技術角度解析YARN的異構實現(xiàn),而Hulu大數據架構組負責人董西成將分享YARN在生產環(huán)境中的異構應用與實踐。
談到開源海量數據處理,行業(yè)內首先落地的無疑是批量計算,而在這方面,MapReduce無疑是鼻祖,也是時下生產環(huán)境部署最多的計算框架。然而正如上文所述,缺少對內存的有效利用和業(yè)務對不同類型計算的需求,效率比較低的MapReduce同樣面臨著大量競爭者,其中兩個備受關注的就是Spark和Flink。因此,在CCTC 2016上,主辦方特設置了2016中國Spark技術峰會,不僅有3位Apache Spark Committer Ram Sriharsha、連城、范文臣為大家解析Spark2.0,來自Intel、Hortonworks、Elastic、騰訊、新浪微博、Admaster、MediaV等國內外機構的近十位專家將帶來最新的Spark實踐分享,詳情可以看筆者之前的峰會解析。而在Flink方面,F(xiàn)link活躍貢獻者,萬達金融李呈祥將為大家分享名為“Apache Flink:Stream engine beyond Batch”的議題。
