借力大數(shù)據(jù)優(yōu)化圖書館數(shù)據(jù)存儲
- 來源:中國信息化周報 smarty:if $article.tag?>
- 關鍵字: smarty:/if?>
- 發(fā)布時間:2017-06-22 10:28
在大數(shù)據(jù)時代,數(shù)據(jù)的爆炸式增長超出了人類的想象,以知識存儲為基本責任的圖書館應該如何應對呢?受技術瓶頸和經(jīng)費短缺的限制,大多數(shù)圖書館要想全面升級換代現(xiàn)有數(shù)據(jù)庫和提高現(xiàn)有存儲容量是不可能的。在這種情況下,圖書館學情報學界往往把數(shù)據(jù)存儲解決方案寄托于大數(shù)據(jù)存儲技術的突破。事實上,這種研究是嚴重脫離和滯后于圖書館現(xiàn)實的。
圖書館存儲能力面臨挑戰(zhàn)
圖書館不可能存儲所有數(shù)據(jù)。大數(shù)據(jù)時代,基本矛盾關系決定了圖書館不可能存儲所有數(shù)據(jù)。在這種境況下,要求任一圖書館只能根據(jù)自己的讀者需求、辦館特點和發(fā)展定位,有選擇性地存儲“有意義”的數(shù)據(jù)。但這也并非意味著對其他數(shù)據(jù)可以置之不理,因為任何數(shù)據(jù)都是有潛在價值的,只是針對不同對象而言。
圖書館不易存儲非結構數(shù)據(jù)。大數(shù)據(jù)之所以“大”關鍵在于半結構數(shù)據(jù)和非結構數(shù)據(jù)(以下統(tǒng)稱為“非結構數(shù)據(jù)”)飛速增長。
第一,非結構數(shù)據(jù)增長量大。按照大數(shù)據(jù)發(fā)生學的解釋,信息技術開發(fā)與應用的高度融合直接催生出云計算、移動網(wǎng)絡和社交平臺,而它們的出現(xiàn)又為人們能夠隨時隨地地利用智能手機、平板電腦或?qū)Ш较到y(tǒng)等現(xiàn)代通信工具去生成、發(fā)送和獲取數(shù)據(jù)提供了便利和平臺,于是就形成了大數(shù)據(jù)賴以存在的生態(tài)環(huán)境。
第二,非結構數(shù)據(jù)沒有相應的數(shù)據(jù)庫可供存儲。非結構數(shù)據(jù)特指那種非線性的數(shù)據(jù)類型,它主要相對于以“事務”為中心而建構起來的關系數(shù)據(jù),亦即結構數(shù)據(jù)而言的。在“小數(shù)據(jù)”時代,結構數(shù)據(jù)占統(tǒng)治地位,對應的IT架構是“關系型數(shù)據(jù)庫”;在大數(shù)據(jù)時代,傳統(tǒng)的關系型數(shù)據(jù)庫已經(jīng)無法直接存儲這些帶有異質(zhì)構造性質(zhì)的非結構數(shù)據(jù)。
第三,非結構數(shù)據(jù)占用的存儲空間較大。非結構數(shù)據(jù)主要是與傳感器、圖像、視頻、音頻、微博、微信、帖子、點擊等數(shù)據(jù)緊密聯(lián)系在一起的,完全以“碎片”的形式存在于物理空間。在一般情況下,它們占用的物理空間都非常大且不易整理。
圖書館不得不存儲非結構數(shù)據(jù)。目前,圖書館還習慣于存儲結構數(shù)據(jù),但非結構數(shù)據(jù)的占有比例遠遠高于結構數(shù)據(jù)的比例。當前,圖書館要與時俱進地進入大數(shù)據(jù)視域,就會感受到大數(shù)據(jù)對圖書館存儲容量的壓力。以大數(shù)據(jù)視野審視圖書館的建設,就會發(fā)現(xiàn)當今圖書館數(shù)據(jù)存儲的難題:一方面是不能完全把控大數(shù)據(jù)但又不得不試著去存儲它;另一方面是如果要存儲它,又不得不面臨半結構數(shù)據(jù)不易存儲的問題。
圖書館大數(shù)據(jù)存儲方案
圖書館大數(shù)據(jù)存儲方案利用云系統(tǒng)存儲非重要數(shù)據(jù)。大數(shù)據(jù)首先是對圖書館存儲的硬件設施,尤其是數(shù)據(jù)存儲容量提出了嚴峻的挑戰(zhàn)。為應對這一難題,有些研究者把希望全部寄托于“云系統(tǒng)”技術的推廣應用。
云系統(tǒng)(Cloud Computing)的核心思想是“分布式共享”,具有動態(tài)性、開放性、自治性、可靠性、可用性等特征。在具體操作上,圖書館員們只需將相關數(shù)據(jù)輸入到“云端”,就可以自由地在上面進行存儲、訪問、修改、反饋或提取。云系統(tǒng)無限地擴展了圖書館的存儲容量,而且館員還無須為技術問題而煩惱(一切技術操作都由云服務商來解決)。但是,云系統(tǒng)在給予我們便利的同時也帶來高技術轉讓費以及知識產(chǎn)權、技術標準、信息安全、管理體制等方面的難題,所以,在使用時應該謹慎待之。目前,最穩(wěn)妥的辦法就是把圖書館的數(shù)據(jù)、信息、知識資源進行分門別類處理??梢愿鶕?jù)知識產(chǎn)權、技術標準和信息安全的不同程度把所有數(shù)據(jù)細分成不同的、特點明確的類型,然后按照其類型采取相應的存儲方式。具體說來,可以把重要數(shù)據(jù)如特色數(shù)據(jù)、有知識產(chǎn)權要求的數(shù)據(jù)和保密程度高的數(shù)據(jù)進行館內(nèi)存儲,把“非重要數(shù)據(jù)”進行外掛存儲。這樣,既能夠在一定程度上規(guī)避可能的風險,又能夠最大限度地提升圖書館自身的存儲容量。
通過館際聯(lián)盟存儲次重要數(shù)據(jù)。由于單個圖書館存儲設備容量始終是有限的,而讀者需求數(shù)據(jù)又呈幾何級數(shù)增長,即使僅存儲核心數(shù)據(jù)也會很快“爆棚”。比如當前,綜合圖書館每年必需數(shù)據(jù)增量大約為20 TB,如此浩瀚的數(shù)據(jù)量,對于一座擁有100 TB存儲容量的大型圖書館也僅能滿足5年左右的存儲需要。因此,圖書館之間尋求合建數(shù)據(jù)存儲庫來實現(xiàn)科學數(shù)據(jù)的收集、共享和服務也成為必然選擇。
近10年,圖書館為解決文獻資源不全而構建的“館際互借系統(tǒng)”和為形成文獻資源互補優(yōu)勢而建立的圖書館聯(lián)盟都為這種分布式共享奠定了物質(zhì)基礎,提供了技術支撐,比如北京地區(qū)高等教育文獻保障系統(tǒng)(BALIS)就是在北京地區(qū)高校圖工委的統(tǒng)一領導下建構的。它采用集中式門戶平臺建設和分布式存儲相結合的方式,不僅提高了文獻資源的利用率,而且減少了單個高校圖書館的存儲容積。這種模式完全可以借鑒到大數(shù)據(jù)圖書館聯(lián)盟建設上。對圖書館來說,如果要想提高數(shù)據(jù)存儲容量而又能規(guī)避云系統(tǒng)帶來的安全威脅,組建或加入圖書館聯(lián)盟是可行的策略之一。這是因為圖書館之間具有很多天然的同一性,圖書館在應對潛在風險方面的立場基本一致。圖書館館際之間合作的深化還有利于克服重復建設以及資源浪費方面的弊端。這一解決措施反映在圖書館的軟硬件建設上,就必須由過去追求高端服務設施向中低端軟硬件基礎設施構建的大規(guī)模分布式計算機群集轉變,將分塊、分類的大數(shù)據(jù)復制到集群服務器節(jié)點上進行處理。
利用館內(nèi)存儲來建設自己的特色數(shù)據(jù)庫。圖書館行業(yè)的內(nèi)部競爭決定了任何一個圖書館都不愿意把自己具有核心競爭力的特色數(shù)據(jù)通過鏈接方式予以共享。與之相反,各圖書館都在競相自建獨具特色的數(shù)據(jù)庫。而特色數(shù)據(jù)庫具有高度的可靠性和安全性要求,但存儲周期長、數(shù)據(jù)類型多、數(shù)據(jù)量大,這同樣會對內(nèi)部存儲容量構成巨大的挑戰(zhàn)。在圖書館的實際管理經(jīng)驗中,經(jīng)常是采用整理碎片的技術來提高存儲空間利用率和數(shù)據(jù)查詢效率,這對小容量操作切實可行,但對于大型數(shù)據(jù)系統(tǒng)卻是遠遠不夠的。鑒于目前圖書館存儲設備容量利用率不到50%的現(xiàn)實情況,提高數(shù)據(jù)庫存儲最有效的辦法是運用大數(shù)據(jù)壓縮技術。相比較于自動精簡配置技術和重復數(shù)據(jù)刪除兩項傳統(tǒng)壓縮技術,大數(shù)據(jù)壓縮技術不僅兼顧了它們兩者的功能,而且功效更強大。它可以針對整個圖書館系統(tǒng)內(nèi)兩個或多個文件之間數(shù)據(jù)的相同性和相似性,通過分析比較,刪除多余數(shù)據(jù),達到數(shù)據(jù)壓縮的目的。圖書館在自建特色數(shù)據(jù)庫時,總會遇到大量的非結構數(shù)據(jù)。
怎樣進行數(shù)據(jù)知識形態(tài)化
在進行“數(shù)據(jù)知識形態(tài)化”過程中,針對復雜、多樣的非結構數(shù)據(jù)管理需求,可以結合OLTP、Datameer和Hadoop等IT技術給予解決。具體操作程序是:首先利用Datameer提供采集和讀取不同類型數(shù)據(jù)庫的平臺,然后將“二次生成數(shù)據(jù)”植入Hadoop開源框架之中,憑借其提供的分析工具對數(shù)據(jù)進行可視化分析、預測性分析、智能語義分析,從而建立“名副其實”的語義引擎,最后把“三次生成數(shù)據(jù)”進行OLTP技術處理。這樣,原初的非結構數(shù)據(jù)經(jīng)過一套蘊含多重深度分析工具程序的改造之后,就能直接存儲到關系數(shù)據(jù)庫之中。當然,由于“數(shù)據(jù)知識形態(tài)化”程序的技術含量高,這必然給圖書館員提出更高層次的業(yè)務能力要求。
在大數(shù)據(jù)存儲技術并不成熟的情況下,圖書館員們已經(jīng)在具體的實踐活動中摸索出一些大數(shù)據(jù)存儲經(jīng)驗。圖書館并非在海量數(shù)據(jù)面前無所作為;在現(xiàn)階段,最切實可行的數(shù)據(jù)存儲路徑是利用現(xiàn)有的一些數(shù)據(jù)處理工具進行“數(shù)據(jù)知識化”處理工作;經(jīng)濟適用的數(shù)據(jù)存儲方案是根據(jù)不同數(shù)據(jù)對本館館藏的重要程度,選擇、分類并有針對性地進行外掛存儲、館際存儲或館內(nèi)存儲。當然,圖書館作為政府主導下的公益型事業(yè),圖書館員在對大數(shù)據(jù)的認識上以及對大數(shù)據(jù)存儲難題的探索上總面臨內(nèi)驅(qū)力不足的問題。這是圖書館學情報學界亟待解決的另一個問題。
四川文理學院 劉瑜
